Michael Ottenbruch
2020-04-29 14:37:11 UTC
Hallo, Leute!
Irgendwie bin ich zu doof zum googlen. :-(
Ich bin, was den umgang mit der Shell angeht, ein bißchen aus der Übung
und versuche mich gerade daran, die Wikipedia-Artikel über Kommunen in
Dänemark zu aktualisieren. Dazu braucht es unter anderem Tabellen mit
Gemeinden, die ich per sed und Konsorten zusammenstelle. Diese haben
logischerweise dänische Namen. Das dänische Alphabet hat drei Buchstaben
mehr als das Deutsche, nämlich "Æ", "Ø" und "Å", die genau in dieser
Reihenfolge am Ende des Alphabets einsortiert werden.
Ich war nun der Meinung, dazu einfach nur "LC_COLLATE=da_DK.utf8" setzen
zu müssen, und schon geht alles wie von selbst. Das ist nicht der Fall:
O /
---X---
O \
***@Lenovo-MO /cygdrive/c/Users/Michael/Documents
$ echo $LC_COLLATE
da_DK.utf8
***@Lenovo-MO /cygdrive/c/Users/Michael/Documents
$ head -30 Sogn.txt
| [[Støvring Sogn]] || align = 'right' | {{EWZL|DK|730-8133}} || ||
|-
| [[Mellerup Sogn]] || align = 'right' | {{EWZL|DK|730-8134}} || ||
|-
| [[Haslund Sogn]] || align = 'right' | {{EWZL|DK|730-8135}} || ||
|-
| [[Ølst Sogn]] || align = 'right' | {{EWZL|DK|730-8136}} || ||
|-
| [[Værum Sogn]] || align = 'right' | {{EWZL|DK|730-8137}} || ||
|-
| [[Ørum Sogn]] || align = 'right' | {{EWZL|DK|730-8138}} || ||
|-
| [[Årslev Sogn]] || align = 'right' | {{EWZL|DK|730-8145}} || ||
|-
| [[Vorup Sogn]] || align = 'right' | {{EWZL|DK|730-8146}} || ||
|-
| [[Asferg Sogn]] || align = 'right' | {{EWZL|DK|730-8151}} || ||
|-
| [[Fårup Sogn]] || align = 'right' | {{EWZL|DK|730-8152}} || ||
|-
| [[Kousted Sogn]] || align = 'right' | {{EWZL|DK|730-8153}} || ||
|-
| [[Råsted Sogn]] || align = 'right' | {{EWZL|DK|730-8154}} || ||
|-
| [[Spentrup Sogn]] || align = 'right' | {{EWZL|DK|730-8155}} || ||
|-
| [[Gassum Sogn]] || align = 'right' | {{EWZL|DK|730-8156}} || ||
|-
| [[Hald Sogn]] || align = 'right' | {{EWZL|DK|730-8157}} || ||
|-
***@Lenovo-MO /cygdrive/c/Users/Michael/Documents
$ head -30 Sogn.txt | sort
| [[Ølst Sogn]] || align = 'right' | {{EWZL|DK|730-8136}} || ||
| [[Årslev Sogn]] || align = 'right' | {{EWZL|DK|730-8145}} || ||
| [[Ørum Sogn]] || align = 'right' | {{EWZL|DK|730-8138}} || ||
| [[Asferg Sogn]] || align = 'right' | {{EWZL|DK|730-8151}} || ||
| [[Fårup Sogn]] || align = 'right' | {{EWZL|DK|730-8152}} || ||
| [[Gassum Sogn]] || align = 'right' | {{EWZL|DK|730-8156}} || ||
| [[Hald Sogn]] || align = 'right' | {{EWZL|DK|730-8157}} || ||
| [[Haslund Sogn]] || align = 'right' | {{EWZL|DK|730-8135}} || ||
| [[Kousted Sogn]] || align = 'right' | {{EWZL|DK|730-8153}} || ||
| [[Mellerup Sogn]] || align = 'right' | {{EWZL|DK|730-8134}} || ||
| [[Råsted Sogn]] || align = 'right' | {{EWZL|DK|730-8154}} || ||
| [[Spentrup Sogn]] || align = 'right' | {{EWZL|DK|730-8155}} || ||
| [[Støvring Sogn]] || align = 'right' | {{EWZL|DK|730-8133}} || ||
| [[Værum Sogn]] || align = 'right' | {{EWZL|DK|730-8137}} || ||
| [[Vorup Sogn]] || align = 'right' | {{EWZL|DK|730-8146}} || ||
O /
---X---
O \
Insbesondere die ersten drei Zeilen irritieren mich. Es sieht so aus,
als würde sort da gar nichts sortieren. Aber warum stehen die Zeilen
dann vorne? Bei regexps habe ich das Problem, daß Buchstabenfolgen, in
denen dänische Sonderbuchstaben vorkommen, gar nicht als Buchstaben
erkannt werden, nicht als "[[:alpha:]]*" und nicht einmal in der Form
"\([^ ]*\)". Aber das hat vermutlich die gleiche Ursache.
Was übersehe ich?
Das System ist ein Cygwin.
Irgendwie bin ich zu doof zum googlen. :-(
Ich bin, was den umgang mit der Shell angeht, ein bißchen aus der Übung
und versuche mich gerade daran, die Wikipedia-Artikel über Kommunen in
Dänemark zu aktualisieren. Dazu braucht es unter anderem Tabellen mit
Gemeinden, die ich per sed und Konsorten zusammenstelle. Diese haben
logischerweise dänische Namen. Das dänische Alphabet hat drei Buchstaben
mehr als das Deutsche, nämlich "Æ", "Ø" und "Å", die genau in dieser
Reihenfolge am Ende des Alphabets einsortiert werden.
Ich war nun der Meinung, dazu einfach nur "LC_COLLATE=da_DK.utf8" setzen
zu müssen, und schon geht alles wie von selbst. Das ist nicht der Fall:
O /
---X---
O \
***@Lenovo-MO /cygdrive/c/Users/Michael/Documents
$ echo $LC_COLLATE
da_DK.utf8
***@Lenovo-MO /cygdrive/c/Users/Michael/Documents
$ head -30 Sogn.txt
| [[Støvring Sogn]] || align = 'right' | {{EWZL|DK|730-8133}} || ||
|-
| [[Mellerup Sogn]] || align = 'right' | {{EWZL|DK|730-8134}} || ||
|-
| [[Haslund Sogn]] || align = 'right' | {{EWZL|DK|730-8135}} || ||
|-
| [[Ølst Sogn]] || align = 'right' | {{EWZL|DK|730-8136}} || ||
|-
| [[Værum Sogn]] || align = 'right' | {{EWZL|DK|730-8137}} || ||
|-
| [[Ørum Sogn]] || align = 'right' | {{EWZL|DK|730-8138}} || ||
|-
| [[Årslev Sogn]] || align = 'right' | {{EWZL|DK|730-8145}} || ||
|-
| [[Vorup Sogn]] || align = 'right' | {{EWZL|DK|730-8146}} || ||
|-
| [[Asferg Sogn]] || align = 'right' | {{EWZL|DK|730-8151}} || ||
|-
| [[Fårup Sogn]] || align = 'right' | {{EWZL|DK|730-8152}} || ||
|-
| [[Kousted Sogn]] || align = 'right' | {{EWZL|DK|730-8153}} || ||
|-
| [[Råsted Sogn]] || align = 'right' | {{EWZL|DK|730-8154}} || ||
|-
| [[Spentrup Sogn]] || align = 'right' | {{EWZL|DK|730-8155}} || ||
|-
| [[Gassum Sogn]] || align = 'right' | {{EWZL|DK|730-8156}} || ||
|-
| [[Hald Sogn]] || align = 'right' | {{EWZL|DK|730-8157}} || ||
|-
***@Lenovo-MO /cygdrive/c/Users/Michael/Documents
$ head -30 Sogn.txt | sort
| [[Ølst Sogn]] || align = 'right' | {{EWZL|DK|730-8136}} || ||
| [[Årslev Sogn]] || align = 'right' | {{EWZL|DK|730-8145}} || ||
| [[Ørum Sogn]] || align = 'right' | {{EWZL|DK|730-8138}} || ||
| [[Asferg Sogn]] || align = 'right' | {{EWZL|DK|730-8151}} || ||
| [[Fårup Sogn]] || align = 'right' | {{EWZL|DK|730-8152}} || ||
| [[Gassum Sogn]] || align = 'right' | {{EWZL|DK|730-8156}} || ||
| [[Hald Sogn]] || align = 'right' | {{EWZL|DK|730-8157}} || ||
| [[Haslund Sogn]] || align = 'right' | {{EWZL|DK|730-8135}} || ||
| [[Kousted Sogn]] || align = 'right' | {{EWZL|DK|730-8153}} || ||
| [[Mellerup Sogn]] || align = 'right' | {{EWZL|DK|730-8134}} || ||
| [[Råsted Sogn]] || align = 'right' | {{EWZL|DK|730-8154}} || ||
| [[Spentrup Sogn]] || align = 'right' | {{EWZL|DK|730-8155}} || ||
| [[Støvring Sogn]] || align = 'right' | {{EWZL|DK|730-8133}} || ||
| [[Værum Sogn]] || align = 'right' | {{EWZL|DK|730-8137}} || ||
| [[Vorup Sogn]] || align = 'right' | {{EWZL|DK|730-8146}} || ||
O /
---X---
O \
Insbesondere die ersten drei Zeilen irritieren mich. Es sieht so aus,
als würde sort da gar nichts sortieren. Aber warum stehen die Zeilen
dann vorne? Bei regexps habe ich das Problem, daß Buchstabenfolgen, in
denen dänische Sonderbuchstaben vorkommen, gar nicht als Buchstaben
erkannt werden, nicht als "[[:alpha:]]*" und nicht einmal in der Form
"\([^ ]*\)". Aber das hat vermutlich die gleiche Ursache.
Was übersehe ich?
Das System ist ein Cygwin.
--
...und tschuess!
Michael
E-mail: ***@sailor.ping.de
...und tschuess!
Michael
E-mail: ***@sailor.ping.de