Discussion:
[Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
n***@freenet.de
2009-12-08 02:49:37 UTC
Permalink
Hallo,

durch Ulfs Beitrag¹ angeregt (vielen Dank!), in dem Bigramme einer Testdatei mittels Linux-Befehl bestimmt werden, kann nun eine erweitertete Schritt-für-Schritt-Anleitung vorgestellt werden.
Mit nur geringem weiteren Aufwand (aber entsprechender Rechenzeit) können nach dem Prinzip der Anleitung auch Tetragramme bestimmt werden.
==========

Anleitung zum Erstellen von möglichst viele Zeichen enthaltenden 1-, 2- und 3-grammen aus einer Textdatei mittels Linux-Befehlen

==========
gegeben:
Die im Leipziger Textkorpus enthaltende Datei sentences.txt, bestehend aus 3 Millionen deutschsprachiger Sätze (ein Satz pro Zeile):
http://corpora.informatik.uni-leipzig.de/resources/flatfiles/de05_3M.zip

Da jede Zeile nur einen Satz hat, der mit einer Zeilennummer und einem Tabstop beginnt, werden die Zeilenanfänge bereinigt sowie jeweils 5 Sätze (von einem Leerzeichen getrennt) zu einem Absatz zusammengeführt.
Die dann vorliegende Datei mit über 330 Millionen Zeichen (im Beispiel s.txt genannt) eignet sich als Rohtext für statistische Analysen.

Weitere Korpora siehe:
http://corpora.informatik.uni-leipzig.de/resources/flatfiles

Ein paar Informationen über die Leipziger Korpora stehen den PDF-Dateien der Seite:
http://corpora.informatik.uni-leipzig.de/download

==========
gesucht:
Listen für Zeichenhäufigkeit, Bigrammhäufigkeit und Trigrammhäufigkeit.
Für die Weiterverarbeitung in Tabellenkalkulationen sollen zusätzliche Dateien mit Tabstops als Abgrenzungszeichen vorliegen.

==========
möglicher Lösungsweg:
(In Ubuntu-Linux wurde die Terminal-Zeichenkodierung auf unicode (UTF-8) gestellt.
Um die Lösung auf einen 330-Millionen-Zeichen-Text anzuwenden, sollten 10 GB auf der Festplatte frei sein, sofern die Dateien mit den Zwischenergebnissen erst zum Schluss gelöscht werden. Anhaltspunkt: Während die Ursprungsdatei s.txt ca. 330 MB groß war, wurde s.triroh.txt 1,3 GB groß.)

Zuvor die Zeichenkodierung an Standard anpassen:
recode l1.. < sentences.txt > s.l1.txt

Zeilennummern incl. folgenden Tabstop entfernen:
sed 's/[0-9]*\t//' s.l1.txt > s.l1.wln.txt

Jeweils 5 Sätze zu einem Absatz zusammenfügen:
sed '1n;N;N;N;N;s/\n/ /g' s.l1.wln.txt > s.txt

Nun liegt der Text in der Datei s.txt so vor, dass er für statistische Analysen als Rohtext brauchbar ist. Ab jetzt folgen die Schritte, die mit jeder anderen Textdatei anstelle von s.txt gegangen werden können.

Ein Zeichen pro Zeile (Liste mit allen Zeichen):
cat s.txt | grep -o '.' > s.1st.txt

Erste Zeile löschen (Liste mit Zeichen der 2. Bigrammstelle)
sed '1d' s.1st.txt > s.bi2st.txt

Erste Zeile löschen (Liste mit Zeichen der 3. Trigrammstelle)
sed '1d' s.bi2st.txt > s.tri3st.txt

Letzte Zeile löschen (Liste mit Zeichen der 1. Bigrammstelle)
sed '$d' s.1st.txt > s.bi1st.txt

Letzte Zeile löschen (Liste mit Zeichen der 1. Trigrammstelle)
sed '$d' s.bi1st.txt > s.tri1st.txt

Letzte Zeile löschen (Liste mit Zeichen der 2. Trigrammstelle)
sed '$d' s.bi2st.txt > s.tri2st.txt

Listen zeilenweise ohne Trennzeichen zusammenführen:
paste -d '' s.bi1st.txt s.bi2st.txt > s.biroh.txt
paste -d '' s.tri1st.txt s.tri2st.txt s.tri3st.txt > s.triroh.txt

_gramm-Dateien erstellen:
sort s.1st.txt | uniq -c | sort -nr > 1gramme.txt
sort s.biroh.txt | uniq -c | sort -nr > 2gramme.txt
sort s.triroh.txt | uniq -c | sort -nr > 3gramme.txt

Leerzeichen am Zeilenanfang entfernen:
sed 's/^[ ]*//' 1gramme.txt > 1gramme.tmp.txt
sed 's/^[ ]*//' 2gramme.txt > 2gramme.tmp.txt
sed 's/^[ ]*//' 3gramme.txt > 3gramme.tmp.txt

Leerzeichen zwischen Häufigkeit und n-gramm durch Tabstop ersetzen:
sed 's/[ ]/\t/' 1gramme.tmp.txt > 1gramme.tab.txt
sed 's/[ ]/\t/' 2grammetmp.txt > 2gramme.tab.txt
sed 's/[ ]/\t/' 3gramme.tmp.txt > 3gramme.tab.txt

n-gramm-Stellen mit Tabstops trennen:
sed 's/\(.$\)/\t\1/' 2gramme.tab.txt > 2grammetab.tab.txt
sed 's/\(.\)\(.$\)/\t\1\t\2/' 3gramme.tab.txt > 3grammetab.tab.txt

Diese Dateien mit Zwischenergebnissen können gelöscht werden:
s.l1.txt
s.l1.wln.txt
s.1st.txt
s.bi2st.txt
s.tri3st.txt
s.bi1st.txt
s.tri1st.txt
s.tri2st.txt
s.biroh.txt
s.triroh.txt
1gramme.tmp.txt
2gramme.tmp.txt
3gramme.tmp.txt


==========
Ergebnisse zum Leipziger 3-Millionen-Sätze-Korpus (über 330 Millionen Zeichen):

s.txt # Textkörper für zukünftige Arbeitsgrundlage
1gramme.txt # absolute Häufigkeiten der Zeichen
2gramme.txt # absolute Häufigkeiten der Bigramme
3grammetxt # absolute Häufigkeiten der Trigramme
1gramme.tab.txt # absolute Häufigkeiten mit Tabstop der Zeichen
2grammetab.tab.txt # absolute Häufigkeiten der Bigramme mit Tabstops
3grammetab.tab.txt # absolute Häufigkeiten der Zeichen mit Tabstops


Die Ergebnisse (außer s.txt) können ab jetzt heruntergeladen werden:

gepacktes Format:
http://freenet-homepage.de/nexusboard/Neo/ngramme/ngramme.7z

ungepackt (unicode UTF-8):
http://freenet-homepage.de/nexusboard/Neo/ngramme/1gramme.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme/2gramme.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme/3gramme.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme/1gramme.tab.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme/2grammetab.tab.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme/3grammetab.tab.txt

Mit netten Grüßen
Karl



¹ Message-ID: <***@web.de>


--
Arne Babenhauserheide
2010-01-25 22:56:53 UTC
Permalink
Die Dateien sind Gold wert. Danke!

PS: Bin nach langer Auszeit wegen und nach den Diplomprüfungen wieder
zurück.
Arne Babenhauserheide
2010-01-25 22:58:59 UTC
Permalink
Hi Karl,

Ich habe jetzt gestern und heute meine Ansätze endlich in Code umgesetzt,
der, wenn ihm keine Eingabedateien gegeben werden, deine mono- und bigramme
nutzt.

Er ist v.a. durch viel Dokumentation und automatisierte Tests etwas länger,
sollte aber durch die Struktur (und Kommentare) auch für Nichtprogrammierer
lesbar sein (falls nicht, dann sagt das bitte!).

http://draketo.de/licht/freie-software/neo-tastaturlayout-pruefen-und-
evolutionaer-entwickeln

Liebe Grüße,
Arne Babenhauserheide

PS: Wie ist die Lizensierung der N-Gramm-Dateien? Kann ich sie unter der GPL
verwenden?
Karl Köckemann
2010-02-01 16:15:50 UTC
Permalink
Am Mon, 25 Jan 2010 23:58:59 +0100
Post by Arne Babenhauserheide
PS: Wie ist die Lizensierung der N-Gramm-Dateien? Kann ich sie unter
der GPL verwenden?
Hallo Arne,

Lizensierung ist für mich eine verwirrende Thematik, mit der ich mich
ungern befasse.
Mit den Dateien bzw. darin enthaltenen Daten kann jeder machen was er
will.

Mit netten Grüßen
Karl
Dennis Heidsiek
2010-02-02 08:21:50 UTC
Permalink
Hallo Karl,
Lizensierung ist für mich eine verwirrende Thematik, mit der ich mich ungern befasse.
Da muss ich Dir (leider) in beiden Punkten beipflichten.
Mit den Dateien bzw. darin enthaltenen Daten kann jeder machen was er will.
Das wäre dann wohl ein gemeinfreies¹ Werk … in solchen Fällen kann der
Erschaffer auch einfach auf die Bierlizenz² verweisen ;).


Viele Grüße,
Dennis-ſ


¹ http://de.wikipedia.org/wiki/Gemeinfreiheit
² http://de.wikipedia.org/wiki/Beerware
Christian Kluge
2010-02-02 10:53:20 UTC
Permalink
Das wäre dann wohl ein gemeinfreies Werk … in solchen Fällen kann der
Erschaffer auch einfach auf die Bierlizenz verweisen ;).
Oder auch die WTFPL¹

Mit freundlichen Grüßen

Frakturfreak

¹ http://sam.zoy.org/wtfpl/
--
Wenns halt war, wies halt war, irgendwie wars, denn noch nie wars, dass
es nicht irgendwie war.

Mein Blog: http://frakturfreaks-kleine-dinge.1on.de/
Arne Babenhauserheide
2010-02-02 12:44:55 UTC
Permalink
Post by Christian Kluge
Das wäre dann wohl ein gemeinfreies Werk … in solchen Fällen kann der
Erschaffer auch einfach auf die Bierlizenz verweisen ;).
Oder auch die WTFPL¹
Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public domain)
veröffentlicht. Dann braucht er keine Lizenzen zu verlinken.

Das heißt dann, jeder kann damit machen, was immer er will und muss auch
nicht sagen, woher er sie hat.

Liebe Grüße,
Arne
Peter Bartosch
2010-02-03 13:10:15 UTC
Permalink
Post by Arne Babenhauserheide
Post by Christian Kluge
Das wäre dann wohl ein gemeinfreies Werk … in solchen Fällen kann der
Erschaffer auch einfach auf die Bierlizenz verweisen ;).
Oder auch die WTFPL¹
Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public domain)
veröffentlicht. Dann braucht er keine Lizenzen zu verlinken.
Nein, da es im deutschen Recht kein "public domain" gibt - man kann sein
Urheber Recht nicht abtreten!

(nicht zu verwechseln mit "Leistungsschutz-Rechten", die Verkauft werden
dürfen -> Siehe Musikindustrie)


Gruß,
Peter
Arne Babenhauserheide
2010-02-03 13:27:42 UTC
Permalink
Post by Peter Bartosch
Post by Arne Babenhauserheide
Post by Christian Kluge
Oder auch die WTFPL¹
Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public
domain) veröffentlicht. Dann braucht er keine Lizenzen zu verlinken.
Nein, da es im deutschen Recht kein "public domain" gibt - man kann sein
Urheber Recht nicht abtreten!
Ach verdammt, stimmt.

Dann wohl creativecommons Zero:

- http://creativecommons.org/publicdomain/zero/1.0/deed.de

Schöner finde ich allerdings „mit Namensnennung”:

- http://creativecommons.org/licenses/by/3.0/deed.de

(ich bin ansonsten Anhänger starker Copyleftlizenzen, aber die hier erlaubt
effektiv alles, solange gesagt wird wer der Urheber ist).

Liebe Grüße,
Arne
Pascal Hauck
2010-02-03 21:20:42 UTC
Permalink
Ich bin kein Fachmann fÃŒr Lizenzen, aber war fÃŒr Neo nicht ohnehin bereits von
Hanno und Ben die GPL angedacht worden?


Gruß,
Pascal
Arne Babenhauserheide
2010-02-03 21:24:07 UTC
Permalink
Ich bin kein Fachmann für Lizenzen, aber war für Neo nicht ohnehin bereits
von Hanno und Ben die GPL angedacht worden?
Soweit ich es verstehe, geht es in der Diskussion nicht um die Lizenz für Neo,
sondern nur für die Ngramm-Dateien.

Lieben Gruß,
Arne

--- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- ---
- singing a part of the history of free software -
http://infinite-hands.draketo.de
Pascal Hauck
2010-02-03 22:16:40 UTC
Permalink
Post by Arne Babenhauserheide
Soweit ich es verstehe, geht es in der Diskussion nicht um die Lizenz für
Neo, sondern nur für die Ngramm-Dateien.
Da sie im Umfeld von Neo erzeugt werden, um eine Grundlage für Neo3 zu haben
(oder etwa nicht?) gehören sie für mich absolut zu Neo dazu und sollten
folglich auch unter der gleichen Lizenz laufen.


Gruß,
Pascal
Karl Köckemann
2010-02-04 15:57:12 UTC
Permalink
Am Wed, 3 Feb 2010 23:16:40 +0100
Post by Pascal Hauck
Post by Arne Babenhauserheide
Soweit ich es verstehe, geht es in der Diskussion nicht um die
Lizenz für Neo, sondern nur für die Ngramm-Dateien.
Da sie im Umfeld von Neo erzeugt werden, um eine Grundlage für Neo3
zu haben (oder etwa nicht?) gehören sie für mich absolut zu Neo dazu
und sollten folglich auch unter der gleichen Lizenz laufen.
Dazu fällt mir ein:
Läuft die Korpus-Datei der Uni Leipzig, aus der die N-Gramm-Dateien
erstellt wurden, unter einer Lizenz, die u. U. berücksichtigt werden
müsste?

Ansonsten können die N-Gramm-Dateien gerne unter einer für Neo passende
Lizenz gestellt werden. Schließlich vermag ich in N-Gramm-Dateien - zu
welchen Korpora auch immer - keine schöpferische Höhe erkennen.

Mit netten Grüßen
Karl
Dennis Heidsiek
2010-02-06 11:17:55 UTC
Permalink
Hallo allerseits,
Soweit ich es verstehe, geht es in der Diskussion nicht um die Lizenz für Neo, sondern nur für die Ngramm-Dateien.
Da sie im Umfeld von Neo erzeugt werden, um eine Grundlage für Neo3 zu haben (oder etwa nicht?) gehören sie für mich absolut zu Neo dazu und sollten folglich auch unter der gleichen Lizenz laufen.
Er hat nach einer gemeinfreien ›Lizenz‹ gefragt – also nach einer, die
mit den Neo-Lizenzen kompatibel ist, weil sie noch /freier/ ist. Da muss
man meines Erachtens jetzt nicht den Lizenz-Fanatiker herauskehren und
unbedingt auf eine Copyleft-Linzenz bestehen …


Viele Grüße,
Dennis-ſ

PS‌: Ich hoffe, dass ich mir mit dieser Ausſage jetzt keine Feinde im
hiesigen Stallman-Fanclub gemacht habe ;).
Pascal Hauck
2010-02-06 15:24:18 UTC
Permalink
Er hat nach einer gemeinfreien ›Lizenz‹ gefragt
Lizensierung ist fÃŒr mich eine verwirrende Thematik, mit der ich mich
ungern befasse.
Zwischen einem „ich habe keine Ahnung davon“ und einem „ich bestehe auf einer
gemeinfreien Lizenz“ ist nicht nur ein gradueller Unterschied.

Eben weil Karl angibt, keine Ahnung von der Materie zu haben, kam mein
Vorschlag, die fÌr Neo Ìbliche Lizenz zu wÀhlen. Ich halte das fÌr sinnvoll,
aber bleibt nur ein Vorschlag – mehr nicht! Im Übrigen bin auch ich auf diesem
Gebiet nicht sehr bewandert.
Daraus sofort einen „Lizenz‑Fanatiker“ (sic) zu lesen, wird weder mir noch der
Sache gerecht.


Gruß,
Pascal
Dennis Heidsiek
2010-02-07 08:28:19 UTC
Permalink
Hallo Pascal,
Post by Dennis Heidsiek
Er hat nach einer gemeinfreien ›Lizenz‹ gefragt
Ich will keinen unnötigen Streit,
Ich doch auch nicht!
Post by Dennis Heidsiek
Lizensierung ist für mich eine verwirrende Thematik, mit der ich mich ungern befasse.
Zwischen einem „ich habe keine Ahnung davon“ und einem „ich bestehe auf einer gemeinfreien Lizenz“ ist nicht nur ein gradueller Unterschied.
Stimmt, aber Du hättest auch den nächsten Satz aus Karls E-Mail zitieren
Mit den Dateien bzw. darin enthaltenen Daten kann jeder machen was er
will.
Also wenn das nicht geradezu die Definition von ›gemeinfrei‹ ist …
Eben weil Karl angibt, keine Ahnung von der Materie zu haben, kam mein Vorschlag, die für Neo übliche Lizenz zu wählen.
Das wäre dann wohl die CC-BY-SA-3.0 (da es sich um Text handelt) … oder
doch eher die GPL 3 (da eher für andere Programme gedacht)? So richtig
haben wir diesen ganzen Themenkomplex nie zu Ende ausdiskutiert¹ – es
hat schon seinen Grund, weshalb Du selbst nur von der ݟbliche[n]
Lizenz‹ sprichst. Karls eingangs von Dir zitierte Satz trifft auf viele
für uns (mich eingeschlossen) zu … weshalb ich es sinnvoll fand, seine
Frage, wie man etwas als Gemeinfrei freigeben kann, mit dem Hinweis auf
eine dementsprechende Lizenz (wie eben die CC-Zero, die für genau solche
Zwecke – und eben auch die deutsche Rechtsordung, die eigentlich keinen
vollkommenen Rechteverzicht kennt, sondern nur das Einräumen für
Nutzungsrechte für jedermann – erdacht worden ist), zu beantworten.
Gebiet nicht sehr bewandert. Daraus sofort einen „Lizenz‑Fanatiker“ (sic) zu lesen, wird weder mir noch der Sache gerecht.
Ich wollte Dich nicht beleidigen, wenn ich das aber getan haben sollte,
bitte ich Dich hiermit offiziell um Entschuldigung!

Ich hatte Deine Wortmeldung so verstanden, dass Du gemeinfreie Lizenzen
generell ablehnen würdest, da sie über keine Copyleft-Klausel verfügen
(und sie infolgedessen auch proprietäre Weiterentwicklungen/abgeleitete
Werke erlauben). Dieser Standpunkt wird durchaus vertreten, deshalb auch
mein Hinweis auf den Stallman-Fanclub (wobei auch das nicht ganz korrekt
ist, auch RMS hat bspw. bei Ogg Vorbis der BSD-Lizenz, die ja wesentlich
›lockerer‹ als die GPL ist, seinen Segen gegeben, da es der Sache – der
Verbreitung freier Formate – in diesem Falle dienlicher war).

Aber ich höre jetzt besser auf, über Lizenzfragen zu schreiben, sonst
beginnt der Sonntag gleich mit dicken Kopfschmerzen ;).


Viele Grüße,
Dennis-ſ


¹ https://wiki.neo-layout.org/wiki/Lizenzfragen
Pascal Hauck
2010-02-07 12:31:20 UTC
Permalink
So richtig haben wir diesen ganzen Themenkomplex nie zu Ende ausdiskutiert
Das stimmt. Es sollten sich einige, die fit auf diesem Bereich sind,
diskutieren und eine Entscheidung treffen.
Sofern die Entscheidung sinnvoll fÃŒr Neo ist, wÃŒrde sie von den anderen – so
auch mir – sicherlich akzeptiert werden.


Gruß,
Pascal
Karl Köckemann
2010-02-07 14:34:35 UTC
Permalink
Am Sat, 6 Feb 2010 16:24:18 +0100
Post by Pascal Hauck
Eben weil Karl angibt, keine Ahnung von der Materie zu haben, kam
mein Vorschlag, die für Neo übliche Lizenz zu wählen.
Dieser Vorschlag gefällt mir gut. Für die Verwendung bei Neo wurden die
n-Gramm-Dateien erstellt. Was ich für Neo erstelle, soll gerne der für
Neo vorgesehenen Lizenz unterliegen. Gerne können die n-Gramm-Dateien
unter die Lizenz gestellt werden, die für Neo gilt bzw. gelten wird.

Ich bin überrascht, dass die Antwort auf die Frage, unter welcher
Lizenz die n-Gramm-Dateien stehen, so viele (für mich weiterhin
verwirrende) Beiträge nach sich zieht. Vielleicht hängt das mit der
ungeklärten Neo-Lizensierung zusammen.
Nebenbei: Nicht wenige Unterschiede in den inzwischen unübersichtlich
vielen Lizenzen erscheinen mir auf Haarspaltereien zu basieren, mit
denen zu befassen ich vermeiden möchte, solange kein zwingender Grund
vorliegt.

Mir wäre es lieb, wenn bald klar sein könnte, unter welcher Lizenz Neo
läuft. Zwar würde ich dann immer noch nicht wissen, wie ich mich
aufgrund der Lizenz verhalten müsste, um sie zu erfüllen, jedoch gehe
ich davon aus, dass ich dem feinen Projekt nicht zuwider handele.

Wäre es sinnvoll, die Frage, unter welcher Lizenz Neo läuft, vor bzw.
mit dem Abschließen von Neo2 zu klären?

Mit schönen Grüßen
Karl
Dennis Heidsiek
2010-02-07 15:16:35 UTC
Permalink
Hallo allerseits,
So richtig haben wir diesen ganzen Themenkomplex nie zu Ende ausdiskutiert
Das stimmt. Es sollten sich einige, die fit auf diesem Bereich sind, diskutieren und eine Entscheidung treffen.
Dann presche ich einfach mal vor und unterbreite einen Vorschlag, um die
Diskussion zu starten:

1) Was das Wiki und die Grafiken angeht, sollten wir auch weiterhin bei
der CC-BY-SA-3.0 bleiben, da so die gesamte Dokumentation unter einer
freien Copyleft Lizenz steht, die praktischerweise auch
Wikipedia-konform ist.

1b) Das sollte auch für die Referenz, also die neo20.txt gelten

2) Treiber, Programme, Programmdaten etc. sollten grundsätzlich unter
der GPL 3 (oder später) lizensiert werden, es sei denn …

2b) Eine lockerere Lizenz (GPL2+, BSD oder so etwas) ist notwendig,
damit Treiber direkt in Linux, BSD, etc. aufgenommen werden können –
dann ist auch diese Lizenz okay.

Das wäre mein Vorschlag, nehmt ihn auseinander ;).
Sofern die Entscheidung sinnvoll für Neo ist, würde sie von den anderen – so auch mir – sicherlich akzeptiert werden.
Große inhaltliche Differenzen gibt es hier (hoffentlich!) nicht –
wichtig ist nur, dass wir in dieser Frage überhaupt einmal eine
Entscheidung treffen. Ich glaube nicht, dass uns Debian-Legal eine
Aussage der Form »Die Treiber sind frei, aber wir konnten uns noch auf
keine konkrete Lizenz einigen« durchgehen lassen würde ;).
Ich bin überrascht, dass die Antwort auf die Frage, unter welcher Lizenz die n-Gramm-Dateien stehen, so viele (für mich weiterhin verwirrende) Beiträge nach sich zieht. Vielleicht hängt das mit der ungeklärten Neo-Lizensierung zusammen.
Da hast Du den Nagel auf den Kopf getroffen :).
Nebenbei: Nicht wenige Unterschiede in den inzwischen unübersichtlich vielen Lizenzen erscheinen mir auf Haarspaltereien zu basieren, mit denen zu befassen ich vermeiden möchte, solange kein zwingender Grund vorliegt.
Da stimme ich Dir vollkommen zu! Es gibt viel zu viele Lizenzen, und das
ist allgemein auch ein recht unübersichtliches Feld, in das man sich
erstmal einarbeiten muss. Aber die Dinge sind da wie sie sind und wir
müssen das Beste daraus machen.
Mir wäre es lieb, wenn bald klar sein könnte, unter welcher Lizenz Neo läuft.
Das möchte ich ausdrücklich unterstreichen!
Zwar würde ich dann immer noch nicht wissen, wie ich mich aufgrund der Lizenz verhalten müsste, um sie zu erfüllen, jedoch gehe ich davon aus, dass ich dem feinen Projekt nicht zuwider handele.
Keine Panik, so schnell wird man nicht zum Kriminellen :). Außerdem
geben freie Lizenzen einem explizit Rechte, die man sonst nicht hätte –
und es gibt durchaus auch allgemeinverständliche Zusammenfassungen im
Netz, bspw. die von Creative Commons:

http://creativecommons.org/licenses/by-sa/3.0/deed.de
http://creativecommons.org/licenses/GPL/2.0/deed.de
Wäre es sinnvoll, die Frage, unter welcher Lizenz Neo läuft, vor bzw. mit dem Abschließen von Neo2 zu klären?
Das wäre es, ich würde sagen, dass es sogar zwingend notwendig ist!


Viele Grüße,
Dennis-ſ
Arne Babenhauserheide
2010-02-14 12:34:15 UTC
Permalink
Hi,
Post by Dennis Heidsiek
Dann presche ich einfach mal vor und unterbreite einen Vorschlag, um die
1) Was das Wiki und die Grafiken angeht, sollten wir auch weiterhin bei
der CC-BY-SA-3.0 bleiben, da so die gesamte Dokumentation unter einer
freien Copyleft Lizenz steht, die praktischerweise auch
Wikipedia-konform ist.
Da ist dann, soweit ich weiß, die Schwierigkeit, dass sie nicht in jedem
Fall einfach in GPL-Programmen genutzt werden können.
Post by Dennis Heidsiek
1b) Das sollte auch für die Referenz, also die neo20.txt gelten
Wie wäre es, stattdessen für alle Mediendateien eine Doppellizensierung zu
machen: GPL + cc-by-sa
Post by Dennis Heidsiek
2) Treiber, Programme, Programmdaten etc. sollten grundsätzlich unter
der GPL 3 (oder später) lizensiert werden, es sei denn …
2b) Eine lockerere Lizenz (GPL2+, BSD oder so etwas) ist notwendig,
damit Treiber direkt in Linux, BSD, etc. aufgenommen werden können –
dann ist auch diese Lizenz okay.
Klingt gut.

Ich würde wie beim Wiki hinzufügen, dass Programme die Mediendateien unter
cc-by-sa UND GPL haben *sollten*. Damit können Bilder aus Programmen dann
auch im Wiki genutzt werden.

Eine Alternative wäre, alles explizit unter die GPL zu stellen und bei
Dateien im Wiki die cc-by-sa hinzuzufügen. Um möglichst weite Verbreitung zu
ermöglichen, sollte es für Hintergrundsachen GPLv2 or later sein (es gibt
noch viele Programme unter GPLv2) und GPLv3 or later für alleinstehende
Programme.

Liebe Grüße,
Arne
Karl Köckemann
2010-03-08 22:47:26 UTC
Permalink
Da nun das Thema Lizensierung ansteht, sei es wieder aufgegriffen.

Man stelle sich folgenden Fall vor:

Ein Tastaturhersteller übernimmt das Ebenenkonzept von Neo. Da sich
Qwertz gut verkauft, implementiert er in eine Qwertz-Tastatur große
Teile der Ebenen 3 und 4 (Cursorsteuerung und Zahlen) und evtl. die
Ebenen 5 und 6 komplett.

Die Qwertz-Tastatur des Herstellers wird im Laufe der Zeit zu einem
Verkaufsschlager.

Soll Neo vom Hersteller als seine "Erfindung" vermarkten können?

Soll auf Hardware, die wesentliche Teile von Neo übernimmt oder
nachahmt, eine Pflicht für den gut lesbaren Aufdruck von etwas wie "Neo
(E3/E4)" an deutlich sichtbarer Stelle der Hardware (z. B.
Tastaturoberseite) bestehen?

Der Hintergrund:
Eine Tastatur mit Qwertz-Belegung, die die weiteren Ebenen enthält,
kann - wen wunderts - im Laufe einiger Jahre sehr erfolgreich werden.
Hat eine solche Tastatur einen dauerhaften Aufdruck, der auf Neo
hinweist, dann wird bei deren Benutzern bald das Interesse an Neo
erweckt, was bei manchen Benutzern zu einem Übergang von Qwertz nach
Neo auf allen Ebenen führen wird.

Eine Tastatur, welche die übliche Qwertz-Belegung mitsamt der
Neo-Ebenen 3 bis 6 aufweist, ist nicht nur für einen Tastaturhersteller
hoch interessant. Just durch eine solche Tastatur kann auch Neo
allgemein bekannt werden, da sie eine Brücke zwischen Qwertz und Neo
schlägt.
Diese Brücke kann ein wichtiger Übergang von Qwertz zu Neo werden, d.
h. die Bekanntheit und Verbreitung von Neo steigern - aber wohl kaum,
wenn alle Welt die Belegung mit einem Hersteller verbindet, statt mit
Neo.

Etwas wie Neo unterscheidet sich von z. B. Firefox. Firefox ist
eindeutig Software.
Was müsste eine Lizenz für eine Tastenbelegung vorsehen, die auf
Tastaturen, Notebooks, etc. als Hardware umsetzbar ist, ohne dort
"Software" zu sein?

Als was gilt eine Tastenbelegung, geistiges Eigentum mit entsprechender
schöpferischer Höhe (die bei Neo wohl nicht angezweifelt werden kann),
oder als Software, oder als Hardware?

Oder müssen die einzelnen Komponenten von Neo unterschiedliche
Lizenzen zugewiesen bekommen?


Als Laie würde ich vermuten, dass es sinnvoll wäre, wenn
Hardwareprodukte, die von vornherein für Neo vorgesehen sind, auch
einen entsprechenden Aufdruck führen sollten.

Oder liege ich da falsch?

Mit schönen Grüßen
Karl
Peter Fischer
2010-03-09 17:45:01 UTC
Permalink
NatÃŒrlich war das Erarbeiten von NEO ein ziemliches StÃŒck Arbeit. Aber wenn
man es jetzt maximal mit Lizenzen behÀngt, bremst man nur die Hersteller,
die dann erst mal die Rechtsabt. prÃŒfen lassen.

Dann kann man mit NEO zwar ziemlich gut schreiben, aber man erlangt nicht
die Weltherrschaft - höchstens im alleridealsten Idealfall die Vorherrschaft
auf dem deutschsprachigen Tastaturmarkt - global gesehen aber trotzdem eine
Randgruppe.

Irgendwo im Netz geistert die Geschichte herum, wie lange die IslÀnder fÌr
eine SprachunterstÌtzung ihrer Sprache in Winzigweich Fenster kÀmpfen
mussten... NEO-Schreiber sind zahlenmÀßig noch weniger.

Ich fÌr mich wÀre froh, wenn ich aus möglichst vielen NEO-Designs von
möglichst vielen Herstellern auswÀhlen könnte, fÌr die Marktdurchdringung
wÀre Konkurrenz (=> niedrigere Preise als bei Sonderserien) auch nÌtzlich.
Vielleicht ist dann NEO als Skillangabe bei einer Bewerbung auch in Zukunft
mal etwas wert, weil es so viele Menschen beherrschen, daß auch
HR-Abteilungen das KÃŒrzel NEO kennen.

FÃŒr mich wÀre wichtig, daß wo NEO auf der Verpackung draufsteht, auch NEO
drin ist, und zwar in der dahinter angegebenen Version, ohne Abstriche.

FÃŒr mich wÀre wichtig, daß ich bei der nÀchsten Laptopbestellung auch ein
[x] bei NEOx machen kann. Das wird keiner der Massenhersteller machen, wenn
er erst Rechtsprobleme abklopfen mÃŒsste, und dann noch Angst vor
LizenzgebÃŒhren haben mÃŒsste.

FÃŒr mich wÀre wichtig, daß niemand per embrace and extend NEO-Standards
verwÀssert.

FÃŒr mich wÀre wichtig, daß niemand NEO-Standards fÃŒr sich beanspruchen
und/oder wegsperren kann.

Dem Schreiber wird wichtig sein, daß er ein Produkt auspackt, ggf. einen
Treiber installiert und dann schreiben (ÃŒben) kann.
Wo genau welcher Scancode in welchen Codepoint umgesetzt wird und ob das
direkt in der Tastatur geschieht oder im Treiber, wird dem Anwender herzlich
egal sein.

Also so BSD-ig wie möglich mit Extraklausel, daß ein NEOx-Name nur verwendet
werden darf, wenn der entsprechende Standard komplett und ohne Änderung
umgesetzt wurde.

Bevor man falsch lizensiert lieber bei der FSF-EU um UnterstÃŒtzung fÃŒr
rechtlich einwandfreie Formulierungen nachfragen.

nur meine 2ct.

Servus,
Peter
Dennis Heidsiek
2010-03-09 23:07:30 UTC
Permalink
Hallo allerseits,
Natürlich war das Erarbeiten von NEO ein ziemliches Stück Arbeit. Aber
wenn man es jetzt maximal mit Lizenzen behängt, bremst man nur die
Hersteller, die dann erst mal die Rechtsabt. prüfen lassen.
Nein, es ist doch genau umgekehrt: Wenn man /keine/ Lizenz angibt, muss
der Hersteller/Nutzer gemäß deutschen Rechtes erstmal davon ausgehen,
das er es /nicht/ verwenden darf. Natürlich gibt es auch Lizenzen
(Microsoft Eula), die dem Nutzer recht wenige Rechte und viele Pflichten
auferlegen, aber die meisten freien Lizenzen stellen eben erst sicher,
dass der Nutzer die vier Freiheiten¹ für sich in Anspruch nehmen
kann/darf und schaffen damit Rechtsſicherheit.


Viele Grüße,
Dennis-ſ


¹ http://de.wikipedia.org/wiki/Freie_Software#Abgrenzungen
Karl Köckemann
2010-03-10 08:19:40 UTC
Permalink
Am Tue, 9 Mar 2010 18:45:01 +0100
Post by Peter Fischer
Dann kann man mit NEO zwar ziemlich gut schreiben, aber man erlangt
nicht die Weltherrschaft - höchstens im alleridealsten Idealfall die
Vorherrschaft auf dem deutschsprachigen Tastaturmarkt - global
gesehen aber trotzdem eine Randgruppe.
Vorrangig ist Neo bislang doch für die deutsche Sprache optimiert.
Post by Peter Fischer
Für mich wäre wichtig, daß wo NEO auf der Verpackung draufsteht, auch
NEO drin ist, und zwar in der dahinter angegebenen Version, ohne
Abstriche.
Eine Kennzeichnung auf der Verpackung ist sinnvoll, aber soll sie nicht
auch auf der Hardware zu sehen sein?
Post by Peter Fischer
Für mich wäre wichtig, daß niemand per embrace and extend
NEO-Standards verwässert.
Dennoch halte ich es für einen sinnvollen Kompromiss, wenn
Tastaturhersteller Qwertz-belegte Tastaturen mit den Neo-Ebenen 3 bis 6
anbieten - idealerweise mit der Möglichkeit, die Ebenen 1 und 2
zwischen Qwertz und Neo umschalten zu können. Solche Tastaturen dürften
die Akzeptanz sowohl bei den Herstellern als auch bei Interessierten
erheblich erhöhen, was Umlernende sicherlich zusätzlich zu schätzen
wissen werden.
Post by Peter Fischer
Für mich wäre wichtig, daß niemand NEO-Standards für sich
beanspruchen und/oder wegsperren kann.
Das erscheint mir ebenfalls wichtig.
Post by Peter Fischer
Also so BSD-ig wie möglich mit Extraklausel, daß ein NEOx-Name nur
verwendet werden darf, wenn der entsprechende Standard komplett und
ohne Änderung umgesetzt wurde.
Vielleicht wäre es klüger, für die ersten beiden Ebenen auch Qwertz
bzw. Qwerty zuzulassen. Ich bin mir sicher, dass die Verbreitung von Neo
dadurch erfolgreicher werden wird.
Post by Peter Fischer
Bevor man falsch lizensiert lieber bei der FSF-EU um Unterstützung für
rechtlich einwandfreie Formulierungen nachfragen.
Ein interessanter Hinweis. Wäre die Beratung kostenlos?

Mit schönen Grüßen
Karl
Carsten Ace Dahlmann
2010-03-09 23:25:44 UTC
Permalink
Hi!

Ich finde Karls Argumentation sehr richtig und schlÃŒssig, insbesondere,
was den möglichen BrÃŒckenschlag angeht – der natÃŒrlich nur geschehen
kann, wenn es _nicht_ passiert, dass Neo E3/4 o.Ä. ohne Hinweis auf Neo
auf einer Qwertz herauskommt.

Auf die Namensnennung bei Verwendung sollte also auf jeden Fall geachtet
werden.

LG,
Ace
--
() ascii ribbon campaign - against html e-mail
/\ www.asciiribbon.org - against proprietary attachments

http://www.dahlmann.net/?Informatives/Gekonntes_E-Mailen
Knittl
2010-03-10 19:21:51 UTC
Permalink
Hi!
Ich finde Karls Argumentation sehr richtig und schlüssig, insbesondere,
was den möglichen Brückenschlag angeht – der natürlich nur geschehen
kann, wenn es _nicht_ passiert, dass Neo E3/4 o.Ä. ohne Hinweis auf Neo
auf einer Qwertz herauskommt.
Auf die Namensnennung bei Verwendung sollte also auf jeden Fall geachtet
werden.
was spricht denn gegen [cc 3.0 by-sa][1]?

die gpl hat halt doch ein sehr starkes copyleft …

und gerade jetzt, wo creative-commons-lizenzen in letzter zeit so hip sind :)

lg, daniel

[1]: http://creativecommons.org/licenses/by-sa/3.0/
--
myFtPhp -- visit http://myftphp.sf.net -- v. 0.4.7 released!
Karl Köckemann
2010-03-10 19:51:29 UTC
Permalink
Am Wed, 10 Mar 2010 20:21:51 +0100
Post by Knittl
was spricht denn gegen [cc 3.0 by-sa][1]?
die gpl hat halt doch ein sehr starkes copyleft …
und gerade jetzt, wo creative-commons-lizenzen in letzter zeit so hip sind :)
lg, daniel
[1]: http://creativecommons.org/licenses/by-sa/3.0/
Ob etwas gegen cc 3.0 by-sa spricht, vermag ich nicht abzuwägen.
Nachdem ich nun mehr über das reichlich starke Copyleft bei GPL gelesen
habe, scheint mir GPL für Neo uninteressant zu sein.

Mit netten Grüßen
Karl
Arne Babenhauserheide
2010-03-10 22:03:13 UTC
Permalink
Post by Karl Köckemann
Am Wed, 10 Mar 2010 20:21:51 +0100
Post by Knittl
was spricht denn gegen [cc 3.0 by-sa][1]?
die gpl hat halt doch ein sehr starkes copyleft …
[1]: http://creativecommons.org/licenses/by-sa/3.0/
Ob etwas gegen cc 3.0 by-sa spricht, vermag ich nicht abzuwägen.
Nachdem ich nun mehr über das reichlich starke Copyleft bei GPL gelesen
habe, scheint mir GPL für Neo uninteressant zu sein.
Die cc by-sa hat im Prinzip das gleiche Copyleft wie die GPL¹, nur ist sie
nicht so gut abgesichert (mir fallen ad-hoc 3 Wege ein, wie ich einen cc by-
sa lizensierten Text für den ursprünglichen Autor unbenutzbar machen kann,
so dass von meinen Verbesserungen effektiv nur noch ich profitieren würde,
weil die cc Lizenzen nicht die Freiheit der Quelldateien sichern).

Wenn es also um das Copyleft an sich geht, ist es recht egal ob nun cc by-sa
oder GPL. Die GPL ist allerdings dann die richtige Wahl, wenn keine
scheunentorgroßen Schlupflöcher bleiben sollen :)

Sie sagt etwas vereinfacht: „Wenn du das hier verbreitest, muss auch jeder
(der es bekommt) deine Änderungen unter der GPL verwenden können.”

Jede Lizenz mit schwächerem Copyleft löst diese Symmetrie auf.

Und die GPL ist die meistgenutzte Lizenz für freie Software, so dass jeder
Programmierer, der sich etwas mit freier Software auskennt, sofort weiß,
woran er ist.

Liebe Grüße,
Arne

¹: Beide sagen: Alle Änderungen müssen unter der gleichen Lizenz stehen. Die
GPL sorgt noch dafür, dass die Änderungen wirklich von anderen nutzbar sind.
Alexander Koch
2010-03-10 22:37:45 UTC
Permalink
Hallo,

ich möchte mich nun auch mal zur Lizenz äußern. Das Problem bei dieser Frage
ist insbesondere, dass wir uns alle einig sein müssen.

Soweit ich weiß (ohne genaue rechtliche Kenntnisse) aber auf den FSF-Seiten
steht es irgendwo, und es betrifft damit v.a. das amerikanische Recht und
damit nicht so sehr unseres: Es muss in der jeweiligen Datei erstmal vermerkt
sein, wer alles substanzielle Änderungen gemacht hat, d.h. eine Copyright-
Notiz mit jeweils allen Mitwirkenden. Dann sollte am Beginn jeder Datei die
Lizenz stehen unter der die Datei steht. (Wahrscheinlich kann man auch eine
große Datei für das gesamte Paket anlegen).

Da bisher im gesamten Verlauf des Projekts klar war, dass es unter eine freie
Lizenz kommt, kann man denke ich davon ausgehen, dass darin jede_r
eingewilligt hat. Die meisten Leute haben dabei die GPL im Sinn, die ja auch
in einer der alten Projektdateien erwähnt wird. Sie bietet auch, denke ich den
meisten Schutz für die Autor_innen und ist dabei gleichzeitig frei. Wenn
jede_r Aktive zustimmt, wird es denke ich kein Problem sein, eine Copyleft-
Lizenz zu wählen, wobei ich mich hier dann für GPLv3 und CC3-BY-SA stark
machen möchte.

Lieber wäre mir eigentlich die Variante BSD+CC3-BY, weil sie dann auch mit
BSD-Derivaten kompatibel ist und die meiste Freiheit liefert. Wenn wir diesen
weg gehen würden, wäre es denke ich aber etwas, das nicht von allen
vorherzusehen war und wir müssten auch alle, die nicht mehr aktiv sind, aber
mal einen wichtigen Beitrag zu Neo geleistet haben, anschreiben und eine
Erklärung, dass sie damit einverstanden sind, einholen. Die Historie davon ist
ja durch das Versionsverwaltungssystem aufgezeichnet.

Es kann natürlich sein, dass das auch für obere Variante ansteht, aber das
wären evtl. Spitzfindigkeiten. Ich denke aber, dass BSD+CC3-BY die beste
Variante für eine Tastaturbelegung ist. Ich kann mir auch kein Szenario
denken, wo ernsthaft die Ideen von Neo2 von „komerziellen Firmen“ misbraucht
werden, und es dabei einen Schaden darstellt. Sobald aber ein_e Software-
Autor_in sagt, dass er_sie damit nicht leben kann, ist die Sache auch
entschieden, außer wir stellen Teile unter verschiedene Lizenzen.

Viele Grüße,
Aleχ
Karl Köckemann
2010-03-09 11:33:27 UTC
Permalink
Da nun das Thema Lizensierung ansteht, sei es wieder aufgegriffen.

Man stelle sich folgenden Fall vor:

Ein Tastaturhersteller übernimmt das Ebenenkonzept von Neo. Da sich
Qwertz gut verkauft, implementiert er in eine Qwertz-Tastatur große
Teile der Ebenen 3 und 4 (Cursorsteuerung und Zahlen) und evtl. die
Ebenen 5 und 6 komplett.

Die Qwertz-Tastatur des Herstellers wird im Laufe der Zeit zu einem
Verkaufsschlager.

Soll Neo vom Hersteller als seine "Erfindung" vermarkten können?

Soll auf Hardware, die wesentliche Teile von Neo übernimmt oder
nachahmt, eine Pflicht für den gut lesbaren Aufdruck von etwas wie "Neo
(E3/E4)" an deutlich sichtbarer Stelle der Hardware (z. B.
Tastaturoberseite) bestehen?

Der Hintergrund:
Eine Tastatur mit Qwertz-Belegung, die die weiteren Ebenen enthält,
kann - wen wunderts - im Laufe einiger Jahre sehr erfolgreich werden.
Hat eine solche Tastatur einen dauerhaften Aufdruck, der auf Neo
hinweist, dann wird bei deren Benutzern bald das Interesse an Neo
erweckt, was bei manchen Benutzern zu einem Übergang von Qwertz nach
Neo auf allen Ebenen führen wird.

Eine Tastatur, welche die übliche Qwertz-Belegung mitsamt der
Neo-Ebenen 3 bis 6 aufweist, ist nicht nur für einen Tastaturhersteller
hoch interessant. Just durch eine solche Tastatur kann auch Neo
allgemein bekannt werden, da sie eine Brücke zwischen Qwertz und Neo
schlägt.
Diese Brücke kann ein wichtiger Übergang von Qwertz zu Neo werden, d.
h. die Bekanntheit und Verbreitung von Neo steigern - aber wohl kaum,
wenn alle Welt die Belegung mit einem Hersteller verbindet, statt mit
Neo.

Etwas wie Neo unterscheidet sich von z. B. Firefox. Firefox ist
eindeutig Software.
Was müsste eine Lizenz für eine Tastenbelegung vorsehen, die auf
Tastaturen, Notebooks, etc. als Hardware umsetzbar ist, ohne dort
"Software" zu sein?

Als was gilt eine Tastenbelegung, geistiges Eigentum mit entsprechender
schöpferischer Höhe (die bei Neo wohl nicht angezweifelt werden kann),
oder als Software, oder als Hardware?

Oder müssen die einzelnen Komponenten von Neo unterschiedliche
Lizenzen zugewiesen bekommen?


Als Laie würde ich vermuten, dass es sinnvoll wäre, wenn
Hardwareprodukte, die von vornherein für Neo vorgesehen sind, auch
einen entsprechenden Aufdruck führen sollten.

Oder liege ich da falsch?

Mit schönen Grüßen
Karl
Dennis Heidsiek
2010-03-09 23:15:55 UTC
Permalink
Hallo allerseits,
Ein Tastaturhersteller übernimmt das Ebenenkonzept von Neo. Da sich Qwertz gut verkauft, implementiert er in eine Qwertz-Tastatur große Teile der Ebenen 3 und 4 (Cursorsteuerung und Zahlen) und evtl. die Ebenen 5 und 6 komplett.
Die Qwertz-Tastatur des Herstellers wird im Laufe der Zeit zu einem Verkaufsschlager.
Soll Neo vom Hersteller als seine "Erfindung" vermarkten können?
Die meisten der verbreiteten Lizenzen werden ihn dazu verpflichten, den
ursprünglichen Autoren (sprich uns) zu nennen, aber gegen die
kommerzielle Nutzung an sich ist nichts einzuwenden! Schon, damit der
kbdneo das Standardtastaturlayout von Windows 8 werden kann :). Aber Du
kannst hier keine Tantiemen erwarten, dass widerspricht der Idee Freier
Software – unser einziger ›Lohn‹ ist da gewissermaßen die einsetzende
Weiterverbreitung unserer Ideen.


Viele Grüße,
Dennis-ſ
Karl Köckemann
2010-03-10 07:58:39 UTC
Permalink
Am Wed, 10 Mar 2010 00:15:55 +0100
Post by Dennis Heidsiek
Post by Karl Köckemann
Ein Tastaturhersteller übernimmt das Ebenenkonzept von Neo. Da sich
Qwertz gut verkauft, implementiert er in eine Qwertz-Tastatur große
Teile der Ebenen 3 und 4 (Cursorsteuerung und Zahlen) und evtl. die
Ebenen 5 und 6 komplett.
Die Qwertz-Tastatur des Herstellers wird im Laufe der Zeit zu einem Verkaufsschlager.
Soll Neo vom Hersteller als seine "Erfindung" vermarkten können?
Die meisten der verbreiteten Lizenzen werden ihn dazu verpflichten,
den ursprünglichen Autoren (sprich uns) zu nennen, aber gegen die
kommerzielle Nutzung an sich ist nichts einzuwenden!
Würde das bedeuten, dass jeder einzelne bei Neo Mitwirkende genannt
werden müsste? Mir genügt es, wenn nicht alle Autorennamen sondern
zusammenfassend einfach nur z. B. "Neo-basiert" genannt wird oder die
Internetadresse "http://neo-layout.org".
Post by Dennis Heidsiek
Aber Du kannst hier keine Tantiemen erwarten, dass widerspricht der
Idee Freier Software – unser einziger ›Lohn‹ ist da gewissermaßen die
einsetzende Weiterverbreitung unserer Ideen.
Um Geld geht es mir nicht. Wichtig erscheint mir, dass der
Bekanntheitsgrad von Neo steigt, wozu ich die Namensnennung auf
Hardware in Form dauerhafter Kennzeichung auf gut sichtbarer Stelle
empfehle. Wie sonst, soll die Idee sich verbreiten, wenn sie nicht mit
einer Bezeichnung verknüpft wird?

Mit netten Grüßen
Karl
Arne Babenhauserheide
2010-03-09 19:05:41 UTC
Permalink
Post by Karl Köckemann
Als was gilt eine Tastenbelegung, geistiges Eigentum mit entsprechender
schöpferischer Höhe (die bei Neo wohl nicht angezweifelt werden kann),
oder als Software, oder als Hardware?
Erstmal heißt es nicht geistiges Eigentum, sondern Monopolrechte (geistiges
Eigentum impliziert, dass es weggenommen werden kann).

Zweitens: Ich habe mich länger mit Lizenzen beschäftigt, trotzdem kann ich
mit dem Rest hier falsch liegen.

Das geklärt: Die Verpflichtung, den Namen Neo aufzudrucken ist nicht GPL
kompatibel. Allerdings muss eine Tastatur, die ein GPL-Layout nutzt, selbst
auch vollständig GPL lizensiert sein. Und es muss einen Lizenz-Hinweis und
einen Hinweis auf den Urheber geben (allerdings keine festgelegte Marke,
sondern z.B. eine Info, dass die Tastatur von der Neo Community stammt).

Es gäbe noch die Möglichkeit, eine unfreie Lizenz zu nutzen, aber das
scheint mir nicht mit den Zielen von Neo zusammenzupassen.

Alles, das GPL-kompatibel ist, darf dem Hersteller keine Grenzen fürs Design
auferlegen.

Aber natürlich gibt es die Möglichkeit, ein "Teil-Neo 4-6" Label zu
erstellen, das Hersteller verwenden dürfen, wenn sie Ebenen 4-6 unverändert
nutzen, und dafür könnte der GPL eine Zusatzerlaubnis hinzugefügt werden,
die in diesem Fall die Kombination mit nicht GPL-lizensierten Teilen
erlaubt.

Für echte Neo-Tastaturen könnte schlicht "NEO" genommen werden.

Wenn das aber nur für unveränderte NEO Tastaturen genommen werden darf, dann
muss eine Marke angemeldet werden (und zwar recht bald). Deutschlandweit
kostet das 300 Euro + Kosten des Rechtsanwalts (kann gut nochmal 300 bis 500
Euro ausmachen) und braucht mindestens 6 Monate (Einspruchsfrist). Und nein:
Ich bin kein Rechtsanwalt. Was ich zu Markenrecht weiß habe ich nur aus
eigener Netzrecherche.

Liebe Grüße,
Arne

PS: Tut mir leid, wenn der Text etwas härter klingt. Soll eigentlich nur
Information sein.
Wolf-Heider Rein
2010-03-10 19:34:19 UTC
Permalink
Guten Tag,

für eine Markenanmeldung braucht man KEINEN Rechtsanwalt, sondern nur die Zeit, um die Prozeduren beim Markenamt zu lesen und die Namen zu recherchieren:

www.dpma.de

Die Marke NEO gehört in die Warengruppe 9. In dieser Gruppe sind bereits 45 Marken mit dem Namen NEO und einem Zusatz registriert. NEO allein lässt sich in dieser Gruppe nicht mehr schützen. Man muss den Namen NEO mit einem Zusatz ergänzen, der sich von den vorhandenen Markenbezeichnungen unterscheidet. Eine passender Zusatz sollte sich finden lassen.

Ich habe kürzlich eine Marke angemeldet. Die Gebühr von 300 Euro ist innerhalb von drei Monaten fällig.

Viele Grüße
Wolf-Heider Rein
Post by Arne Babenhauserheide
Post by Karl Köckemann
Als was gilt eine Tastenbelegung, geistiges Eigentum mit entsprechender
schöpferischer Höhe (die bei Neo wohl nicht angezweifelt werden kann),
oder als Software, oder als Hardware?
Erstmal heißt es nicht geistiges Eigentum, sondern Monopolrechte (geistiges
Eigentum impliziert, dass es weggenommen werden kann).
Zweitens: Ich habe mich länger mit Lizenzen beschäftigt, trotzdem kann ich
mit dem Rest hier falsch liegen.
Das geklärt: Die Verpflichtung, den Namen Neo aufzudrucken ist nicht GPL
kompatibel. Allerdings muss eine Tastatur, die ein GPL-Layout nutzt, selbst
auch vollständig GPL lizensiert sein. Und es muss einen Lizenz-Hinweis und
einen Hinweis auf den Urheber geben (allerdings keine festgelegte Marke,
sondern z.B. eine Info, dass die Tastatur von der Neo Community stammt).
Es gäbe noch die Möglichkeit, eine unfreie Lizenz zu nutzen, aber das
scheint mir nicht mit den Zielen von Neo zusammenzupassen.
Alles, das GPL-kompatibel ist, darf dem Hersteller keine Grenzen fürs Design
auferlegen.
Aber natürlich gibt es die Möglichkeit, ein "Teil-Neo 4-6" Label zu
erstellen, das Hersteller verwenden dürfen, wenn sie Ebenen 4-6 unverändert
nutzen, und dafür könnte der GPL eine Zusatzerlaubnis hinzugefügt werden,
die in diesem Fall die Kombination mit nicht GPL-lizensierten Teilen
erlaubt.
Für echte Neo-Tastaturen könnte schlicht "NEO" genommen werden.
Wenn das aber nur für unveränderte NEO Tastaturen genommen werden darf, dann
muss eine Marke angemeldet werden (und zwar recht bald). Deutschlandweit
kostet das 300 Euro + Kosten des Rechtsanwalts (kann gut nochmal 300 bis 500
Ich bin kein Rechtsanwalt. Was ich zu Markenrecht weiß habe ich nur aus
eigener Netzrecherche.
Liebe Grüße,
Arne
PS: Tut mir leid, wenn der Text etwas härter klingt. Soll eigentlich nur
Information sein.
Arne Babenhauserheide
2010-03-10 21:45:35 UTC
Permalink
Post by Wolf-Heider Rein
Die Marke NEO gehört in die Warengruppe 9. In dieser Gruppe sind bereits
45 Marken mit dem Namen NEO und einem Zusatz registriert. NEO allein
lässt sich in dieser Gruppe nicht mehr schützen. Man muss den Namen NEO
mit einem Zusatz ergänzen, der sich von den vorhandenen
Markenbezeichnungen unterscheidet. Eine passender Zusatz sollte sich
finden lassen.
Wie wäre es mit Neo-Layout?
Post by Wolf-Heider Rein
Ich habe kürzlich eine Marke angemeldet. Die Gebühr von 300 Euro ist
innerhalb von drei Monaten fällig.
Danke für die Info!

Lief es soweit problemlos? Ich bin davor zurückgeschreckt, weil ich mir
nicht mit einem dummen Fehler alles zerschießen wollte.

War es eine Wort-, Bild- oder Wort+Bild-Marke?

Liebe Grüße,
Arne
Wolf-Heider Rein
2010-03-11 16:56:36 UTC
Permalink
Guten Tag, Arne,

ja, die Anmeldung einer Marke ist problemlos. Man braucht nur das Formular am PC auszufüllen. Wenn man vergisst, die 300 Euro zu überweisen, erlischt die Anmeldung ohne zusätzliche Komplikationen.

Ich habe nur eine Wortmarke angemeldet.

Die Wortmarke bezieht sich auf eine EINHAND-Tastatur, an der ich arbeite. Ich möchte im Laufe dieses Jahres in diesem Forum über dieses Projekt berichten.
Post by Arne Babenhauserheide
Post by Wolf-Heider Rein
Die Marke NEO gehört in die Warengruppe 9. In dieser Gruppe sind bereits
45 Marken mit dem Namen NEO und einem Zusatz registriert. NEO allein
lässt sich in dieser Gruppe nicht mehr schützen. Man muss den Namen NEO
mit einem Zusatz ergänzen, der sich von den vorhandenen
Markenbezeichnungen unterscheidet. Eine passender Zusatz sollte sich
finden lassen.
Wie wäre es mit Neo-Layout?
Post by Wolf-Heider Rein
Ich habe kürzlich eine Marke angemeldet. Die Gebühr von 300 Euro ist
innerhalb von drei Monaten fällig.
Danke für die Info!
Lief es soweit problemlos? Ich bin davor zurückgeschreckt, weil ich mir
nicht mit einem dummen Fehler alles zerschießen wollte.
War es eine Wort-, Bild- oder Wort+Bild-Marke?
Liebe Grüße,
Arne
Björn Seifert
2010-03-11 17:43:05 UTC
Permalink
Post by Wolf-Heider Rein
Die Wortmarke bezieht sich auf eine EINHAND-Tastatur, an der ich arbeite. Ich möchte im Laufe dieses Jahres in diesem Forum über dieses Projekt berichten.
Auf den Bericht bin ich echt gespannt, was man bisher sieht ist meiner
Meinung nach vielversprechend: http://www.the-weasel.info

Gruß
Björn
Matthias Wächter
2010-03-30 07:56:24 UTC
Permalink
Post by Karl Köckemann
Ein Tastaturhersteller übernimmt das Ebenenkonzept von Neo. Da sich
Qwertz gut verkauft, implementiert er in eine Qwertz-Tastatur große
Teile der Ebenen 3 und 4 (Cursorsteuerung und Zahlen) und evtl. die
Ebenen 5 und 6 komplett.
Die Qwertz-Tastatur des Herstellers wird im Laufe der Zeit zu einem
Verkaufsschlager.
Na das wäre dann doch ein Grund zum Feiern!
Post by Karl Köckemann
Soll Neo vom Hersteller als seine "Erfindung" vermarkten können?
Nichts bin verstandet!
Post by Karl Köckemann
Soll auf Hardware, die wesentliche Teile von Neo übernimmt oder
nachahmt, eine Pflicht für den gut lesbaren Aufdruck von etwas wie "Neo
(E3/E4)" an deutlich sichtbarer Stelle der Hardware (z. B.
Tastaturoberseite) bestehen?
Eine Tastatur mit Qwertz-Belegung, die die weiteren Ebenen enthält,
kann - wen wunderts - im Laufe einiger Jahre sehr erfolgreich werden.
Hat eine solche Tastatur einen dauerhaften Aufdruck, der auf Neo
hinweist, dann wird bei deren Benutzern bald das Interesse an Neo
erweckt, was bei manchen Benutzern zu einem Übergang von Qwertz nach
Neo auf allen Ebenen führen wird.
Eine Tastatur, welche die übliche Qwertz-Belegung mitsamt der
Neo-Ebenen 3 bis 6 aufweist, ist nicht nur für einen Tastaturhersteller
hoch interessant. Just durch eine solche Tastatur kann auch Neo
allgemein bekannt werden, da sie eine Brücke zwischen Qwertz und Neo
schlägt.
Diese Brücke kann ein wichtiger Übergang von Qwertz zu Neo werden, d.
h. die Bekanntheit und Verbreitung von Neo steigern - aber wohl kaum,
wenn alle Welt die Belegung mit einem Hersteller verbindet, statt mit
Neo.
Mir gehen diese Überlegungen in die vollkommen falsche Richtung, aber
ich gehöre auch nicht zum Haupt-Belegungsentwicklungsteam.

Erstens halte ich Gebrauchsmusteranmeldung zum Sichern irgendwelcher
Ansprüche an einer Tastaturbelegung, wie sie bei Ristome erfolgt ist,
für vollkommenen Quatsch. Ich habe nur den Kopf geschüttelt, als ich
davon gelesen habe. Zu viel Monopoly gespielt, die drei Jungs.

Zweitens setzt sich das Mittelmäßige immer gegen das Gute durch. Ich
würde es schon als Erfolg für Neo werten, wenn das Ebenenkonzept ohne
Nennung der eigentlichen Ideenlieferanten in Qwertz-Tastaturen umgesetzt
würde. Qwertz um die Ebenen 3+4 zu erweitern, bringt in Wahrheit nichts
außer Arbeit mit dem Treiber, dem Umlernen und ein paar Effekten, die
vorher dann doch besser waren.

Drittens werden immer den Falschen Denkmäler gesetzt (wie beispielsweise
hier: [http://de.wikipedia.org/wiki/Siegfried_Marcus] vs.
[Loading Image...]). Wenn man
das einmal akzeptiert hat, lebt sich’s viel unbeschwerter.

Viertens wüsste ich nicht, was wir ohne konkrete geschäftsmäßige
Umsetzungsambitionen von diesem Brimborium haben sollten. Werbung kann
man auch anders machen. Und wer von sich ein Stück für die Ewigkeit
hergeben mag, sollte sich um seinen Nachwuchs kümmern.

Fünftens mache ich mir keine Sorgen, dass jemand Anderer die
Neo-Belegung oder deren Ebenenkonzept für sich beanspruchen und „uns“
den Platz in den Geschichtsbüchern streitig machen könnte. Neo steht ja
immerhin schon im Lexikon!

Sechstens stellt sich bei solchen Ideen, die man nicht hochtechnisch
ausarbeitet und als Patent anmeldet, eine Grauzone ein: Wie viel haben
sich die Entwickler des Projektes »X« von Neo abgeschaut, was eine
Referenz oder gar Namensnennung notwendig macht?

Ich könnte noch weitere Aspekte wie technische Schwächen von Neo
erwähnen, die Neueinsteiger frustrieren, Kritik beflügeln und Forks
provozieren können.

Mein Fazit: Jeder sollte – privat wie kommerziell – aus der Belegung und
dem Ebenenkonzept machen können, was er möchte, auch ohne Namensnennung
am Produkt. In der Wikipedia kann später jeder einen Verweis auf die
zugrundeliegende Neo-Belegung setzen, wenn er das für sein Ego oder auch
nur für eine historisch korrekte Sicht braucht.

– Mœsi
Arne Babenhauserheide
2010-02-14 12:34:47 UTC
Permalink
Post by Karl Köckemann
Ich bin überrascht, dass die Antwort auf die Frage, unter welcher
Lizenz die n-Gramm-Dateien stehen, so viele (für mich weiterhin
verwirrende) Beiträge nach sich zieht.
Ich beschäftige mich inzwischen schon länger mit Lizenzen (sie sind das
Fundament dessen, wodurch freie Software frei bleibt), deswegen ist die
Frage für mich wichtig.

Ein paar leichter verständliche Infos dazu gibt es bei der FSFE:

- http://www.bionicmutton.org/ade/licenses/

Da werden die Lizenzen in Bildern verglichen (jedes grüne Bild ist eine
gesicherte Freiheit).

Liebe Grüße,
Arne
Dennis Heidsiek
2010-02-14 12:46:15 UTC
Permalink
Hallo allerseits,
Post by Arne Babenhauserheide
- http://www.bionicmutton.org/ade/licenses/
Da werden die Lizenzen in Bildern verglichen (jedes grüne Bild ist eine gesicherte Freiheit).
Vielen Herzlichen Dank für den Link, diese Auflistung kannte ich noch
nicht. Muss ich gleich mal in die Lesezeichen aufnehmen … die enorme
Vielfalt von Lizenzen ist leider ein trauriges Faktum, umso wichtiger
sind solche Übersichten, damit man sich einen groben Überblick
verschaffen kann :).


Viele Grüße,
Dennis-ſ
Arne Babenhauserheide
2010-02-14 18:24:23 UTC
Permalink
Vielen Herzlichen Dank fÃŒr den Link, diese Auflistung kannte ich noch
nicht.
Ich hab' sie nur gefunden, weil ich zufÀllig zur richtigen Zeit auf
blogs.fsfe.org geschaut habe :)

Bitte weitergeben! :)

Liebe GrÌße,
Arne

--- --- --- --- --- --- --- --- ---
Unpolitisch sein
heißt politisch sein,
ohne es zu merken.
- Arne (http://draketo.de)
--- --- --- --- --- --- --- --- ---
Karl Köckemann
2010-03-10 09:30:22 UTC
Permalink
Am Sun, 14 Feb 2010 13:34:47 +0100
Post by Arne Babenhauserheide
Ich beschäftige mich inzwischen schon länger mit Lizenzen (sie sind
das Fundament dessen, wodurch freie Software frei bleibt), deswegen
ist die Frage für mich wichtig.
- http://www.bionicmutton.org/ade/licenses/
Da werden die Lizenzen in Bildern verglichen (jedes grüne Bild ist
eine gesicherte Freiheit).
Könnten die Punkte der Internetseite so interpretiert werden:

1. Freie Softwarelizenz?
2. Garantierter Zugriff auf Quellcodes?
3. Müssen alle modifizierten Versionen derselben Lizenz unterliegen?
4. Muss neue zum Gebrauch von Neo erstellte Software derselben Lizenz
unterliegen?
5. Wenn per Netzwerk (z. B. firmeninternes Netzwerk) auf Neo
zugegriffen werden kann, muss der Quellcode ebenfalls verfügbar sein?
6. Soll in einem Gerät implementiertes Neo die Neo-Lizenz berühren?
7. Soll Neo patentiert werden?
8. Von üblichen Lizensierungen abweichende Besonderheiten?


Ich (als Laie) würde die Fragen so beantworten:
++ (1. Freie Softwarelizenz?)
+? (2. Garantierter Zugriff auf Quellcodes?)
+? (3. Dieselbe Lizenz für modifizierte Versionen?)
?? (4. Dieselbe Lizenz für neue Software?)
-? (5. Verfügbarkeit von Quellcode in Netzwerken?)
++ (6. Lizenzberührung, wenn in Gerät verwendet?)
-? (7. Neo patentieren?)
?? (8. Abweichende Besonderheiten?)

Legende:
++: Ja, dafür.
--: Nein, dagegen.
??: Kann ich nicht einschätzen.
+?: Unsicher, aber eher Ja, dafür.
-?: Unsicher, aber eher Nein, dagegen.
00: Ist mir gleichgültig,

zu 6. Soll in einem Gerät implementiertes Neo die Neo-Lizenz berühren?
zu 8. Von üblichen Lizensierungen abweichende Besonderheiten?
Ja, Kennzeichnung auf Gerätefrontseite, z. B. "http://neo-layout.org".

Somit führte mich ein Vergleich mit der Tabelle der Internetseite
wegen Frage 6 (Lizenzberührung, wenn in Gerät verwendet) zu den
Lizenzierungen AGPLv3, GPLv3 und LGPLv3.
Wäre das als Lizenz die Software zu verstehen, die die Funktionalität
der Neo-Tastenbelegung bzw. das Neo-Ebenenkonpzept umsetzt?

Vielleicht kommen wir weiter, wenn Klarheit über die einzeln oben
aufgeführten Punkte besteht. Mit der Thematik Lizensierung kenne ich
mich kaum aus; und bis Ende März werde ich kaum mehr dazu beitragen
können.

Mit schönen Grüßen
Karl
Arne Babenhauserheide
2010-03-11 00:09:39 UTC
Permalink
Post by Karl Köckemann
Am Sun, 14 Feb 2010 13:34:47 +0100
Post by Arne Babenhauserheide
- http://www.bionicmutton.org/ade/licenses/
Da werden die Lizenzen in Bildern verglichen (jedes grüne Bild ist
eine gesicherte Freiheit).
-snip-

Die Idee, das aus der Richtung anzugehen finde ich klasse!

Allerdings bin ich ab morgen Abend bis Montag in Paris. Ich hoffe, ich kann
vorher nochmal ausführlich schreiben, kann es aber leider nicht garantieren.

Liebe Grüße,
Arne
Arne Babenhauserheide
2010-03-11 07:37:17 UTC
Permalink
Post by Karl Köckemann
Am Sun, 14 Feb 2010 13:34:47 +0100
Post by Arne Babenhauserheide
- http://www.bionicmutton.org/ade/licenses/
Da werden die Lizenzen in Bildern verglichen (jedes grüne Bild ist
eine gesicherte Freiheit).
1. Freie Softwarelizenz?
2. Garantierter Zugriff auf Quellcodes?
3. Müssen alle modifizierten Versionen derselben Lizenz unterliegen?
4. Muss neue zum Gebrauch von Neo erstellte Software derselben Lizenz
unterliegen?
Gilt nur, wenn sie Neo-Bibliothteken nutzt. Also nicht, wenn jemand sie ganz
neu schreibt.
Post by Karl Köckemann
5. Wenn per Netzwerk (z. B. firmeninternes Netzwerk) auf Neo
zugegriffen werden kann, muss der Quellcode ebenfalls verfügbar sein?
6. Soll in einem Gerät implementiertes Neo die Neo-Lizenz berühren?
7. Soll Neo patentiert werden?
8. Von üblichen Lizensierungen abweichende Besonderheiten?
6. Hat eine etwas andere Bedeutung: Darf ein Hersteller die Lizenz umgehen,
indem er durch Hardware dafür sorgt, dass er das Layout ändern kann, der
eigentliche Benutzer aber nicht?

7. heißt eigentlich: Soll jemand, der auf Neo aufbauend patentierte
Techniken implementiert, uns verbieten dürfen, seine Version zu nutzen (oder
uns zwingen dürfen, dafür Lizenzgebühren zu zahlen)? (wem außer mir läuft es
noch kalt den Rücken runter bei dem Gedanken?)

Sonst passt das ganz gut.
Post by Karl Köckemann
++ (1. Freie Softwarelizenz?)
+? (2. Garantierter Zugriff auf Quellcodes?)
+? (3. Dieselbe Lizenz für modifizierte Versionen?)
?? (4. Dieselbe Lizenz für neue Software?)
-? (5. Verfügbarkeit von Quellcode in Netzwerken?)
Gilt nur, wenn Software, die unsere Programme nutzt, über das Netzwerk
genutzt wird (z.B. eine virtuelle Neo-Tastatur im Netz, die automatisch die
Tasten ummappt - könnte z.B. in einen Webmailer integriert werden, und nur
mit der Bedingung können wir verlangen, den Quellcode zu bekommen).
Post by Karl Köckemann
++ (6. Lizenzberührung, wenn in Gerät verwendet?)
-? (7. Neo patentieren?)
?? (8. Abweichende Besonderheiten?)
Das heißt: Unerwartetes, bei dem man in eine Falle laufen kann. Daher würde
ich sagen: -? oder --.
Post by Karl Köckemann
++: Ja, dafür.
--: Nein, dagegen.
??: Kann ich nicht einschätzen.
+?: Unsicher, aber eher Ja, dafür.
-?: Unsicher, aber eher Nein, dagegen.
00: Ist mir gleichgültig,
zu 6. Soll in einem Gerät implementiertes Neo die Neo-Lizenz berühren?
zu 8. Von üblichen Lizensierungen abweichende Besonderheiten?
Ja, Kennzeichnung auf Gerätefrontseite, z. B. "http://neo-layout.org".
Das wäre inkompatibel mit jeglicher freien Lizenz (weil es die Nutzung
einschränkt).

Wäre es nicht sinnvoller, Neo als Marke zu etablieren, dass
Tastaturhersteller einen Vorteil davon haben, wenn sie Nutzern sagen können:
„Vollständig Neo kompatibel”?

Und die Marke dürfen sie nur verwenden, wenn sie wirklich Neo vollständig
implementieren (z.B. die Tasten wirklich richtig benennen).
Post by Karl Köckemann
Somit führte mich ein Vergleich mit der Tabelle der Internetseite
wegen Frage 6 (Lizenzberührung, wenn in Gerät verwendet) zu den
Lizenzierungen AGPLv3, GPLv3 und LGPLv3.
Wäre das als Lizenz die Software zu verstehen, die die Funktionalität
der Neo-Tastenbelegung bzw. das Neo-Ebenenkonpzept umsetzt?
Für mich ja. Allerdings ist hier wichtiger, was diejenigen denken, die die
Software schreiben.

Und Teile müssen möglicherweise unter einer schwächeren Lizenz stehen, wenn
sie eine Chance haben sollen irgendwann in Windows vorinstalliert zu sein.

Liebe Grüße,
Arne
Pascal Hauck
2010-03-10 11:17:38 UTC
Permalink
Da das Thema Lizenz recht komplex ist, möchte ich diejenigen, deren Wissen
ausreichend ist, bitten, vor der Veröffentlichung von Neo2 zu einer
Entscheidung zu kommen.
Eine Abstimmung sollte unbedingt vermieden werden!

Die Entscheidung muss so früh fallen, dass Linzenzhinweise in Dateien und
Dokumentationen ohne großen zeitlichen Druck ergänzt werden können.


Gruß,
Pascal
Karl Köckemann
2010-03-21 10:26:49 UTC
Permalink
Am Wed, 10 Mar 2010 12:17:38 +0100
Post by Pascal Hauck
Da das Thema Lizenz recht komplex ist, möchte ich diejenigen, deren
Wissen ausreichend ist, bitten, vor der Veröffentlichung von Neo2 zu
einer Entscheidung zu kommen.
Eine Abstimmung sollte unbedingt vermieden werden!
Bis zur Veröffentlichung dürfte zu wenig Zeit für eine Abstimmung
sein.

Einen Überblick über das Thema Lizensierung habe ich nicht. Liegen schon
konkrete Ergebnisse vor?

Mit netten Grüßen
Karl
Florian Janßen
2010-03-12 19:54:32 UTC
Permalink
Ich bin kein Fachmann für Lizenzen, aber war für Neo nicht ohnehin bereits von
Hanno und Ben die GPL angedacht worden?
*hüstel* ich bin auch kein Fachmann und habe mich auch nicht damit
beschäftigt, aber für den den WinDDK hat MS noch ein paar Absätze:


a. Distributable Code.
The software contains code that you are permitted to distribute in
programs you develop if you comply with the terms below.
i. Right to Use and Distribute.
The code and text files listed below are “Distributable Code.”
· REDIST.TXT Files. You may copy and distribute the object code
form of code listed in REDIST.TXT files.
· Sample Code. You may modify, copy and distribute only in object
code form the sample code found in the SRC directory of the
Windows Driver Kit, except that you may also modify, copy, and
distribute in source code form the sample code listed in the
SAMPLES.TXT file. · Third Party Distribution. You may permit
distributors of your
programs to copy and distribute the Distributable Code as part of
those programs.
ii. Distribution Requirements.
For any Distributable Code you distribute, you must
· add significant primary functionality to it in your programs;
· require distributors and external end users to agree to terms
that protect it at least as much as this agreement;
· display your valid copyright notice on your programs; and
· indemnify, defend, and hold harmless Microsoft from any claims,
including attorneys’ fees, related to the distribution or use of
your programs.
iii.Distribution Restrictions.
You may not
· alter any copyright, trademark or patent notice in the
Distributable Code;
· use Microsoft’s trademarks in your programs’ names or in a way
that suggests your programs come from or are endorsed by
Microsoft;
· distribute Distributable Code to run on a platform other than the
Windows platform;
· include Distributable Code in malicious, deceptive or unlawful
programs; or
· modify or distribute the source code of any Distributable Code so
that any part of it becomes subject to an Excluded License. An
Excluded License is one that requires, as a condition of use,
modification or distribution, that
· the code be disclosed or distributed in source code form; or
· others have the right to modify it.
Arne Babenhauserheide
2010-02-03 13:27:42 UTC
Permalink
Post by Peter Bartosch
Post by Arne Babenhauserheide
Post by Christian Kluge
Oder auch die WTFPL¹
Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public
domain) veröffentlicht. Dann braucht er keine Lizenzen zu verlinken.
Nein, da es im deutschen Recht kein "public domain" gibt - man kann sein
Urheber Recht nicht abtreten!
Ach verdammt, stimmt.

Dann wohl creativecommons Zero:

- http://creativecommons.org/publicdomain/zero/1.0/deed.de

Schöner finde ich allerdings „mit Namensnennung”:

- http://creativecommons.org/licenses/by/3.0/deed.de

(ich bin ansonsten Anhänger starker Copyleftlizenzen, aber die hier erlaubt
effektiv alles, solange gesagt wird wer der Urheber ist).

Liebe Grüße,
Arne
Karl Köckemann
2010-05-02 21:31:30 UTC
Permalink
Hallo,

im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
Hauptsächlich wurden folgende Punkte umgesetzt:
- Umstellung auf die Neue Rechtschreibung,
- Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
- Korrektur vieler Rechtschreibfehler.

Jedoch auch sehr viele andere Feinheiten wurden berücksichtigt.
Trotzdem die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden
konnten, kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen.
Daher seien die Ergebnisse nun hier vorgestellt.

Zunächst der überarbeitete Textkörper:
sentences.mod.txt

Heruntergeladen werden kann er mit dem Verweis:
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html

Die daraus entstandenen n-Gramm-Dateien:
1gramme.mod.txt
2gramme.mod.txt
3gramme.mod.txt
1gramme.tab.mod.txt
2grammetab.tab.mod.txt
3grammetab.tab.mod.txt

können mit den Verweisen heruntergeladen werden:
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/1gramme.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/2gramme.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/3gramme.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/1gramme.tab.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/2grammetab.tab.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/3grammetab.tab.mod.txt

In den ersten drei Dateien sind die einzelnen n-Gramm-Zeichen
zusammengeschrieben, in den letzten drei Dateien mit 'tab' im Dateinamen sind
die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in
Tabellenkalkulationsprogrammen eingelesen werden können.

Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
gebrauchen, als der pure - zu zeitungslastige - Leipziger Korpus.

Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden.

Mit schönen Grüßen
Karl
Christian Kluge
2010-05-02 22:09:42 UTC
Permalink
Post by n***@freenet.de
Hallo,
im Winter habe ich die fÃŒr uns zugrunde gelegte Datei des Leipziger Korpus
ÃŒberarbeitet.
- Umstellung auf die Neue Rechtschreibung,
- Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
- Korrektur vieler Rechtschreibfehler.
Das könnte wirklich eine Verbesserung fÌr die Auswertung und Optimierung
in Bezug auf Neo 3 geben.
Post by n***@freenet.de
2gramme.mod.txt
3gramme.mod.txt
2grammetab.tab.mod.txt
3grammetab.tab.mod.txt
Bei diesen Dateien ist leider ein kleiner Schönheitsfehler, es werden
auch Bi- und Trigramme mit Leerzeichen erstellt, ich glaube nicht, dass
dies Absicht war, oder?

Mit freundlichen GrÌßen

Frakturfreak
--
Wenns halt war, wies halt war, irgendwie wars, denn noch nie wars, dass
es nicht irgendwie war.

Mein Blog: http://frakturfreaks-kleine-dinge.1on.de/
Karl Köckemann
2010-05-03 10:36:26 UTC
Permalink
Post by Karl Köckemann
2gramme.mod.txt
3gramme.mod.txt
2grammetab.tab.mod.txt
3grammetab.tab.mod.txt
Bei diesen Dateien ist leider ein kleiner Schönheitsfehler, es werden
auch Bi- und Trigramme mit Leerzeichen erstellt, ich glaube nicht, dass
dies Absicht war, oder?
Doch, das ist beabsichtigt. Die Bi- und Trigramme enthalten alle im Korpus
vorkommenden Zeichen, also auch das Leerzeichen.

Bei den Dateien, in deren Dateiname 'tab' vorkommt, sind die einzelnen Zeichen
jedes Bi- bzw. Trigramms nicht zusammengeschrieben, sondern mit je einem Tabstop
voneinander getrennt. Die Dateien erleichtern das Einlesen in und Arbeiten mit
Tabellenkalkulationsprogrammen erheblich.

Mit netten Grüßen
Karl
Dennis Heidsiek
2010-05-03 14:48:00 UTC
Permalink
Moin Karl,
im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus überarbeitet.
Sehr schön, danke dafür!
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
Wenn Du einverstanden bist, kann ich das auch nochmal in das Neo-SVN
schieben.


Viele Grüße,
Dennis
Karl Köckemann
2010-05-03 18:40:47 UTC
Permalink
Post by Dennis Heidsiek
Moin Karl,
im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus überarbeitet.
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
Wenn Du einverstanden bist, kann ich das auch nochmal in das Neo-SVN
schieben.
Hi Dennis,

ja, damit bin ich einverstanden. SimpleUpload wird die Datei ohnehin irgendwann
löschen.

In dem Zusammenhang wäre es sinnvoll, die anderen 13 kleineren Dateien mit den
n-Grammen ebenfalls ins Neo-SVN zu stellen, weil unbekannt ist, wie lange
freenet.de meine Homepage noch nicht löscht (freenet.de hat den Dienst
inzwischen eingestellt).

Mit netten Grüßen
Karl
Martin Roppelt
2010-05-06 15:28:52 UTC
Permalink
Post by Karl Köckemann
Post by Dennis Heidsiek
Post by Karl Köckemann
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
Wenn Du einverstanden bist, kann ich das auch nochmal in das Neo-SVN
schieben.
ja, damit bin ich einverstanden. SimpleUpload wird die Datei ohnehin irgendwann
löschen.
Wird die Datei bald ins SVN kopiert (100MB ist eigentlich ganz schön
viel)? Kann ich sie anders bekommen? Bei simpleupload bekomme ich
nämlich nur eine ein paar KB große Datei.

Und noch ne Frage: Sind in den n-Grammen auch Zeilenumbrüche/Enter
dabei? Wie sind die gestaltet?

Gruß,
Martin
Dennis Heidsiek
2010-05-06 15:50:32 UTC
Permalink
Hallo allerseits,
Post by Martin Roppelt
Wird die Datei bald ins SVN kopiert
Kann ich machen! Bisher habe ich nur die n-Gramme hochgeladen:
http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl
Post by Martin Roppelt
(100MB ist eigentlich ganz schön viel)?
Genau deshalb habe ich bislang gezögert … mein lokaler Checkout des
Neo-SVN (mitsamt den ganzen .svn-Dateien) kommt insgesamt auf 77,8 MB,
da schienen mir 100 MB (als .tar.bz2) bzw. MB (entpackt) doch etwas sehr
groß zu sein … ich habe schlichtweg Angst, damit das SVN zu
zerschiessen. Ganz zu schweigen davon, dass der lokale Checkout dann bis
auf MB anschwellen würde.

Kennt sich da jemand etwas genauer mit SVN aus?
Post by Martin Roppelt
Kann ich sie anders bekommen?
Hm, vielleicht könnten wir Ben fragen, ob wir die Datei ausserhalb des
SVNs über HTML zugänglich machen könnten? Hat jemand bessere Ideen?
Post by Martin Roppelt
Bei simpleupload bekomme ich nämlich nur eine ein paar KB große Datei.
Also die Datei konnte ich dort problemlos mit Chrome herunterladen.
Post by Martin Roppelt
Und noch ne Frage: Sind in den n-Grammen auch Zeilenumbrüche/Enter dabei? Wie sind die gestaltet?
Ich kopiere Dir einfach mal den Anfang der Datei ans Ende dieser Mail.
Post by Martin Roppelt
weil unbekannt ist, wie lange freenet.de meine Homepage noch nicht löscht (freenet.de hat den Dienst inzwischen eingestellt).
Das wusste ich gar nicht! Ich hatte nur mitbekommen, dass mit GeoCities
ein anderer ›klassischer‹ Free-Home//page-Hoster seinen Dienst
eingestellt hat … so langsam sterben die Dinosaurier aus ;).


Viele Grüße,
Dennis-ſ


<Start>
Stanczyk nannte es beunruhigend, dass die Bundesregierung in dieser
Frage bislang nicht einmal informell Kontakt zur polnischen Regierung
gesucht habe.
Die Preise für ein Einzelzimmer liegen hier zwischen 129 und 149 Euro.
Leder: Vielleicht ringt Normann nur um Anerkennung. Hilfen und
Fördermaßnahmen: Der Senat will ab 2002 die Wirtschafts- und
Beschäftigungsförderprogramme straffen, die Arbeit der Sozialämter
reformieren, die Heimunterbringung von Kindern und Jugendlichen neu
ordnen und die Krankenhilfe eindämmen. Möglicherweise werden aus
Benutzern "Kunden", sobald sie für die Inanspruchnahme der Bibliothek
bezahlen müssen. Das können die Fachleute beraten.
Der Auftakt zur Münchner Flutlichtsaison der Traber aber findet - keine
Regel ohne Ausnahme - nicht am Dienstag, sondern am heutigen Donnerstag
(18.30 Uhr) statt. Das Publikum genoss die Lesung sichtlich und vor dem
Heimweg wappneten sich die meisten am Bücherstand mit "Mehr Hirn". Zur
Beteiligung an Babcock sagte Lederer, solange die Umstrukturierung
dauere müsse Preussag mit im Boot bleiben. Rose sei Realist, einer, der
erst denkt und dann handelt. Der fährt nach einer nicht ganz präzisen
Telefonauskunft erst einmal zum Haupttor, um sich zu erkundigen. und als
er an der um die Ecke gelegenen Feuerwehrzufahrt eintrifft, ist der
Panzer weg.
Ich liege im Bett, im Krankenhaus, träume tief und dunkel. Mit den drei
afrikanischen Mitgliedern Angola, Kamerun und Guinea bemühten sie sich
um einen Kompromiss. Das Verteidigungsministerium in Washington
bezeichnete den Absturz als Unfall und leitete eine Untersuchung ein.
Dann wären die Freisprüche auf der Landgerichtsebene rechtskräftig. Nato
und Russland sind seit Mai über den Nato- Russland-Rat enger als zuvor
aneinander gebunden.
Das von Seoul finanzierte Projekt ist in der Anfangsphase. Auf dem Bus
steht in kursiven Lettern: Die Wölfe kommen. Wasserski: Junge Leser
konnten kostenlos am Neuländer See üben. "So weit denke ich allerdings
noch nicht", versicherte Ribbeck gestern, "wichtig ist jetzt, die Fehler
aus dem Spiel gegen Holland auszumerzen.
Und genauso wenig lässt sich anhand mathematischer Formeln berechnen,
warum Streitkräfte gerade diese, jene und noch eine weitere Art von
Waffen und in welcher Zahl zur Beherrschung und Abwehr schwer genau
kalkulierbarer Risiken benötigt. Der Junge und ein Freund suchten in dem
Wrack vermutlich nach dem Flugrekorder, für den ein Finderlohn von rund
2 800 Euro ausgesetzt war. Ab April sollen zusätzlich 1,2 Millionen
Briefe auf der Straße transportiert werden. Am anderen Ende des Tunnels,
am Gleisdamm reiht er sich unter Obdachlosen ein. Bei den
Landesmannschaftsmeisterschaften in Nordenham feierten die Turner des
TSV Buchholz 08 zwei Siege.
<und so weiter und so fort …>
Peter Fischer
2010-05-06 15:57:21 UTC
Permalink
Hallo!
Post by Dennis Heidsiek
Post by Martin Roppelt
(100MB ist eigentlich ganz schön viel)?
Genau deshalb habe ich bislang gezögert …
Vernünftig!
Post by Dennis Heidsiek
ich habe schlichtweg Angst, damit das SVN zu zerschiessen. Ganz zu
schweigen davon, dass der lokale Checkout dann bis auf MB anschwellen
würde.
Kennt sich da jemand etwas genauer mit SVN aus?
Bei uns in der alten Firma hat mal einer versehentlich DB-Dumps
eingecheckt... Allerdings benutzen wir das Backend FSFS und nicht die
Berkeley-DB!

Der "Herr über das SVN" soll diese bitte in einem readonly Verzeichnis
auf dem Webserver ablegen (mit Checksumme), und aus dem SVN soll darauf
verwiesen werden. So oft wird sich an diesen Dateien ja nichts ändern
und ein SCM ist für kleine Dateien, an welchen sich oft etwas ändert.

Peter
Dennis Heidsiek
2010-05-06 16:03:15 UTC
Permalink
Hallo allerseits,
Post by Peter Fischer
Der "Herr über das SVN" soll diese bitte in einem readonly Verzeichnis
auf dem Webserver ablegen (mit Checksumme),
Ja, ich glaube, das wäre die beste Möglichkeit. @Martin: Kannst Du eben
eine entsprechende Mail an Ben schreiben oder soll ich das machen?


Viele Grüße,
Dennis-ſ


PS: Hier ist nochmal der derzeitige Download-Link:
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
Lucky
2010-05-06 16:41:24 UTC
Permalink
Bis dahin kann über

http://zankt.net/~lucky/data/ikmam/sentences.mod.txt.zip

darauf zugegriffen werden.

Gruß
Lucky
Karl Köckemann
2010-05-06 16:46:30 UTC
Permalink
Post by Martin Roppelt
Post by Karl Köckemann
Post by Dennis Heidsiek
Post by Karl Köckemann
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
Wenn Du einverstanden bist, kann ich das auch nochmal in das Neo-SVN
schieben.
ja, damit bin ich einverstanden. SimpleUpload wird die Datei ohnehin
irgendwann löschen.
Und noch ne Frage: Sind in den n-Grammen auch Zeilenumbrüche/Enter
dabei? Wie sind die gestaltet?
Hallo Martin,

der originale Leipziger Korpus enthält genau ein Satz pro Zeile. Daraus lassen
sich keine brauchbaren statistischen Daten für Zeilenumbrüche erfassen. Deshalb
muss man aus anderen bekannten Statistiken die Häufigkeit für Zeilenumbrüche
nehmen.

In der modifizierten Korpusdatei wurden jeweils 5 Sätze zu einem Absatz
zusammengefasst, um wenigstens in der Datei mit dem Zeilenumbruch innerhalb
bekannter Häufigkeiten dafür zu liegen. Später mussten manche unbrauchbare
Sätze entfernt werden, wodurch etwas weniger Zeilenumbrüche/Enter als alle
5 Sätze vorkommen.

Da manche der zum Erzeugen der n-Gramm-Dateien verwendeten Linux-Befehle
keine Zeilenumbrüche zu erfassen vermögen, können sie in den n-Gramm-Dateien
leider nicht vorkommen.

Die mittlere Satzlänge des originalen Leipziger Korpus beträgt
110,9827 Zeichen pro Satz.

Dessen mittlere Satzlänge enthält 15,7301 Wörter pro Satz.

Zeilenumbrüche kommen nach bekannten Statistiken je nach Textart
nach etwa 4,5 bis 5,5 Sätzen vor.

Aus den Angaben ergibt sich der Rest, allerdings nicht, wie häufig
Zeilenumbrüche auf Zeilenumbrüche folgen bzw. auf Zeichen folgen
bzw. auf Satzendezeichen folgen.

Mit netten Grüßen
Karl



P. S. @Dennis:
Sind die n-Gramm-Dateien zum unveränderten Leipziger Korpus schon im SVN:
http://freenet-homepage.de/nexusboard/Neo/ngramme/1gramme.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme/2gramme.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme/3gramme.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme/1gramme.tab.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme/2grammetab.tab.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme/3grammetab.tab.txt
Dennis Heidsiek
2010-05-06 16:53:26 UTC
Permalink
Hallo allerseits,
Seit eben sind sie es:
http://wiki.neo-layout.org/browser/statistik/Leipzig
http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl


Viele Grüße,
Dennis-ſ
Karl Köckemann
2010-05-06 17:14:20 UTC
Permalink
Post by Dennis Heidsiek
http://wiki.neo-layout.org/browser/statistik/Leipzig
http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl
Vielen Dank, Dennis!

Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein Verweis
interessant sein könnte, wie die n-Gramm-Dateien erstellt worden sind.

Als Verweis kommen z. B. in Frage:

http://permalink.gmane.org/gmane.comp.hardware.keyboards.layout.neo/4602

http://lists.neo-layout.org/pipermail/diskussion/2009-December/015238.html

Was meinst Du, Dennis, wäre das sinnvoll?

Mit netten Grüßen
Karl
Dennis Heidsiek
2010-05-06 17:31:23 UTC
Permalink
Hallo Karl,
Post by Karl Köckemann
Vielen Dank, Dennis!
Gern geschehen, ich war eh’ gerade am comiten :).
Post by Karl Köckemann
Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein Verweis interessant sein könnte, wie die n-Gramm-Dateien erstellt worden sind.
Hm … ich fände es noch besser, die Benennungen/Formate der beiden
Korpusse zu vereinheitlichen und die Dokumentation/Tools dafür dann in
eine gemeinsame SVN/statistik/README unterzubringen. Ich werd’ im Laufe
des Abends mal schauen …
Danke für die Links!


Viele Grüße,
Dennis-ſ
Dennis Heidsiek
2010-05-06 17:50:43 UTC
Permalink
Hallo allerseits,
Post by Dennis Heidsiek
Post by Karl Köckemann
Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein
Verweis interessant sein könnte, wie die n-Gramm-Dateien erstellt
worden sind.
Hm … ich fände es noch besser, die Benennungen/Formate der beiden
Korpusse zu vereinheitlichen und die Dokumentation/Tools dafür dann in
eine gemeinsame SVN/statistik/README unterzubringen.
Äußerst rudimentär, aber besser als nichts:
http://wiki.neo-layout.org/browser/statistik

Wem’s nicht gefällt, kann’s ja verbessern o:-).


Viele Grüße,
Dennis-ſ

w***@solnet.ch
2010-05-03 16:34:52 UTC
Permalink
Hallo Karl,
Post by Karl Köckemann
im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
Über 300 MB Rohdaten, eine unglaubliche Arbeit. Vielen Dank.
Post by Karl Köckemann
Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
gebrauchen, als der pure - zu zeitungslastige - Leipziger Korpus.
Der Inhalt kommt aber doch nach wie vor komplett vom Leipziger Korpus,
oder hast du noch andere Quellen aufgetan?

Andreas
Karl Köckemann
2010-05-03 19:07:11 UTC
Permalink
Post by w***@solnet.ch
Post by Karl Köckemann
im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
Über 300 MB Rohdaten, eine unglaubliche Arbeit. Vielen Dank.
Ja, das war tatsächlich viel Arbeit. Leider konnte ich das letzte bischen
(geschätzte 7 Stunden) nicht zu Ende führen, da ich nach der längeren Pause
nicht mehr weiß, an welcher Stelle ich hätte weitermachen wollen. Es ging nur
noch um den Rest der von einem Punkt gefolgten Einzelgroßbuchstaben wie z. B. in
'George W. Bush', was wahrscheinlich sowieso wenig relevant sein dürfte.
Post by w***@solnet.ch
Post by Karl Köckemann
Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
gebrauchen, als der pure - zu zeitungslastige - Leipziger Korpus.
Der Inhalt kommt aber doch nach wie vor komplett vom Leipziger Korpus,
oder hast du noch andere Quellen aufgetan?
Weitere Quellen zu verwenden, das wäre selbst mir zu viel Arbeit gewesen. ;)

Dieselbe Datei des Leipziger Korpus wurde zugrunde gelegt und überwiegend
manuell bereinigt. Dabei wurden (nach dem Entfernen der Zeilennummern) jeweils 5
Sätze zu einem Absatz zusammengefügt, wodurch die Häufigkeit für die Enter-Taste
deren bekannten Häufigkeit in etwa entspricht.

Zwecks Rechtschreibkorrektur wurden alle am Anfang des Rechtschreibdudens
stehenden veränderten Schreibungen im Korups überprüft und korrigiert, d. h.
alte Rechtschreibung kommt in der nun vorgestellten Datei kaum noch vor. Klar
konnte auch das überwiegend nur manuell geschehen.
Wegen der Dateigröße war keiner der unter Linux für solche Zwecke empfohlenen
Editoren brauchbar. Unter Windows gibt es einen Editor, der auch Reguläre
Ausdrücke bei riesigen Dateien sehr schnell und gut unterstützt. Welcher Editor
das ist, habe ich inzwischen wieder vergessen (System inzwischen komplett auf
Linux umgestellt, d. h. kein Windows mehr), jedoch ohne ihn wäre sinnvolles
Arbeiten in dem Umfang kaum möglich gewesen.

Das Ergebnis (n-Gramm-Dateien) habe ich mir bislang nicht näher angesehen,
jedoch wird das ß wegen der Neuen Rechtschreibung sicherlich weniger häufig
vorkommen (trotzdem es in Namen beibehalten wurde) und stattdessen das s
häufiger als bei allen Häufigkeitsangaben, die mir untergekommen sind.
Es könnte sein, dass wir hiermit die erste öffentlich zugängliche
Zeichenhäufigkeitsliste zu einem nicht kleinen Korpus haben, der auf der Neuen
Rechtschreibung basiert. :)

Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert
andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung.

Mit netten Grüßen
Karl
w***@solnet.ch
2010-05-03 19:47:59 UTC
Permalink
Post by Karl Köckemann
Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert
andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung.
Ich habe meinen Optimierer mit beiden Korpussen je 25000 Runden laufen
lassen. Mit einem Teil (ca 100k Zeilen) des alten Korpus (zuerst
Korpusstatistik, dann die beste gefundene Tastatur):

aA 5.296/0.474 bB 1.582/0.447 cC 2.582/0.112 dD 4.135/0.558
eE 15.535/0.345 fF 1.415/0.295 gG 2.661/0.300 hH 3.957/0.225
iI 7.505/0.189 jJ 0.122/0.148 kK 1.146/0.320 lL 3.484/0.192
mM 2.247/0.419 nN 9.546/0.166 oO 2.580/0.084 pP 0.691/0.312
qQ 0.014/0.012 rR 7.229/0.226 sS 5.500/0.662 tT 5.963/0.227
uU 3.462/0.176 vV 0.688/0.228 wW 1.107/0.288 xX 0.052/0.002
yY 0.101/0.006 zZ 1.070/0.140 äÄ 0.566/0.008 öÖ 0.247/0.010
üÜ 0.647/0.017 .. 1.106/0.000 ,, 0.951/0.000 ßß 0.230/0.000
15.582/0.000

Großbuchstaben: 6.585 %
Mehrfachanschläge: 1.680 %

234.164 Gesamtaufwand 195.430 Lageaufwand links rechts
------------ 0.857 Kollisionen 4.438 Shift-Kollisionen ob 5.3 14.6
jäo.ü khclfv 68.646 Handwechsel 25.610 Shift-Handwechsel mi 39.2 31.2
teaiu gdnrsß 18.230 Einwärts 67.967 Shift-Einwärts un 6.3 10.0
xqö,y bpmwz 9.979 Auswärts 1.984 Shift-Auswärts sum 50.7 55.9
Finger 11.4 16.5 8.7 14.2 | 16.3 15.1 12.5 11.9 Shift 4.9 1.7


Mit dem neuen:

aA 5.299/0.461 bB 1.583/0.437 cC 2.591/0.098 dD 4.146/0.527
eE 15.565/0.346 fF 1.425/0.286 gG 2.663/0.287 hH 3.967/0.221
iI 7.509/0.181 jJ 0.121/0.148 kK 1.136/0.315 lL 3.489/0.184
mM 2.245/0.397 nN 9.543/0.158 oO 2.598/0.081 pP 0.691/0.301
qQ 0.014/0.012 rR 7.253/0.218 sS 5.645/0.636 tT 5.992/0.216
uU 3.480/0.152 vV 0.689/0.220 wW 1.114/0.282 xX 0.052/0.002
yY 0.100/0.006 zZ 1.072/0.136 äÄ 0.566/0.008 öÖ 0.249/0.009
üÜ 0.642/0.017 .. 1.104/0.000 ,, 0.954/0.000 ßß 0.155/0.000
16.427/0.000

Großbuchstaben: 6.344 %
Mehrfachanschläge: 1.713 %

231.510 Gesamtaufwand 193.461 Lageaufwand links rechts
------------ 0.832 Kollisionen 4.225 Shift-Kollisionen ob 5.3 14.6
jäo.ü khclfv 68.637 Handwechsel 24.270 Shift-Handwechsel mi 39.2 31.2
teaiu gdnrsß 18.207 Einwärts 70.448 Shift-Einwärts un 6.1 9.9
xqö,y bpmwz 9.958 Auswärts 1.057 Shift-Auswärts sum 50.6 55.8
Finger 11.2 16.5 8.7 14.1 | 16.3 15.0 12.5 11.9 Shift 4.7 1.6


Für die speziellen Kriterien die gerade in meinem Sourcecode stehen
kommt also dieselbe Tastatur raus. Das sollte uns nicht enttäuschen, im
Gegenteil: Wir sehen, dass nicht jede kleine Variation am Korpus
unbedingt das Optimum ändert.

Ausserdem ist die Punktzahl mit beiden Korpussen verschieden, und zwar
mehr als man durch blosse statistische Variationen erwarten würde. Mit
anderen Kriterien könnte das Optimum für die beiden Korpusse durchaus
verschieden sein.

Andreas
Karl Köckemann
2010-05-03 21:54:45 UTC
Permalink
Am Montag, 03.05.2010, 21:47 +0200 schrieb Andreas Wettstein:
Ich habe meinen Optimierer mit beiden Korpussen je 25000 Runden laufen
lassen. Mit einem Teil (ca 100k Zeilen) des alten Korpus [...]
Das ging flott. So frühzeitig hatte ich eine Statistik nicht erwartet.
D. h. etwa 3 % des Korpusses wurden für die Statistik verwendet.

Für die speziellen Kriterien die gerade in meinem Sourcecode stehen
kommt also dieselbe Tastatur raus. Das sollte uns nicht enttäuschen, im
Gegenteil: Wir sehen, dass nicht jede kleine Variation am Korpus
unbedingt das Optimum ändert.
*neugierig* Um was ging es bei den gerade im Sourcecode stehenden speziellen
Kriterien?
Also sollte es zudem darauf hinaus laufen, weitere Korpora aus verschiedenen
Gebieten für unsere Zwecke aufzubereiten.

Ausserdem ist die Punktzahl mit beiden Korpussen verschieden, und zwar
mehr als man durch blosse statistische Variationen erwarten würde. Mit
anderen Kriterien könnte das Optimum für die beiden Korpusse durchaus
verschieden sein.
Der Leipziger Korpus enthielt neben sinnlosen Zeichenfolgen auch lückenhafte
Sätze, was eindeutig auf 'dumme' Automatisierungssoftware für das Erstellen des
Korpus zurückzuführen sind. Leider verzerren Sätze aus Sport- und
Wirtschaftsteil von Zeitungen auch den modifizierten Leipziger Korpus. Allzu
häufig wiederholte Ortsnamen sowie Datumsangaben wurden dezimiert. Nicht zuletzt
dadurch weist der modifizierte Leipziger Korpus eine geringere Zeichenzahl auf.
Wenigstens weist der modifizierte Leipziger Korpus erheblich weniger Unfug auf
als der Leipziger Korpus - und Neue Rechtschreibung.

Vielen Dank für die Statistik!

Mit netten Grüßen
Karl
w***@solnet.ch
2010-05-04 16:52:28 UTC
Permalink
*neugierig* Um was ging es bei den gerade im Sourcecode stehenden speziellen Kriterien?
Entschuldige, «speziell» war nicht das rechte Wort. Ich bin einfach
nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und
drehe ab und an den Kriterien. In zwei Wochen käme wahrscheinlich ein
anderes Optimum raus, das ist, was ich sagen wollte.
Also sollte es zudem darauf hinaus laufen, weitere Korpora aus verschiedenen
Gebieten für unsere Zwecke aufzubereiten.
Vielleicht. Ich habe mir zum Beispiel einen kleinen (600k) Korpus aus
einer Archiv-DVD der Computerzeitschrift c't extrahiert (auch in neuer
Rechtschreibung). In dem kommt dann zum Beispiel, im Gegensatz zum
Leipziger Korpus, das Komma häufiger vor als der Punkt. Aber alles in
allem sind die Auswirkungen auf das Ergebnis moderat.

Wenn man einen sehr kleinen Korpus mit einem sehr grossen mischt und so
gewichtet, dass beide ungefähr gleich in die Optimierung eingehen,
bestimmt der kleine Korpus leider den statistischen Fehler. Es dürfte
schwer sein, Korpusse aus anderen Gebieten zu finden, die so gross wie
der Leipziger Korpus sind (von jemandem, der sie entrümpelt, ganz zu
schweigen).

Im übrigen würde ich sowieso nach einem 1:1 gemischt deutsch-englischen
Korpus optimieren. Das entspricht viel mehr meinen Anforderungen, und
da bin ich sicher nicht alleine.

Andreas
Arne Babenhauserheide
2010-05-04 17:16:37 UTC
Permalink
Post by w***@solnet.ch
*neugierig* Um was ging es bei den gerade im Sourcecode stehenden speziellen Kriterien?
Entschuldige, «speziell» war nicht das rechte Wort. Ich bin einfach
nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und
drehe ab und an den Kriterien. In zwei Wochen käme wahrscheinlich ein
anderes Optimum raus, das ist, was ich sagen wollte.
Dafür hast du im Gegensatz zu mir bereits eine Korrekte Behandlung von
Großbuchstaben drin.
Post by w***@solnet.ch
Also sollte es zudem darauf hinaus laufen, weitere Korpora aus
verschiedenen Gebieten für unsere Zwecke aufzubereiten.
Vielleicht. Ich habe mir zum Beispiel einen kleinen (600k) Korpus aus
einer Archiv-DVD der Computerzeitschrift c't extrahiert (auch in neuer
Rechtschreibung). In dem kommt dann zum Beispiel, im Gegensatz zum
Leipziger Korpus, das Komma häufiger vor als der Punkt. Aber alles in
allem sind die Auswirkungen auf das Ergebnis moderat.
Vielleicht können wir ja einen von Google bekommen. Die haben riesige
Textkorpi (ich habe letztens einen Techtalk von ihnen gesehen, in dem sie
ein Googler erzählt hat, dass sie die Rechnungen zu Wortstatistiken auf
Clustern machen).

Liebe Grüße,
Arne
Arne Babenhauserheide
2010-05-04 09:50:10 UTC
Permalink
Hi Karl,
Post by n***@freenet.de
im Winter habe ich die fÃŒr uns zugrunde gelegte Datei des Leipziger Korpus
ÃŒberarbeitet.
Wahnsinn! Danke!
Post by n***@freenet.de
Mich interessiert, ob ein Optimierungsprogramm damit tatsÀchlich nennenswert
andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung.
DafÃŒr hier erstmal die alte Ausgabe der Kostenberechnung fÃŒr Neo, danach dann
die mit neuem Korpus.

-- Alter Korpus --

# 2.213623939 billion total penalty compared to notime-noeffort
# 4.00175962322 mean key position cost in file 1gramme.txt
# 4.82198888113 % finger repeats in file 2gramme.txt
# 4.56473130298 million keystrokes disbalance of the fingers
# 0.307224610884 % finger repeats top to bottom or vice versa
# 4.70844781487 % of trigrams have no handswitching (uppercase ignored)
# 0.202640267 billion rows² to cross while on the same hand
# 0.0128785781832 hand disbalance. Left: 0.487121421817 %, Right:
0.512878578183 %

-- Neuer Korpus --

# 2.2073746374 billion total penalty compared to notime-noeffort
# 4.01389863586 mean key position cost in file 1gramme.txt
# 4.79333259039 % finger repeats in file 2gramme.txt
# 4.60589838178 million keystrokes disbalance of the fingers
# 0.308294351576 % finger repeats top to bottom or vice versa
# 4.75874466019 % of trigrams have no handswitching (uppercase ignored)
# 0.200928645 billion rows² to cross while on the same hand
# 0.0130778084025 hand disbalance. Left: 0.486922191598 %, Right:
0.513077808402 %

Die Kostenberechnung ist die Grundlage der Optimierung und jede VerÀnderung
des total penalty um mehr als 0.002 kann schon zwischen Layouts entscheiden.
Da hier schon bei Neo 0.005 Unterschied sind (aber die Optimierung vermutlich
noch viel stÀrkere Unterschiede bewirken kann) denke ich, dass der Korpus
deutlich verÀndert, was als Ergebnis rauskommt.

Um sicher zu gehen, mÃŒsste ich aber meinen Optimierer ein paar 10.000 Schritt-
Layouts rechnen lassen, und anders als bei dem verdammt schnellen Optimierer
von Andreas dauert das bei mir ein paar Stunden je Layout, deswegen habe ich
es noch etwas zurÃŒckgestellt


Deine neuen Dateien sind aber ab jetzt die neue Arbeitsbasis meines
Optimierers.

Liebe GrÌße,
Arne
Post by n***@freenet.de
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
Gah, downloadbeschrÀnkung getroffen

Loading...