Discussion:
KDE/Soikko ei ymmärrä ääkkösiä
(too old to reply)
Jaakko Holster
2005-05-10 09:15:00 UTC
Permalink
Missähän vika, kun KDE spellchecker & tmispell & Soikko -yhdistelmä ei
ymmärrä ääkkösiä, vaan katkaisee sanat niiden kohdalla.

Esimerkiksi merkkijonossa 'jäsenistö' on spellcheckerin mielestä sanat 'j'
ja 'senist'.

Distro on Debian unstable, jossa seuraavat pakut:

tmispell-0.2.3-0.1.unofficial
soikko-0.2.1-4
kdebase-4:3.4.0-0ubuntu18
--
Jaakko Holster

/* PGP key at http://iki.fi/holster/gpg.pub
Sellukatu 10 A 24, FIN-90520 Oulu
holster at iki fi +358 41 436 0880 */
Petteri
2005-05-10 14:55:18 UTC
Permalink
Terve. Hieman asian vierestä Jos viitsit (tai joku muu) pistää pikku
ohjeet, kuinka saan kde:n oikolukemaan suomea, niin olisin kiitollinen.
Kokoonpanona myös täällä Debian unstable.
Asmo Koskinen
2005-05-10 15:52:03 UTC
Permalink
Post by Petteri
Jos viitsit (tai joku muu) pistää pikku
ohjeet, kuinka saan kde:n oikolukemaan suomea, niin olisin kiitollinen.
Minulla on SuSE 9.3, KDE 3.4, tmispell 0.2.3 ja Soikko 0.2.1.

Pauli Virtanen on tehnyt suomenkieliset ohjeet siitä, kuinka tmispell
asennettaan ja minne Soikon kaksi tiedostoa sijoitetaan, jotta tmispell ne
löytää. Ei niitä kannata uudestaan kirjoittaa. Asennusohje löytyy
tmispellin paketista:

http://users.tkk.fi/~ptvirtan/programs/tmispell.html

Oleellista on, että teet Pauli Virtasen ohjeen mukaan pehmeän linkin
tmispell-ohjelmasta ispelliin ja sitä ennen siirrät syrjään oikean
ispell-ohjelman (ispell-real):

***@linux:/usr/bin> ls -al ispell*
lrwxrwxrwx 1 root root 23 2005-05-03 01:09 ispell
-> /usr/local/bin/tmispell
-rwxr-xr-x 1 root root 73544 2005-03-19 21:16 ispell.real
***@linux:/usr/bin>

KDE:n Ohjauskeskuksesta valitset KDE-komponenteista oikoluvun. Valitset
kohdat "Tuntematon [suomi]", "ISO 8859-15" ja "Kansainvälinen Ispell".

Siinä se. Seuraa Pauli Virtasen selkeitä ohjeita.

Ystävällisin terveisin Asmo Koskinen.
--
http://fi.openoffice.org/
http://openoffice-fi.sourceforge.net/
Teemu Likonen
2005-05-10 16:14:00 UTC
Permalink
Post by Asmo Koskinen
Minulla on SuSE 9.3, KDE 3.4, tmispell 0.2.3 ja Soikko 0.2.1.
Pauli Virtanen on tehnyt suomenkieliset ohjeet siitä, kuinka tmispell
asennettaan ja minne Soikon kaksi tiedostoa sijoitetaan, jotta tmispell ne
löytää. Ei niitä kannata uudestaan kirjoittaa. Asennusohje löytyy
http://users.tkk.fi/~ptvirtan/programs/tmispell.html
Oleellista on, että teet Pauli Virtasen ohjeen mukaan pehmeän linkin
tmispell-ohjelmasta ispelliin ja sitä ennen siirrät syrjään oikean
lrwxrwxrwx 1 root root 23 2005-05-03 01:09 ispell
-> /usr/local/bin/tmispell
-rwxr-xr-x 1 root root 73544 2005-03-19 21:16 ispell.real
KDE:n Ohjauskeskuksesta valitset KDE-komponenteista oikoluvun. Valitset
kohdat "Tuntematon [suomi]", "ISO 8859-15" ja "Kansainvälinen Ispell".
Siinä se. Seuraa Pauli Virtasen selkeitä ohjeita.
Jep, noin sen minäkin sain sujuvasti asennettua. Lisättäköön vielä, että
kun kysyjällä taisi olla Debian, kannattaa käyttää valmista
.deb-pakettia tmispellin asentamiseen. Sen saa tuolta Asmon kertomalta
sivulta. Valmis asennuspaketti hoitaa nuo linkkien säätämiset ja
alkuperäisen ispellin nimen muuttamisen.
--
"Minihameet on hyvä trendi mutta huono isäntä."
-- Alivaltiosihteeri
Petteri
2005-05-11 16:54:26 UTC
Permalink
Tervehdys taas. Kiitti vinkeistä. Asennus meni pakettien mukaan oikein
hyvin (soikko olikin jo asennutte openofficea varten), mutta kden
oikolukuvalikosta ei suomea silti jostain syystä löydy. Valikosta
löytyy ISpell-oletus, pari englantia ja Tuntematon[default] (joka ei
kuitenkaan ole suomi).
Teemu Likonen
2005-05-11 17:20:44 UTC
Permalink
Post by Petteri
Tervehdys taas. Kiitti vinkeistä. Asennus meni pakettien mukaan oikein
hyvin (soikko olikin jo asennutte openofficea varten), mutta kden
oikolukuvalikosta ei suomea silti jostain syystä löydy. Valikosta
löytyy ISpell-oletus, pari englantia ja Tuntematon[default] (joka ei
kuitenkaan ole suomi).
Olisiko kyse tästä:

Other programs must also know that a Finnish spell checking is
possible, so run the following command to create fake
dictionary files:

touch /usr/lib/ispell/suomi.{hash,aff}


Kopioin nuot rivit /usr/share/doc/tmispell/README.gz-tiedostosta. En
enää muista, miten oma asennukseni sujui, mutta tuon touch-komennon olen
kyllä ajanut.
--
"Urea Jacta Est - vesi on heitetty."
-- Alivaltiosihteeri
Aapo Rista
2005-05-11 17:25:24 UTC
Permalink
Post by Teemu Likonen
touch /usr/lib/ispell/suomi.{hash,aff}
Olisi, kiitos auttoi.
Post by Teemu Likonen
Kopioin nuot rivit /usr/share/doc/tmispell/README.gz-tiedostosta. En
enää muista, miten oma asennukseni sujui, mutta tuon touch-komennon
olen kyllä ajanut.
Itse lukaisin tiedoston /usr/share/doc/tmispell/LUEMINUT.gz, mutta
aivoni ohittivat ko. rivin.

Hassua, että paketin asennusskripti ei osaa tuota komentoa ajaa.
--
Aapo Rista
***@rista.net
Petteri
2005-05-11 18:40:18 UTC
Permalink
Post by Teemu Likonen
Other programs must also know that a Finnish spell checking is
possible, so run the following command to create fake
touch /usr/lib/ispell/suomi.{hash,aff}
Kopioin nuot rivit /usr/share/doc/tmispell/README.gz-tiedostosta. En
enää muista, miten oma asennukseni sujui, mutta tuon touch-komennon olen
kyllä ajanut.
No nyt toimii. Kiitos jälleen. Itse katsoin README.Debianin vain
läpi, eikä sieltä moista ohjetta löytynyt. Täytyy olla
huolellisempi vastaisuudessa.

Toivottavasti saadaan tulevaisuudessa "helposti" toimiva suomen kielen
oikoluku näihin vapaisiin ohjelmiin.

Täällä muuten oikolukee hyvin myös ääkkösillä varustettua
tekstiä. Uuden Kden saa Debianiin ilman Ubuntu-paketteja
http://pkg-kde.alioth.debian.org/docs/install.html tuolta.
Teemu Likonen
2005-05-11 19:19:10 UTC
Permalink
Post by Petteri
Toivottavasti saadaan tulevaisuudessa "helposti" toimiva suomen kielen
oikoluku näihin vapaisiin ohjelmiin.
Tämä onkin se ikuisuuskysymys. Harrastan hetken haaveilua, jos saan
luvan. Epäilemättä samaan tapaan on haaveiltu ennenkin.

Suomen valtion täytyisi tehdä sellainen kulttuuriteko, että se tuottaa
yleispätevän avoimen lähdekoodin oikeinkirjoituksen tarkistus- ja
tavutusohjelman. Sellaisen, jota voidaan vapaasti hyödyntää mihin
tahansa tilanteeseen ohjelmoimalla sopiva välipalikka. Sehän olisi
suorastaan kansallisen identiteetin tukemista. :) Samalla jotain
käytännön vastinetta juhlapuheille ja tietoyhteiskuntastrategioille,
jotka oikeasti alkavat jo puhua avoimien ohjelmistojen ja
palvelurajapintojen puolesta.
--
"Virallisuus on ilomme."
-- Alivaltiosihteeri
Heikki Mäkinen
2005-05-12 07:13:13 UTC
Permalink
Mitä pitäisi tehdä, jotta haaveesta tulisi totta? Ei valtio tee ja
tuota, mutta se voisi rahoittaa.

En tunne ohjelmointia enkä kielioppiakaan niin paljoa, että voisin
paljoa sanoa, mutta eikö tässä olisi aika hyvä projekti vaikka FLUG:in
ajettavaksi. Laadittaisiin speksit ja projektisuunnitelma alustavasti,
vaikka yhteistyössä tktl:n kanssa (luulisi että siellä Linuxin
syntysijana on kiinnostusta). Haettaisiin ko laitokselle rahoitusta
VM:stä tai Sitrasta tai Tekesistä ja pantaisiin porukka töihin.
Riittävän väljä aikataulutus ja muutakin joustavuutta, jottei luovuus
kärsi. Vapaaehtoisille mahdollisuus osallistua. Hankkeessa tulisi
oheistuotteena muutama gradu tai väikkäri kielenhuolloon
automatisointiin liittyen tms... Vietäisiin homma loppuun asti.

Ei kai tämä olisi ylivoimaista. Sitä paitsi Ryhänenhän on sen jo keran
tehnyt, mutta...

Niin, onhan se sivusta helppoa sanoa, että joku voisi tehdä jotakin,
mutta en minä itse tällaista osaa. Mutta FLUG:iin voisin kyllä liittyä.

hebe
Matti Raustia
2005-05-12 07:19:08 UTC
Permalink
Post by Heikki Mäkinen
Mitä pitäisi tehdä, jotta haaveesta tulisi totta? Ei valtio tee ja
tuota, mutta se voisi rahoittaa.
Väljästi aiheeseen liittyen:

Muistankos aivan väärin, että joskus aikoinaan oli MS-DOS:lle TEKO-niminen
tekstinkäsittelyohjelma, jossa oli ainakin suomenkielinen tavutus? Eikös se
ollut jonkun valtion instanssin tekemä mutta ei vapaassa levityksessä?
Muistan joskus lukiossa kirjoittaneeni sillä jotain.

matti
--
"China is a big country, inhabited by many chinese." - Charles de Gaulle
Kaarlo Vapaaoksa
2005-05-12 07:55:38 UTC
Permalink
Post by Matti Raustia
Muistankos aivan väärin, että joskus aikoinaan oli MS-DOS:lle TEKO-niminen
tekstinkäsittelyohjelma, jossa oli ainakin suomenkielinen tavutus? Eikös se
ollut jonkun valtion instanssin tekemä mutta ei vapaassa levityksessä?
Muistan joskus lukiossa kirjoittaneeni sillä jotain.
TEKO taisi olla Valtion Tietokonekeskuksen (VTKK) tekemä. Nykyisin
kyseisen puljun hommia jatkaa erinäisten fuusioiden jälkeen yritys
nimeltä TietoEnator.

Tosin suomenkielinen tavutus ei vielä hirveän iso saavutus
ole. Varsinkin koska ellen väärin muista, niin TEKO:n tavutus ei
tunnistanut edes yhdyssanoja ainakaan kovinkaan laajasti.

carlos
Esa
2005-05-12 12:08:02 UTC
Permalink
Post by Kaarlo Vapaaoksa
Post by Matti Raustia
Muistankos aivan väärin, että joskus aikoinaan oli MS-DOS:lle TEKO-niminen
tekstinkäsittelyohjelma, jossa oli ainakin suomenkielinen tavutus? Eikös se
ollut jonkun valtion instanssin tekemä mutta ei vapaassa levityksessä?
Muistan joskus lukiossa kirjoittaneeni sillä jotain.
TEKO taisi olla Valtion Tietokonekeskuksen (VTKK) tekemä. Nykyisin
kyseisen puljun hommia jatkaa erinäisten fuusioiden jälkeen yritys
nimeltä TietoEnator.
Tosin suomenkielinen tavutus ei vielä hirveän iso saavutus
ole. Varsinkin koska ellen väärin muista, niin TEKO:n tavutus ei
tunnistanut edes yhdyssanoja ainakaan kovinkaan laajasti.
Yhdyssanat ovat edelleenkin ongelma tekstinkäsittelyohjelmille.
Muistaakseni ainakin kaivos-aukko muuttuu Wordin käsittelyssä
kaivo-saukoksi. Muitakin esimerkkejä on, mutta ei muistu mieleen.
--
Esa Lindroos
Poista ylimääräinen x osoitteesta, jos meilaat.
-- --
Ei ole vaikeaa tehdä oikein. Vaikeaa on tietää, mikä on oikein
- Lyndon B Johnson
Jani Ylikorpi
2005-05-12 12:35:27 UTC
Permalink
Katso Soikko.

http://users.tkk.fi/~pry/soikko/openoffice/
Post by Esa
Post by Kaarlo Vapaaoksa
Post by Matti Raustia
Muistankos aivan väärin, että joskus aikoinaan oli MS-DOS:lle TEKO-niminen
tekstinkäsittelyohjelma, jossa oli ainakin suomenkielinen tavutus? Eikös se
ollut jonkun valtion instanssin tekemä mutta ei vapaassa levityksessä?
Muistan joskus lukiossa kirjoittaneeni sillä jotain.
TEKO taisi olla Valtion Tietokonekeskuksen (VTKK) tekemä. Nykyisin
kyseisen puljun hommia jatkaa erinäisten fuusioiden jälkeen yritys
nimeltä TietoEnator.
Tosin suomenkielinen tavutus ei vielä hirveän iso saavutus
ole. Varsinkin koska ellen väärin muista, niin TEKO:n tavutus ei
tunnistanut edes yhdyssanoja ainakaan kovinkaan laajasti.
Yhdyssanat ovat edelleenkin ongelma tekstinkäsittelyohjelmille.
Muistaakseni ainakin kaivos-aukko muuttuu Wordin käsittelyssä
kaivo-saukoksi. Muitakin esimerkkejä on, mutta ei muistu mieleen.
Heikki Turunen
2005-05-12 15:36:15 UTC
Permalink
Post by Jani Ylikorpi
Katso Soikko.
http://users.tkk.fi/~pry/soikko/openoffice/
Soikon kehitys lienee hieman jäissä?
--
Heikki Turunen

- On täällä kummat meiningit -
Janne Johansson
2005-05-12 15:40:28 UTC
Permalink
Post by Heikki Turunen
Post by Jani Ylikorpi
Katso Soikko.
http://users.tkk.fi/~pry/soikko/openoffice/
Soikon kehitys lienee hieman jäissä?
kuinka niin?

siis minulla ei ole mitään tarkempaa tietoa tuosta kehityksen vaiheesta,
mutta uusin julakistu soikko toimii edelleen uusimmassa virallisessa (ja
myös ximian patchatussa) openofficessa. olen ymmärtänyt, että nykyinen
versio ei toimi tulevan OO2:n kanssa, mutta sitä ei tosiaan ole vielä
julkaistukaan joten en oleta, että oikolukukaan olisi valmis.

tosin, nuo soikon sivutkaan eivät päivity kertomaa, että uutta versiota
on tulossa. tai ainakin aikaisemmin se on vain ilmestynyt, ilman sen sen
kummempaa rummutusta.
--
Janne
Heikki Turunen
2005-05-12 19:22:37 UTC
Permalink
Post by Janne Johansson
kuinka niin?
siis minulla ei ole mitään tarkempaa tietoa tuosta kehityksen vaiheesta,
mutta uusin julakistu soikko toimii edelleen uusimmassa virallisessa (ja
myös ximian patchatussa) openofficessa. olen ymmärtänyt, että nykyinen
versio ei toimi tulevan OO2:n kanssa, mutta sitä ei tosiaan ole vielä
julkaistukaan joten en oleta, että oikolukukaan olisi valmis.
tosin, nuo soikon sivutkaan eivät päivity kertomaa, että uutta versiota
on tulossa. tai ainakin aikaisemmin se on vain ilmestynyt, ilman sen sen
kummempaa rummutusta.
Ei minullakaan ole sen tietoa. Ihmettelin vain kun viimeisin versio on
päivätty 4.10.2003. Toinen ihmetyksen aihe on, että mainion Soikon saa
Windowsille, Linuxiin ja MacOSX:ään, vaan ei FreeBSD:lle :(
--
Heikki Turunen

- On täällä kummat meiningit -
Aggro
2005-05-12 20:34:45 UTC
Permalink
Post by Janne Johansson
Post by Heikki Turunen
Soikon kehitys lienee hieman jäissä?
kuinka niin?
Minä (joskus vuosi sitten) ja uutisryhmien perusteella joku muukin on
yrittänyt kyseiseen henkilöön ottaa sähköpostitse yhteyttä, mutta kukaan
ei ole tietääkseni mitään vastausta häneltä saanut. Tämän perusteella
aika monet ovat tuominneet kehitystyön loppuneeksi.

Kehittäjän sivuilta löytyy myös nimi, osoite ja puhelinnumero, mutta
kukaan ei tietääkseni ole niitä pitkin yrittänyt tavoittaa. Toisaalta,
jos henkilöä kiinnostaisi tuo projekti, niin todennäköisesti hän
vastaisi sähköposteihin ja päivittäisi sivuaan, joten varmaan turhaa
lähteä häiritsemään muita reittejä.
Aggro
2005-05-12 21:34:36 UTC
Permalink
Post by Heikki Mäkinen
En tunne ohjelmointia enkä kielioppiakaan niin paljoa, että voisin
paljoa sanoa, mutta eikö tässä olisi aika hyvä projekti vaikka FLUG:in
ajettavaksi.
Ilmeisesti MySpell sanasto löytyy myös Suomeksi (eli käytännössä pari
tekstitiedostoa, joiden avulla saa oikoluvun aikaiseksi kielelle kuin
kielelle ilman ohjelmointia, koska ohjelmointi on jo tehtynä), mutta
ainakin joidenkin lähteiden mukaan se ei sovellu hyvin suomen kieleen.

Arviolta 85% - 90% oikeinkirjoitetuista sanoista tunnistuu sen myötä,
kun Soikon avulla lukema on 99,9%.

http://www.cs.helsinki.fi/compfac/ohjeet/OpenOffice.org/

En sitten tiedä miksi se ei sovellu, enkä tiedä pystyisikö noita
sanastoja jotenkin korjaamaan, jotta se soveltuisi paremmin.

-------------------------------------------
Esimerkiksi viivan yläpuolella olevan tekstin ajoin noilla MySpell
sanastoilla läpi Thunderbirdissä ja lopputulos on tässä:

[Sana josta löytyi virhe] -> [Korjausehdotukset]
wrote ->
MySpell ->
tekstitiedostoa -> teksti tiedostoa
ohjelmointia -> ohjelmointi
oikeinkirjoitetuista ->
tunnistuu -> tunnistus
Soikon -> Soiko (ja pari muuta vaihtoehtoa)
soveltuisi -> soveltuisin, soveltuisit

Ei tuo minusta niin mahdottoman huonosti sujunut. Kun ottaa huomioon
sen, miten helposti sain esim. tähän Thunderbirdiin tuon käyttöön
(kopioin vain kaksi tiedostoa fi-FI.aff ja fi-FI.dic, Thunderbirdin
asennuskansioon (thunderbird\components\myspell\). Tiedostot sain kun
asensin Ubuntuun myspell-fi nimisen paketin (löytyy Debianin
pakettilistasta).

Vastaavasti Soikosta en tiedä saako sitä Thunderbirdiin edes ollenkaan
ja OpenOfficenkin kanssa olen saanut sen asennuksessa virheitä esiin.
Eli tämä kahteen tiedostoon ja maailmalla yleisesti käytössä olevaan
järjestelmään perustuva systeemi tuntuu minusta paremmalta kuin
ohjelmoinnilla kikkailut. Tietty tuota sanastoahan voisi parastaa
tekemällä tietokoneohjelman, joka generoisi puuttuvia sanoja noihin
sanalistoihin.
Asmo Koskinen
2005-05-12 22:03:25 UTC
Permalink
Hyvät suomen kielen ystävät.

Lukekaapa tämä ketju:

http://lingucomponent.openoffice.org/servlets/ReadMsg?listName=dev&msgNo=1058

1# "Component words need in fact to be collected. There are for sure no more
than 1 million, and that is no more than 20 MB. No special program needed
for that, just patience and will.

Enhanced myspell covers really everything. You just need to prepare the
right affixes, which is - admittedly - not easy, but it can be done.

Good luck, Eleonora"

2# "Dear Asmo,

Yes, 12239 words are really almost nothing for a language
like Finnish. My personal expertise is, that below 100 thousand words
spell cheking is very poor.

[...]

If you have a little starting tree, start putting together
the possible endings, first for verbs, which are the simpler
ones, then for nomen and adjektives, which are almost the same.
Then write awk or perl scripts (or something similar), to generate the
affixes and the flags.

The Hungarian tree uses m4 macros to keep in the same place
the similar types of endings. For affix and flag building it uses awk."

Joten onnea vaan sille, jolla on tarpeeksi tietoa, taitoa, aikaa ja
kärsivällisyyttä luoda tyhjästä (vrt. Soikko) avoimen lähdekoodin
oikolukuohjelma. Kuinkahan monta muuta löytyy Suomesta Pasi Ryhäsen
lisäksi?

Tavutus meillä jo on:

http://elonen.iki.fi/code/ooo-hyph-fi/

Jarno Elosen muokkaama tavutus sisältyy Pavel Janikin OOo-paketteihin.

Ystävällisin terveisin Asmo Koskinen.
--
http://fi.openoffice.org/
http://openoffice-fi.sourceforge.net/
Aggro
2005-05-12 22:37:28 UTC
Permalink
Post by Asmo Koskinen
Joten onnea vaan sille, jolla on tarpeeksi tietoa, taitoa, aikaa ja
kärsivällisyyttä luoda tyhjästä (vrt. Soikko) avoimen lähdekoodin
oikolukuohjelma.
Miten niin tyhjästä? Onhan tuolla MySpell-fi paketissa tulevassa
sanastossa jo jonkinverran noita sanoja. Ja miten niin oikolukuohjelma?
Eikös tuossa linkittämässäsi ketjussakin puhuttu samasta asiasta mistä
minä puhuin. Eli ohjelma on jo valmiina, tarvitaan vain ne sanalistat ja
säännöt, joita se ohjelma käyttää.

Jos haluaisi auttaa tuossa, niin kenelleköhän niitä sanoja kannattaisi
lähettää, missä muodossa ja tarviiko ne miten hyvin osata taivuttaa? Tai
mistä olisi eniten apua?

En varmaan kauhean hyvin osaa luetella jollekin tietylle sanalle sen
kaikkia eri taivitusmuotoja, mutta jos huomaan esimerkiksi oikoluvun
erehtyvän jonkin sanan kohdalla, niin osaan varmaan jotain kyseisen
sanan suhteen tehdä, että se pääsisi oikeiden sanojen listalle.
Teemu Likonen
2005-05-13 07:18:58 UTC
Permalink
Post by Asmo Koskinen
Joten onnea vaan sille, jolla on tarpeeksi tietoa, taitoa, aikaa ja
kärsivällisyyttä luoda tyhjästä (vrt. Soikko) avoimen lähdekoodin
oikolukuohjelma. Kuinkahan monta muuta löytyy Suomesta Pasi Ryhäsen
lisäksi?
Jep, Ryhäsiä ja Torvaldseja meillä ei joka lähtöön ole. Oma huomioni
onkin se, että olisiko vähitellen kypsyteltävä ajatusta, että jokin
valtion instanssi resurssoisi työn.

Varsinkaan pienellä kielialueella ei ole järkevää, että jokainen
ohjelmistoja tuottava firma tai open source -yhteisö pyrkii tekemään
oman viritelmänsä oikeinkirjoituksen tarkistuksesta. Hieman
yksinkertaistaen ilmaistuna työ on kertaluonteinen: kirjakielen
rakenteet muuttuvat erittäin hitaasti. Uusio- ja lainasanoja syntyy
vähitellen lisää, mutta kielen _rakenne_ säilyy. Tästä syystä työ
kannattaa tehdä vain kerran, hyvin ja avoimesti - siitä hyötyvät kaikki
nyt ja tulevaisuudessa. Kysehän on suomalaisesta tietoyhteiskunnasta
melkeinpä kokonaisuutena; se on kansallinen projekti. (Miten yleviä
sanoja. :) )

Tämän jos joku Suomen valtion alainen instanssi ymmärtäisi,
voitaisiin homma hoitaa ilman Ryhäsiä ja Torvaldseja, palkatun
asiantuntijatyöryhmän voimin. Se sitten kartoittaa, onko ispell,
aspell, myspell tai jokuspell sopiva lähtökohta suomen kielen
oikoluvulle vai kehitetäänkö ihan joku muu. Jos joku haluaa
ryhtyä "oikolukutorvaldsiksi", pidän sitä äärettömän arvokkaana
tekona. Kuitenkin virallisluonteisissakin tietoyhteiskuntastrategioissa
ja -visioissa aletaan jo puhua avointen ohjelmistojen ja
palvelurajapintojen puolesta. Soisi niiden strategikkojen ja
visionäärien vähitellen alkavan tehdäkin jotain.

Saisiko ajatus kannatusta? Mitä kautta tällainen "kansallinen projekti"
saataisiin käyntiin? Siis muutoin kuin vain odottamalla seuraavia
Torvaldseja ja Ryhäsiä.
Ari Makela
2005-05-13 08:08:33 UTC
Permalink
["Followup-To:" header set to sfnet.atk.linux.]
Post by Teemu Likonen
Tämän jos joku Suomen valtion alainen instanssi ymmärtäisi,
voitaisiin homma hoitaa ilman Ryhäsiä ja Torvaldseja, palkatun
asiantuntijatyöryhmän voimin.
Ryhäsestä en tiedä, mutta Torvaldshan oli Helsingin yliopiston
tietojenkäsittelytieteen laitoksella opiskelijana ja duunissa ja teki
gradunsa linuxin porttaamisesta. Joten ei voi puhua, että Linux olisi
ollut hänelle suhteellisen varhaisessa vaiheessakaan puhdas vapaa-ajan
projekti.
--
Ari Makela no escaping it -
***@arska.org I must step on fallen leaves
http://arska.org/hauva/ to take this path (Suzuki Majoko)
Tapio Salonsaari
2005-05-13 08:22:25 UTC
Permalink
Post by Teemu Likonen
Saisiko ajatus kannatusta? Mitä kautta tällainen "kansallinen projekti"
saataisiin käyntiin? Siis muutoin kuin vain odottamalla seuraavia
Torvaldseja ja Ryhäsiä.
Allekirjoittaneen ehdotus olisi, että joku (pien)yrittäjä ottaisi homman
koordinoitavaksi. Ensialkuun pitäisi ensialkuun kartoittaa millaisilla perusteilla
projektille olisi mahdollista saada rahoitusta instanssilta X.

Käytännössä noin laaja projekti kun on mahdollista saada valmiiksikin
joskus kun projektin vetäjä saisi hommasta selvää seteliä käteen ja
sille olisi (riittävän väljä) aikataulu olemassa.

Vetäjäksi sopisi ehkä parhaiten jokin käännöstoimisto/vast, jolloin
hommaa olisi koordinoimassa kielenhuollon asiantuntija eikä insinööri.
Insinöörivetoinen oikolukija kun todennäköisesti tuottaisi melkoista
jargonia :)

Toinen lähestymistapa ongelmaan löytyy Linuxin alkulähteiltä, eli jokin
yliopisto tai muu korkeakoulu aloittaisi yhteistyöprojektin
softavääntäjien ja kielenopiskelijoiden kesken. Tästä joku jo
mainitsikin aikaisemmin säikeessä.

Korkeakouluilla on selvä etu yrittäjiin nähden, koska projektirahoitusta
moiseen on (ymmärtääkseni) huomattavasti helpommin saatavilla ja opintopisteitä
hamuavat teekkarit saisi lahjomalla sitoutettua projektiin :)


Vaikka open source-maailmassa raha ei ole missään vaiheessa ollut
kantava ajatus niin ainkin allekirjoittaneen ajatusmaailman mukaan
kaikki irtoraha, tuli se sitten EU:lta, valtiolta tai mistä tahansa,
kannattaa ottaa talteen.

Onnistuessaan tällainen projekti todennäköisesti poikisi enemmänkin
julkis- tai muuten rahoitettuja open source -projekteja, joka pitkällä
tähtäimellä toisi melkoisen läjän työpaikkoja valtakuntaan.

Ammattimaisesti hoidettu open source-projekti kun takuulla muuttaisi
mielikuvia ja julkishallinnolla sekä yrityksillä ei olisi niin kova
kynnys lähteä muuttamaan järjestelmiään ja jopa tuottamaan/ostamaan uusia
ohjelmistoja.

Avoin elämä -kirjasta lukaisin oikein hyvän esimerkin tähän liittyen kun
Saksan valtio tilasi Kroupware-softan koodifirmasta. Tässä olisi
härmäläisellä valtiolla paikka hyödyntää korkeaa koulutusta ja maailman
huipulla olevaa teknistä osaamista.

Mikäli julkishallinto tekisi rohkean päätöksen ja aloittaisi siirtymisen
avoimen lähdekoodin ohjelmistoihin rahatukon kera niin melko monelle
pienelle ja isommallekin softafirmalle olisi töitä pariksi
vuosikymmeneksi.


Kauniit ajatukset ja ylevät päämäärät eivät onneksi vielä maksa mitään.
En kuitenkaan usko, että tällaista radikaalia ratkaisua tässä maassa
tullaan tekemään vielä pitkiin aikoihin. Turkulaiset jo yrittivät mutta
heiltäkin loppui kantti kesken.

Aika harva tuntuu loppupelissä ymmärtävän, että esimerkiksi Open
Officesta mahdollisesti puuttuvat ominaisuudet on siihen saatavilla, jopa
huomattavasti halvemmalla kuin 100 m$ office lisenssiä.

Mutta nyt tämä pilvilinnoissa kävely alkaa mennä niin pahasti topicin
ohi että lienee parempi lopettaa visiointi tältäerää :)
--
Take
Janne Johansson
2005-05-12 22:13:53 UTC
Permalink
Post by Aggro
Ilmeisesti MySpell sanasto löytyy myös Suomeksi (eli käytännössä pari
tekstitiedostoa, joiden avulla saa oikoluvun aikaiseksi kielelle kuin
kielelle ilman ohjelmointia, koska ohjelmointi on jo tehtynä), mutta
ainakin joidenkin lähteiden mukaan se ei sovellu hyvin suomen kieleen.
juu, näin on minullekin kerrottu. itse asiassa se taisi olla yhtenä
aiheena jokunen vuosi sitten pidetyillä linux-päivillä wanhalle, kun
OO:sta ja saoikosta oli enemmänkin asiaa.
Post by Aggro
En sitten tiedä miksi se ei sovellu, enkä tiedä pystyisikö noita
sanastoja jotenkin korjaamaan, jotta se soveltuisi paremmin.
muistelisin, että kyse oli siitä, että myspell ei osaa taivuttaa sanoja
ja miksi osaisikaan. sehän on kuitenkin tehty sellaisia kieliä
silmälläpitäen, joissa sanoja ei juurikaan taivutella. en sitten tiedä
miten se hanskaa yhdyssanoja.

kuitenkin soikon tekijä taisi sanoa, että suomessa sanalistoihin
perustuva oikoluku ei ole järkevä vaihtoehto, sillä kaikkien
mahdollisten sanojen lisäksi sanalistaan pitäisi lisätä vielä
kaikkien mahdollisten sanojen kaikki mahdolliset taivutusmuodot -> lista
kasvaisi järkyttävän suureksi, veisi kohtuuttomasti tilaa ja oikoluku
olisi hidasta.

soikko taisi toimia niin, että siinä oli joku koneellisesti generoitu
perussanasto jota se sitten osasi taivutella suomen kielioppisääntöjen
mukaan. ei varmaan ihan simppelein homma, mutta toimii nähtävästi
erittäin hyvin.
Post by Aggro
Vastaavasti Soikosta en tiedä saako sitä Thunderbirdiin edes ollenkaan
luultavasti vain, jos TB osaa jutella ispellin kanssa. itselläni distron
oletus taitaa olla aspell, enkä tiedä saako soikkoa toimimaan senkään
kanssa. en ole niin perehtynyt noihin oikolukuhommiin, että tietäsin
noiden eri systeemien (ja rajapintojen) eroista.
Post by Aggro
ja OpenOfficenkin kanssa olen saanut sen asennuksessa virheitä esiin.
juu, minulla oli kerran ongelmia oikeuksien kanssa, mutta muuten tuo on
kyllä ollut täysin ongelmaton.
Post by Aggro
Eli tämä kahteen tiedostoon ja maailmalla yleisesti käytössä olevaan
järjestelmään perustuva systeemi tuntuu minusta paremmalta kuin
ohjelmoinnilla kikkailut.
mutta ilmeisesti se ei ole.
Post by Aggro
Tietty tuota sanastoahan voisi parastaa
tekemällä tietokoneohjelman, joka generoisi puuttuvia sanoja noihin
sanalistoihin.
ja varmaan myös niitä taivutusmuotoja/sijamuotoja kaikille niille
sanoille. eli periaatteessa, tehtäisiin samaa työtä mitä soikko tekee
nyt, mutta oikolukiessa jouduttaisiin käsittelemään monin verroin
suurempia sanalistoja.
--
Janne
Aggro
2005-05-12 23:03:01 UTC
Permalink
Post by Janne Johansson
muistelisin, että kyse oli siitä, että myspell ei osaa taivuttaa sanoja
ja miksi osaisikaan. sehän on kuitenkin tehty sellaisia kieliä
silmälläpitäen, joissa sanoja ei juurikaan taivutella. en sitten tiedä
miten se hanskaa yhdyssanoja.
Minä en nyt tiedä tiedänkö edes mitä sanojen taivuttaminen on, mutta...

fi-Fi.dic tiedostossa on esim. sana:
asiakielessä/T
Mitään muuta sanaa kyseisessä tiedostossa ei ole, jossa esiintyy
merkkijono "asiakielessä", mikä kertoo meille sen, että esim. sana
asiakielessäkin pitäisi tulkita virheeksi jos ohjelma luottaisi
pelkästään pelkkiin sanalistoihin.

fi-Fi.aff tiedostossa on puolestaan esim:
SFX T 0 kin ssä
SFX T 0 kään ssä
SFX T 0 kö ssä
SFX T 0 pä ssä
SFX T 0 hän ssä
SFX T 0 kinkö ssä
SFX T 0 käänkö ssä
SFX T 0 köhän ssä
SFX T 0 pähän ssä

En ole tutkinut mitä nuo rivit tarkoittavat, mutta arvelisin, että T
tarkoittaa tuolla .dic tiedostossa olevaa merkkiä. Kin,kään,kö,jne. ovat
sanan päätteitä, jotka voidaan lisätä sanan loppuun. Ja ssä on
puolestaan pääte joka sanassa pitää olla, että kyseisen päätteen saisi
sen perään lisätä. Ja tuon säännön takia esim. kaikki seuraavat sanat
tunnistetaan oikeiksi sanoiksi:

asiakielessä
asiakielessäkin
asiakielessäkään
asiakielessäkö
asiakielessäpä
asiakielessähän
asiakielessäkinkö
asiakielessäkäänkö
asiakielessäköhän
asiakielessäpähän

.dic tiedostosta löytyy myös esim. sana:
asiantuntijapiireissä/T, jonka pitäisi samaan tyyliin taipua. Eli
jokaiselle sanalle ei tarvitse erikseen noita taivutussääntöjä kirjoittaa.

En tiedä olenko minä ymmärtänyt väärin vai mistä on kyse, mutta minusta
tuo myspell systeemi osaa kyllä taivuttaa, kunhan sille listaa kaikki
sanat ja kertoo miten niitä pitää taivuttaa. Siitä en tiedä miten suuret
sanalistat tuosta syntyy, enkä tiedä sitäkään tuleeko niistä liian isoja
nykytietokoneilla ajettaviksi. Sitäkin voisi kai yrittää testata
luomalla satunnaisista kirjaimista muodostuvia sanoja tuonne sanalistaan
ja testaamalla miten se vaikuttaa.
Ilkka Pirskanen
2005-05-13 03:42:43 UTC
Permalink
Post by Aggro
Post by Janne Johansson
muistelisin, että kyse oli siitä, että myspell ei osaa taivuttaa sanoja
ja miksi osaisikaan. sehän on kuitenkin tehty sellaisia kieliä
silmälläpitäen, joissa sanoja ei juurikaan taivutella. en sitten tiedä
miten se hanskaa yhdyssanoja.
Minä en nyt tiedä tiedänkö edes mitä sanojen taivuttaminen on, mutta...
asiakielessä/T
Mitään muuta sanaa kyseisessä tiedostossa ei ole, jossa esiintyy
merkkijono "asiakielessä", mikä kertoo meille sen, että esim. sana
asiakielessäkin pitäisi tulkita virheeksi jos ohjelma luottaisi pelkästään
pelkkiin sanalistoihin.
Eihän tuo "asiakielessä" ole perusmuoto, vaan sen perusmuoto on "asiakieli"
tai oikeastaan "asia" ja "kieli". Hyvässä ohjelmassahan ei tarvitsi olla
muuta kuin "asia" ja "kieli" ja loppu sujuu automaattisesti ("asia" +
"kieli" + "-ssä" samalla runkoa taivuttaen). Tässä myspellissä pitää olla
ilmeisesti kaikki "asiakieli" sanan taivutusmuodot, siis esim.
"asiakielessä", ja tuota ei voi millään suffiksilla korvata, kun sanan
runkokin mukautuu suffiksiin. Kuten aikaisemmin sanottiin, tuolla tavalla
tehtynä sanalista paisuu järjettömän suureksi.

Ilkka
Pauli Virtanen
2005-05-13 21:12:17 UTC
Permalink
Ilkka Pirskanen <***@_NOSPAM_kolumbus.fi> kirjoitti 13.05.2005:
[clip]
Post by Ilkka Pirskanen
Eihän tuo "asiakielessä" ole perusmuoto, vaan sen perusmuoto on "asiakieli"
tai oikeastaan "asia" ja "kieli". Hyvässä ohjelmassahan ei tarvitsi olla
muuta kuin "asia" ja "kieli" ja loppu sujuu automaattisesti ("asia" +
"kieli" + "-ssä" samalla runkoa taivuttaen).
En olisi varma, toimivatko nykyisetkään ohjelmat oikein kaikissa
tapauksissa ilman lisävihjeitä.
Post by Ilkka Pirskanen
Tässä myspellissä pitää olla ilmeisesti kaikki "asiakieli" sanan
taivutusmuodot, siis esim. "asiakielessä", ja tuota ei voi millään
suffiksilla korvata, kun sanan runkokin mukautuu suffiksiin.
Siis sanalistaan tarvittaisiin suunnilleen kohdat

kieli/M
kielet/M
kielten/MO
kielien/MO
kielineni/M
kielinesi/M
kielinensä/M
kielinemme/M
kielinenne/MO
kieliin/MO
kieleen/MO
kieltä/MO
kieliä/MO
kielessä/T
kielissä/T
kieleni/Q

Verbien taivutus onnistuu usein vähemmällä.
Post by Ilkka Pirskanen
Kuten aikaisemmin sanottiin, tuolla tavalla tehtynä sanalista
paisuu järjettömän suureksi.
Sanalistan koko on siis arviolta noin 20 kohtaa per sana, mikä ei
automaattisesti ole "järjettömän suuri", varsinkin kun päätteiden
määrittelyä voi vielä parantaa. Ispell ja Myspell joko skaalautuvat
tähän tai sitten eivät, jolloin täytyy ehkä kirjoittaa jokin muu
ohjelma.

Joka tapauksessa, kun sanalista on koossa ja taivutustiedot merkitty
siihen, tai käsillä on taivutusmuodot automaattisesti tunnistava
värkki, suurin osa ongelmasta on jo ratkaistu. Tämän jälkeen tuloksen
voi ehkä siirtää Ispellin/Myspellin ymmärtämään muotoon, jos se tuntuu
järkevältä. Kysymystä "Onnistuuko oikoluku ispellillä/myspellillä"
olennaisempi kysymys on minusta "Kuka kerää tarvittavan datan ja
julkaisee sen vapaalla lisenssillä".
--
Pauli Virtanen
Teemu Likonen
2005-05-14 06:50:38 UTC
Permalink
Post by Pauli Virtanen
Siis sanalistaan tarvittaisiin suunnilleen kohdat
kieli/M
kielet/M
kielten/MO
kielien/MO
kielineni/M
kielinesi/M
kielinensä/M
kielinemme/M
kielinenne/MO
kieliin/MO
kieleen/MO
kieltä/MO
kieliä/MO
kielessä/T
kielissä/T
kieleni/Q
Verbien taivutus onnistuu usein vähemmällä.
En tiedä, miten nämä Xspellit toimivat, mutta tuossa listassa ei ole
alkuunkaan kaikki sijamuotojen ja omistusliitteiden yhdistelmät,
jos sitä on haettu. Lisäksi taidat unohtaa verbien nominaalimuodot
kokonaan. Verbien taivutus on vaikeaa, ja mikäli Xspell vaatii sanat
sijapäätettä myöten, tulee verbiä kohden valtavasti sanoja.

Infinitiivit:
I: (akt.): tehdä, tehdäkseni (+ kaikki muut omistusliitteet)
II (akt.): tehden, tehdessä
(pass.): tehtäessä
III: (akt.): tekemässä, tekemästä, tekemään, tekemällä, tekemättä, tekemän
(pass.): tehtämän
IV: (akt.): tekeminen, tekemistä
V: (akt.): tekemäisilläni (+ muut omistusliitteet)

Partisiipit:
I (akt.yks.): tekevä, tekevän, tekevänä, tekevää (+ kaikki muut sijamuodot)
(akt.mon.): tekevät, tekevien, tekevinä, tekeviä (+ muut sijat)
(pass.yks.): tehtävä, tehtävän, tehtävänä, tehtävää (+ muut sijat)
(pass.mon.): tehtävät, tehtävien, tehtävinä, tehtäviä (+ muut sijat)
II (akt.yks.): tehnyt, tehneen, tehneenä, tehnyttä (+ muut sijat)
(akt.mon.): tehneet, tehneiden, tehneinä, tehneitä (+ muut sijat)
(pass.yks.): tehty, tehdyn, tehtynä, tehtyä (+ muut sijat)
(pass.mon.): tehdyt, tehtyjen, tehtyinä, tehtyjä (+ muut sijat)
agenttipartisiippi:
(akt.yks.): tekemä, tekemän, tekemänä, tekemää (+ muut sijat)
(akt.mon.): tekemät, tekemien, tekeminä, tekemiä (+ muut sijat)

Lisäksi em. sanoihin voidaan liittää omistusliitteitä ja
liitepartikkeleita. Persoonamuotoiset verbit sitten vielä ihan erikseen.
Post by Pauli Virtanen
olennaisempi kysymys on minusta "Kuka kerää tarvittavan datan ja
julkaisee sen vapaalla lisenssillä".
Juuri näin. Olenkin itse kypsyttämässä ajatusta, että tekisi ihan kunnolla
perustellun aloitteen joillekin valtion instansseille. Todennäköisesti
pitää pommittaa useampaa, ja todennäköisesti mitään ei synny, mutta on
ainakin yritetty. Ehkä siitä syttyy kipinä, joka vuosien päästä johtaa
toteutukseen. Ei tässä ihan keskustelemalla mitään tapahdu. Valtava tarve
oikoluvulle tulee olemaan, mikäli suuremmat massat siirtyvät käyttämään
Linuxia ja/tai avoimen lähdekoodin ohjelmia. Se on varmasti monille jopa
suurin siirtymisen kynnys.
--
"Mummo kanasensa kaljuksi ajoi.
Kaljut kanaset ne hyppeli."
-- Alivaltiosihteeri
Pauli Virtanen
2005-05-14 12:25:53 UTC
Permalink
Post by Teemu Likonen
Post by Pauli Virtanen
Siis sanalistaan tarvittaisiin suunnilleen kohdat
kieli/M
kielet/M
kielten/MO
kielien/MO
kielineni/M
kielinesi/M
kielinensä/M
kielinemme/M
kielinenne/MO
kieliin/MO
kieleen/MO
kieltä/MO
kieliä/MO
kielessä/T
kielissä/T
kieleni/Q
Verbien taivutus onnistuu usein vähemmällä.
En tiedä, miten nämä Xspellit toimivat, mutta tuossa listassa ei ole
alkuunkaan kaikki sijamuotojen ja omistusliitteiden yhdistelmät,
Olet väärässä, juuri tätä varten tuossa listassa on nuo /M /O /T ja /Q
-liitteet. Komento "cat lista | ispell.real -dfinnish -e" paljastaa,
mitkä muodot tuosta listasta generoituvat.
Post by Teemu Likonen
jos sitä on haettu. Lisäksi taidat unohtaa verbien nominaalimuodot
kokonaan. Verbien taivutus on vaikeaa, ja mikäli Xspell vaatii sanat
sijapäätettä myöten, tulee verbiä kohden valtavasti sanoja.
Ei vaadi, koska verbien taivutuskaava

tehdä/V
teen/Z
tekevä/X
tein/Z

generoi noista alla mainitsemastasi 55 taivutusmuodosta kaikki
paitsi 14:

tehdy*
tehnee*
tehny*
tehty*
tekemäisilläni

Nykyinen ispellin taivutustietokanta käsittelee tosiaan
nominaalimuotoja hieman puutteellisesti, mutta mitään periaatteellista
estettä tilanteen parantamiseen ei ole.
Post by Teemu Likonen
I: (akt.): tehdä, tehdäkseni (+ kaikki muut omistusliitteet)
II (akt.): tehden, tehdessä
(pass.): tehtäessä
III: (akt.): tekemässä, tekemästä, tekemään, tekemällä, tekemättä, tekemän
(pass.): tehtämän
IV: (akt.): tekeminen, tekemistä
V: (akt.): tekemäisilläni (+ muut omistusliitteet)
I (akt.yks.): tekevä, tekevän, tekevänä, tekevää (+ kaikki muut sijamuodot)
(akt.mon.): tekevät, tekevien, tekevinä, tekeviä (+ muut sijat)
(pass.yks.): tehtävä, tehtävän, tehtävänä, tehtävää (+ muut sijat)
(pass.mon.): tehtävät, tehtävien, tehtävinä, tehtäviä (+ muut sijat)
II (akt.yks.): tehnyt, tehneen, tehneenä, tehnyttä (+ muut sijat)
(akt.mon.): tehneet, tehneiden, tehneinä, tehneitä (+ muut sijat)
(pass.yks.): tehty, tehdyn, tehtynä, tehtyä (+ muut sijat)
(pass.mon.): tehdyt, tehtyjen, tehtyinä, tehtyjä (+ muut sijat)
(akt.yks.): tekemä, tekemän, tekemänä, tekemää (+ muut sijat)
(akt.mon.): tekemät, tekemien, tekeminä, tekemiä (+ muut sijat)
Lisäksi em. sanoihin voidaan liittää omistusliitteitä ja
liitepartikkeleita. Persoonamuotoiset verbit sitten vielä ihan erikseen.
Liitepartikkelit eivät ole ongelma, ja ylläolevan kaltainen luettelo
generoi useimmat aktiivin ja passiivin persoonamuodot.
--
Pauli Virtanen
Teemu Likonen
2005-05-14 13:13:12 UTC
Permalink
Post by Pauli Virtanen
Olet väärässä, juuri tätä varten tuossa listassa on nuo /M /O /T ja /Q
Nykyinen ispellin taivutustietokanta käsittelee tosiaan
nominaalimuotoja hieman puutteellisesti, mutta mitään periaatteellista
estettä tilanteen parantamiseen ei ole.
Kiva kuulla! Tuo onkin paljon parempi järjestelmä kuin kuvittelin.
Miksiköhän sanasto tai juurimorfeemien määrittely on jäänyt
vaillinaiseksi silloin kun se tehtiin?
Aggro
2005-05-14 13:33:52 UTC
Permalink
Post by Pauli Virtanen
Liitepartikkelit eivät ole ongelma, ja ylläolevan kaltainen luettelo
generoi useimmat aktiivin ja passiivin persoonamuodot.
Mukava kuulla. Entäs nuo yhdyssanat, jotka aikaisemmin mainittiin.
Tuottavatko ne ongelmaa?
Pauli Virtanen
2005-05-14 14:15:30 UTC
Permalink
Post by Aggro
Post by Pauli Virtanen
Liitepartikkelit eivät ole ongelma, ja ylläolevan kaltainen luettelo
generoi useimmat aktiivin ja passiivin persoonamuodot.
Mukava kuulla. Entäs nuo yhdyssanat, jotka aikaisemmin mainittiin.
Tuottavatko ne ongelmaa?
Kyllä melkoisesti. Ispell muistaakseni tarjoaa kolme vaihtoehtoa:

- Ei yhdyssanoja, kaikki yhdistelmät täytyy luetella sanastossa.
- Kaikkia sanoja (ja /-liiteistä muodostettuja sanamuotoja?)
voi yhdistellä mielivaltaisesti.
- Vain tietyllä /-liitteellä merkityt sanat voivat osallistua
yhdyssanojen muodostamiseen.

Kaksi jälkimmäistä saattavat selvästi sallia vääriä yhdistelmiä (ja
Ispell ei taida generoida korjausehdotuksia yhdistelemällä saaduille
sanoille!), ja ensimmäinen voi kasvattaa sanaston kokoa liian suurella
kertoimella.
--
Pauli Virtanen
Eero Häkkinen
2005-05-14 14:22:03 UTC
Permalink
Mukava kuulla. Ent�s nuo yhdyssanat, jotka aikaisemmin mainittiin.
Tuottavatko ne ongelmaa?
Tuottavat. Vaihtoehtoina on joko lis�t� sanastoon kaikki k�ytett�v�t
yhdyssanat, mik� kasvattaa sanaston kokoa huomattavasti, tai hyv�ksy�
kaikki sanayhdistelm�t, jolloin oikeinkirjoitusohjelma sallii my�s sanat
tyyliin kuormassanikinauto.
Jouko Holopainen
2005-05-15 00:43:24 UTC
Permalink
Tuottavat. Vaihtoehtoina on joko lisätä sanastoon kaikki käytettävät
yhdyssanat, mikä kasvattaa sanaston kokoa huomattavasti, tai hyväksyä
kaikki sanayhdistelmät, jolloin oikeinkirjoitusohjelma sallii myös sanat
tyyliin kuormassanikinauto.
Eikös tuo ole helppo estää? Suomen kielessähän yhdyssanan ensimmäinen
puolisko on aina perusmuodossa (tai genetiivissä).
--
@jhol

KK (Boogiteorian alkeet / Juice Leskinen Grand Slam)
Jari Oksanen
2005-05-16 05:49:13 UTC
Permalink
Post by Jouko Holopainen
Tuottavat. Vaihtoehtoina on joko lisätä sanastoon kaikki käytettävät
yhdyssanat, mikä kasvattaa sanaston kokoa huomattavasti, tai hyväksyä
kaikki sanayhdistelmät, jolloin oikeinkirjoitusohjelma sallii myös sanat
tyyliin kuormassanikinauto.
Eikös tuo ole helppo estää? Suomen kielessähän yhdyssanan ensimmäinen
puolisko on aina perusmuodossa (tai genetiivissä).
Eikö siellä Uudellamaalla ole kuultu muunlaisten yhdyssanojen olemassolosta?

t.j.o.
Eero Häkkinen
2005-05-14 12:53:14 UTC
Permalink
Post by Pauli Virtanen
Siis sanalistaan tarvittaisiin suunnilleen kohdat
kieli/M
Yksik�n nominatiivi + liitepartikkelit
Post by Pauli Virtanen
kielet/M
Monikon nominatiivi ja akkusatiivi + liitepartikkelit
Post by Pauli Virtanen
kielten/MO
kielien/MO
Monikon genetiivi + liitepartikkelit + omistusliitteet
Post by Pauli Virtanen
kielineni/M
kielinesi/M
kielinens�/M
kielinemme/M
kielinenne/MO
Monikon komitatiivi + liitepartikkelit
Monikon essiivi + liitepartikkelit + omistusliitteet
Post by Pauli Virtanen
kieliin/MO
Monikon illatiivi + liitepartikkelit + omistusliitteet
Post by Pauli Virtanen
kieleen/MO
Yksik�n illatiivi + liitepartikkelit + omistusliitteet
Post by Pauli Virtanen
kielt�/MO
Yksik�n partitiivi + liitepartikkelit + omistusliitteet
Post by Pauli Virtanen
kieli�/MO
Monikon partitiivi + liitepartikkelit + omistusliitteet
Post by Pauli Virtanen
kieless�/T
Yksik�n akkusatiivi, genetiivi, translatiivi, inessiivi, elatiivi,
adessiivi, ablatiivi, allatiivi, abessiivi ja instruktiivi +
liitepartikkelit + omistusliitteet
Post by Pauli Virtanen
kieliss�/T
Monikon genetiivi, translatiivi, inessiivi, elatiivi, adessiivi, ablatiivi,
allatiivi, abessiivi ja instruktiivi + liitepartikkelit + omistusliitteet
Post by Pauli Virtanen
kieleni/Q
Yksik�n nominatiivin, akkusatiivi ja genetiivin ja monikon nominatiivin ja
genetiivin omistusliitemuodot + liitepartikkelit
Yksik�n essiivi + liitepartikkelit + omistusliitteet
Post by Pauli Virtanen
Verbien taivutus onnistuu usein v�hemm�ll�.
En tied�, miten n�m� Xspellit toimivat, mutta tuossa listassa ei ole
alkuunkaan kaikki sijamuotojen ja omistusliitteiden yhdistelm�t,
jos sit� on haettu.
Kyll� siin� vaan tuntuu olevan. Huomaa, ett� heikkoon vokaalivartaloon
pohjautuvat sijamuodot taipuvat s��nn�llisesti, joten niist� riitt�� yksi
muoto.
Lis�ksi taidat unohtaa verbien nominaalimuodot
kokonaan. Verbien taivutus on vaikeaa, ja mik�li Xspell vaatii sanat
sijap��tett� my�ten, tulee verbi� kohden valtavasti sanoja.
{a,is,my}spell vaativat yhden sanan jokaista s��nn�llisesti taipuvaa
vartaloa kohden. Suomen kielen monikon genetiivin ja yksik�n ja monikon
illatiivin taivutusta ei pysty p��ttelem��n pelk�st��n sanan ulkon��n
perusteella, joten ne pit�� k�yt�nn�ss� aina luetella sanostossa.
I (akt.yks.): tekev�, tekev�n, tekev�n�, tekev�� (+ kaikki muut
sijamuodot)
(akt.mon.): tekev�t, tekevien, tekevin�, tekevi� (+ muut sijat)
(pass.yks.): teht�v�, teht�v�n, teht�v�n�, teht�v�� (+ muut sijat)
(pass.mon.): teht�v�t, teht�vien, teht�vin�, teht�vi� (+ muut sijat)
II (akt.yks.): tehnyt, tehneen, tehneen�, tehnytt� (+ muut sijat)
(akt.mon.): tehneet, tehneiden, tehnein�, tehneit� (+ muut sijat)
(pass.yks.): tehty, tehdyn, tehtyn�, tehty� (+ muut sijat)
(pass.mon.): tehdyt, tehtyjen, tehtyin�, tehtyj� (+ muut sijat)
(akt.yks.): tekem�, tekem�n, tekem�n�, tekem�� (+ muut sijat)
(akt.mon.): tekem�t, tekemien, tekemin�, tekemi� (+ muut sijat)
Huomaat kai n�iss� olevan s��nn�nmukaisuuden? II partisiipin passiivin
astevaihtelua lukuunottamatta paikki partisiippimuodot ja niiden
taivutusmuodot jne. voidaan muodostaa suoraan vastaavista
finiittimuodoista.
Pauli Virtanen
2005-05-12 23:09:54 UTC
Permalink
Post by Janne Johansson
Post by Aggro
Ilmeisesti MySpell sanasto löytyy myös Suomeksi (eli käytännössä pari
tekstitiedostoa, joiden avulla saa oikoluvun aikaiseksi kielelle kuin
kielelle ilman ohjelmointia, koska ohjelmointi on jo tehtynä), mutta
ainakin joidenkin lähteiden mukaan se ei sovellu hyvin suomen kieleen.
juu, näin on minullekin kerrottu. itse asiassa se taisi olla yhtenä
aiheena jokunen vuosi sitten pidetyillä linux-päivillä wanhalle, kun
OO:sta ja saoikosta oli enemmänkin asiaa.
Post by Aggro
En sitten tiedä miksi se ei sovellu, enkä tiedä pystyisikö noita
sanastoja jotenkin korjaamaan, jotta se soveltuisi paremmin.
muistelisin, että kyse oli siitä, että myspell ei osaa taivuttaa sanoja
ja miksi osaisikaan. sehän on kuitenkin tehty sellaisia kieliä
silmälläpitäen, joissa sanoja ei juurikaan taivutella. en sitten tiedä
miten se hanskaa yhdyssanoja.
Myspellissä on täysin Ispelliä vastaava sanojen päätteiden
käsittelyjärjestelmä, jolla kyllä pystyy suuren osan suomen sanojen
päätteistä ilmaisemaan. Luulisin että periaatteessa Ispellin tekniset
rajoitukset eivät ole ylittämätön este suomen käsittelyssä (ainakin
jos unohdetaan yhdyssanojen tuottamat ongelmat).

Varsinainen ongelma on (jälleen kerran) hyvän sanaston kerääminen, ja
taivutusmuotojen tunnistaminen ja merkitseminen. Tämä on tylsää puuhaa
käsin tehtäväksi, ja sanojen taivutusluokkien tunnistaminen ei ole
koneelle aivan triviaalia.
Post by Janne Johansson
Post by Aggro
Tietty tuota sanastoahan voisi parastaa
tekemällä tietokoneohjelman, joka generoisi puuttuvia sanoja noihin
sanalistoihin.
ja varmaan myös niitä taivutusmuotoja/sijamuotoja kaikille niille
sanoille. eli periaatteessa, tehtäisiin samaa työtä mitä soikko tekee
nyt, mutta oikolukiessa jouduttaisiin käsittelemään monin verroin
suurempia sanalistoja.
Suurempia listoja kyllä, mutta ei välttämättä liian suuria käytännön
kannalta. Vaikea sanoa kokeilematta.
--
Pauli Virtanen
Perttu Pulkkinen
2005-05-17 10:23:53 UTC
Permalink
Post by Teemu Likonen
Suomen valtion täytyisi tehdä sellainen kulttuuriteko, että se tuottaa
yleispätevän avoimen lähdekoodin oikeinkirjoituksen tarkistus- ja
tavutusohjelman.
Eikö valtion vain kannattaisi maksaa soikon tekijälle mahdollisesta
lisökehityskesä ja koodin vapautuksesta? Ei kai alusta kannata aloittaa.
Aapo Rista
2005-05-11 17:21:17 UTC
Permalink
Asennus meni pakettien mukaan oikein hyvin (soikko olikin jo
asennutte openofficea varten), mutta kden oikolukuvalikosta ei
suomea silti jostain syystä löydy. Valikosta löytyy ISpell-oletus,
pari englantia ja Tuntematon[default] (joka ei kuitenkaan ole
suomi).
Mulla on sama tilanne, Debian unstable / KDE 3.3.

Komento
[tm]ispell -dsuomi suomitekstitiedosto.txt
ajaa kyllä oikoluvun ko. tiedostolle, mutta KDE ei suomea mistään
löydä.
--
Aapo Rista
***@rista.net
Loading...