Greynir íslensku í mállegar frumeindir

Hulda Óladóttir málfræðingur er einn fjögurra starfsmanna Miðeindar. Hér situr …
Hulda Óladóttir málfræðingur er einn fjögurra starfsmanna Miðeindar. Hér situr hún með setningaþáttarann opinn. mbl.is/Arnþór Birkisson

Í rislitlu húsi við sjávarsíðuna á Granda er unnið að því að lyfta grettistaki í máltækni íslenskunnar. Þar er til húsa fyrirtækið Miðeind, sem vinnur að hugbúnaðnum Greyni, málgreini fyrir íslenska tungu.

Greynir er hugarfóstur Vilhjálms Þorsteinssonar forritara, sem í samtali við mbl.is segir hugmyndina hafa fæðst stuttu eftir að hann bjó til Netskraflið.

„Málgreinir er í grunninn hugbúnaður sem les íslenskan texta og leysir upp í málfræðilegar frumeindir sínar,“ segir Vilhjálmur, en með því er átt við að forritið fullþáttar setningar í setningarhluta (frumlag, umsögn, andlag, o.s.frv.) með sérsökum þáttara.

Greynirinn vílar ekki fyrir sér að þátta jólalög.
Greynirinn vílar ekki fyrir sér að þátta jólalög. Skjáskot/Miðeind

Textinn, sem Greynir hefur æft sig á, er fenginn úr fréttagreinum, meðal annars hér á mbl.is, auk opinberra skjala. Þáttarinn hefur nú yfirfarið um 8 milljónir málsgreina, og segir Vilhjálmur að hlutfall vel heppnaðra þáttana sé nú um 80-85%. Hann skilji orðið flestar fréttir, en eigi þó erfiðara með skáldlegan texta þar sem orðaröð er mikið hnikað og setningar einstaklega langar.

Orðasafnið er fengið úr Beygingarlýsingu íslensks nútímamáls.

Búið er að harðkóða 5.500 línur af reglum um íslenskt mál þar sem hver og ein segir til um hvað má og hvað má ekki í íslensku máli. „Dæmi um reglu gæti verið að setning geti verið frumlag, umsögn, andlag, eða umsögn, frumlag, sagnfylling, og þar fram eftir götunum,“ segir Vilhjálmur.

Að svo búnu eru forritinu ýmsir vegir færir, en villugreining texta er kannski augljósasta hagnýtingin. Ólíkt einfaldari forritum, sem aðeins athuga hvort orðið sem er skrifað er til í orðabókinni, getur Greynirinn greint orðmyndir út frá stöðu þeirra innan setningarinnar.

Orðin víst og að geta komið saman án þess að …
Orðin víst og að geta komið saman án þess að þar sé villa á ferð. Á þessu áttar Greynir sig. Skjáskot/Greynir


Mikilvægt að íslenska sé gjaldgeng í stafrænum heimi 

Vilhjálmur segir verkefnið fyrst og fremst drifið áfram af hugsjónamennsku. Allur hugbúnaðurinn er opinn og þær lausnir sem þróaðar verða muni standa almenningi til boða án kostnaðar. Hugsanlega verði þó einhverjir tekjumöguleikar þegar fram líða stundir, svo sem með áskriftarmöguleikum fyrir stórnotendur.

„Ávinningurinn af Greyninum kemur sennilega fram í öðru en beinhörðum peningum,“ segir hann og bætir við að það sé gríðarlega mikilvægt fyrir stöðu íslenskunnar í hinum stafræna heimi að unnið sé að íslenskri gervigreind, eigi málið okkar að verða nothæft á tölvuöld, svo sem í samskiptum við raddstýrð tæki. Annað yrði íslenskunni fjötur um fót.

Vilhjálmur Þorsteinsson, til vinstri, hefur starfað sem forritari til fjölda …
Vilhjálmur Þorsteinsson, til vinstri, hefur starfað sem forritari til fjölda ára.

Ísland er ekki eyland í þessum efnum. Flestar þjóðtungur standa frammi fyrir sömu áskorunum og íslenskan, jafnvel tungumál sem mun fleiri tala. Telur Vilhjálmur að starf Greynisins kunni að nýtast öðrum tungumálum seinna meir, en segja má að fá ef nokkur verkefni á þessu sviði séu jafnmetnaðarfull og Greynir.

Íslenskan er í hópi erfiðari mála, segir Vilhjálmur, og hugbúnaðurinn endurspeglar það. Setningamyndun í íslensku er til að mynda frjálsleg og margskonar orðaröð í boði. Því þarf þáttari Greynisins, sem sér um að þátta setningar í setningarhluta, að kanna ansi margar mögulegar setningagerðir.

Verkefnið hefur fengið styrk úr máltækniáætlun stjórnvalda sem gildir til fimm ára og máltæknisjóði Rannís. Fyrirtækið hefur á að skipa fjórum starfsmönnum: málfræðingi með meistaragráðu í máltækni, hörkuduglegum forritara, og starfsmanni með gráðu í reiknifræði, auk Vilhjálms sjálfs sem er heldur betur á heimavelli, en hann hefur áður unnið við þýðingar á forritunarmálum yfir í vélarmál og segir þá reynslu hafa hjálpað honum þegar kom að því að færa sig yfir í mælt mál.

Frá skrifstofum Miðeindar, sem eru hinar glæsilegustu.
Frá skrifstofum Miðeindar, sem eru hinar glæsilegustu. mbl.is/Arnþór Birkisson

Eitt vandamál, sem Greynismenn glíma við, er að sannreyna gæði þáttarans. Í ensku og öðrum stærri málum eru til svokallaðir gullstaðlar, stór gagnasöfn með setningum sem hafa verið þáttaðar af málfræðingum og hægt er að keyra forritið á og bera saman við rétta þáttun. Þannig má athuga hve oft forritinu tekst rétt til. 

Enginn gullstaðall er til fyrir íslensku, en útlit er fyrir að bragarbót verði gerð þar á. „Eitt verkefni á vegum Árnastofnunar, og annað sem við fengum styrk fyrir, snýr að því að við munum fá mennska yfirlesara til að yfirfara og leiðrétta setningar sem þegar hafa verið vélþáttaðar,“ segir Vilhjálmur. Fyrst um sinn verða 2.000 setningar þáttaðar en von er á að 8-10.000 setningum verði síðar bætt við.

Tækifærin endalaus

Þótt villugreiningin sé fyrsta hagnýting verkefnisins eru möguleikarnir óteljandi. Næsta skref verður þýðingar á milli íslensku og erlendra tungumála, fyrst um sinn ensku. Vilhjálmur segir alvitað að ung börn séu farin að notast við tæki á ensku, liggur við, áður en þau læri að lesa. Barnaefni á netinu sé margt á ensku og þau ferðist um veraldarvefinn í iPad-num sem sjálfur er á ensku. Unga kynslóðin, og þau eldri raunar líka, sé farin að verða betri í ensku en íslensku þegar kemur að orðaforða á vissum sviðum. Eigi að snúa þeirri þróun við þurfi tól sem leyfa rauntímaþýðingu á milli mála, en íslenska er tæpast efst á lista stórfyrirtækja sem vinna að slíkum græjum.

„Við erum að spenna bogann hátt, en grunntæknin er fyrir hendi.“ Með samstilltu átaki eigi að vera hægt að tryggja að hið ástkæra ylhýra standi jafnfætis öðrum málum á stafrænni öld. 

Glerveggir á skrifstofum Miðeindar eru skreyttir með kafla úr upphafi …
Glerveggir á skrifstofum Miðeindar eru skreyttir með kafla úr upphafi fyrstu málfræðiritgerðarinnar, sem var að öllum líkindum skrifuð á seinni hluta 12. aldar. Ljósmynd/Miðeind
mbl.is