„Skref í þá átt að við fáum að vera með“

Hildur Jónsdóttir útskrifaðist með meistaragráðu í máltækni á dögunum. Fyrir …
Hildur Jónsdóttir útskrifaðist með meistaragráðu í máltækni á dögunum. Fyrir hefur hún lært íslensku og latínu, en hún starfar sem gæðastjóri hjá Origo.

Hildur Jónsdóttir útskrifaðist á dögunum úr máltækni í Háskóla Íslands og fékk lokaverkefni hennar ágætiseinkunn en það er nú orðið hluti af einu stærsta máltækniverkefni heims, Universal Dependencies.

Verkefnið snýst um svokallaða trjábanka en þeir eru aðallega notaðir til að þjálfa þáttara, með það að markmiði að skilja samhengi í setningum. Trjábankar eru einfaldlega textar sem er búið að greina setningafræðilega. Að auki innihalda þeir yfirleitt aðrar upplýsingar eins og t.d. orðflokka, beygingarmyndir og lemmu (uppflettimynd) orða. Hildur yfirfer setningarnar síðan sjálf og metur gæði trjábankans með tíföldu krossmati (e. 10-fold cross validation), en hún segir gæðin á svipuðu róli og trjábankar annarra Norðurlandamála.

Íslenski trjábankinn er nú aðgengilegur í opnum aðgangi sem hluti hins alþjóðlega verkefnis. Í lokaverkefninu aðlagaði Hildur venslamálfræðilíkan að íslensku og beitti síðan orðlausri þáttun (e. delexicalized parsing) til að forvinna íslenskan texta. Þáttarinn byggir á tauganeti sem hún þjálfaði með sænskum, norskum og dönskum textum. 

„Þetta eru mjög lík tungumál setningafræðilega séð,“ segir Hildur þótt íslenskan njóti auðvitað vissrar sérstöðu.

Kraftur færst í verkefnið

Spurð hvaða þýðingu slíkt verkefni hafi fyrir stöðu tungumálsins á tækniöld, segir hún þetta aðeins eitt skref í rétta átt. 

„Öll gögn sem við búum til eru skref í þá átt að við fáum að vera með í máltækninni,“ segir hún. Unnið hafi verið að íslenskri máltækni í um tuttugu ár, en það hafi fyrst verið á allra síðustu misserum sem kraftur hafi færst í verkefnið.

Í fyrra var til að mynda undirritað samkomulag um fyrsta áfanga máltækniáætlunar en að henni standa Al­mannaróm­ur – miðstöð um mál­tækni og rann­sókn­ar­hóp­ur­inn Sam­starf um ís­lenska mál­tækni (SÍM).

mbl.is