Stafræn gögn fyrir máltæknibúnað

Steinþór Steingrímsson á Árnastofnun og Brynja Baldursdóttir framkvæmdastjóri Creditinfo.
Steinþór Steingrímsson á Árnastofnun og Brynja Baldursdóttir framkvæmdastjóri Creditinfo. Ljósmynd/Anton Brink

Creditinfo afhenti í dag Stofnun Árna Magnússonar í íslenskum fræðum gögn til uppbyggingar stafrænnar íslensku. Um er að ræða tæplega 8 milljónir setninga frá talaðri og ritaðri íslensku sem verður undirstaðan í stafrænum textagrunni sem Árnastofnun er að setja á laggirnar til stuðnings við stafrænar tæknilausnir. Þróun og notkun snjalltækja sem taka við skipunum á mæltu máli er hröð og því er mikilvægt að hægt sé að eiga samtal við tækin á íslenskri tungu.  Þetta kemur fram í tilkynningu. 

Gagnagrunnurinn nefnist Risamálheild. Stefnt er að því að Risamálheild geymi allt að eittþúsund milljónir orða sem verða aðgengileg til leitar og aðgengileg á xml-sniði til nota í máltækniverkefnum.

„Stafræn gögn, textar og hljóðupptökur, eru forsenda fyrir þróun alls máltæknibúnaðar fyrir íslensku. Gögnin eru notuð til að afla nákvæmra upplýsinga um íslenskt mál og notkun þess, tíðni orða og orðasambanda, beygingar, setningagerð o.s.frv. Gögnin frá Creditinfo eru mjög mikilvæg vegna þess að þau hafa að geyma nýja og nýlega texta af ýmsu tagi sem gefa góða mynd af því hvernig íslenskt ritmál er um þessar mundir,“ er haft eftir Steinþóri Steingrímssyni hjá Árnastofnun í tilkynningu. 

„Risamálheildin mun byggja á safni af opinberum textum og gögnin sem Creditinfo hefur afhent Árnastofnun eru umfangsmikil og fjölbreytileg. Vonandi mun það auðvelda stofnuninni að setja Risamálheildina á laggirnar enda mikilvægt fyrir Íslendinga að geta þróað tæknilausnir á íslensku,“ segir Brynja Baldursdóttir framkvæmdastjóri Creditinfo í tilkynningu. 

mbl.is
Fleira áhugavert
Fleira áhugavert