Röddin er nýja lyklaborðið

Jóhanna Vigdís Guðmundsdóttir, framkvæmdastjóri Almannaróms, telur að tæknin vinni með …
Jóhanna Vigdís Guðmundsdóttir, framkvæmdastjóri Almannaróms, telur að tæknin vinni með okkur í að varðveita íslenskuna. mbl.is/Hari

Röddin er nýja lyklaborðið og við erum þegar farin að tala við tækin okkar, segir framkvæmdastjóri Almannaróms, Jóhanna Vigdís Guðmundsdóttir. Til þess að geta talað við tækin á íslensku verður að tryggja stöðu hennar í stafrænum heimi og þar er nýsköpun í lykilhlutverki. 

„Markmið Almannaróms er að tryggja að íslenskan standi jafnfætis öðrum tungumálum í tækniheiminum. Eins að vernda íslenska tungu og stuðla að aðgengi allra að nauðsynlegri tækni,“ segir Jóhanna Vigdís en hún tók við starfi framkvæmdastjóra í desember 2018. 

Almannarómur er sjálfseignarstofnun sem var stofnuð árið 2014 með það markmið að stuðla að smíði máltæknilausna fyrir íslensku. Stofnaðilarnir eru tuttugu og koma úr ýmsum áttum; svo sem háskólar, stofnanir, fyrirtæki og félagasamtök. Það var síðan í ágúst síðastliðnum sem mennta- og menningarmálaráðuneytið samdi um rekstur miðstöðvar um máltækni við Almannaróm, að undangengnu útboði.

„Máltækniáætlunin er eitt mikilvægustu skrefanna sem við stígum nú til þess að tryggja betur framtíð íslenskunnar og þar með menningu okkar og sjálfstæði,“ sagði Lilja Alfreðsdóttir, mennta- og menningarmálaráðherra, þegar skrifað var undir samninginn í ágúst. 

Frétt mbl.is

Jóhanna Vigdís tekur undir það með Lilju en þó má segja að undirbúningur verkefnisins hafi staðið yfir í tvo áratugi. Fyrsta máltækniskýrslan var unnin af nefnd sem þáverandi menntamálaráðherra, Björn Bjarnason, skipaði árið 1998. Nefndin skilaði skýrslunni í febrúar 1999 og þar var lagt til að næstu árin yrðu lagðar 225-250 milljónir króna á ári í verkefnið. Það gekk aftur á móti ekki eftir því alls voru settar 130 milljónir króna í verkefnið á árunum 2000-2004.

Tungumálið í stað músar og lyklaborðs er framtíðin.
Tungumálið í stað músar og lyklaborðs er framtíðin. AFP

Að sögn Jóhönnu Vigdísar hefur verkefnið alla götur síðan verið á borði hinna ýmsu menntamálaráðherra og ýmis verkefni orðið að veruleika:

  • Beygingarlýsing íslensks nútímamáls – unnin af Orðabók HÍ.
  • Þjálfunarlíkan fyrir málfræðilegan markara – unnin af Orðabók HÍ o.fl.
  • Mörkuð íslensk málheild – unnin af Orðabók HÍ.
  • Hjal – íslensk talgreining – unnin af Hex, Símanum, HÍ, o.fl.
  • Ragga – íslenskur talgervill - unnin af Hex, Símanum, HÍ, o.fl.
  • Beygingar- og málfræðigreinikerfi – unnið af Friðrik Skúlasyni.
  • Á árunum 2005-2010 voru nokkur máltækniverkefni unnin:
    • IceNLP
    • IceTagger – markari – HR, Hrafn Loftsson
  • IceParser – þáttari – HR, Hrafn Loftsson
  • Lemmald – lemmari – Anton Karl Ingason
  • Viable LT Beyond English
  • MerkOr – merkingargreining – HÍ, Anna Björk Nikulásdóttir
  • IcePaHC – trjábanki – HÍ, Joel Wallenberg o.fl.
  • Apertium – vélþýðing – HR, Hrafn Loftsson
  • Á árunum 2011-2017 voru fleiri máltækniverkefni unnin:
    • IVONA talgervill – Blindrafélagið
    • Talgreining í Android símum – Google og HR
  • Talgreining fyrir Alþingi og fyrir röntgendeild LSP – HR
  • Risamálheild – Árnastofnun og HÍ
  • Gullstaðall – Árnastofnun og HÍ
  • Skrambi – Árnastofnun 

Á árunum 2011-2013 tók Ísland þátt í hvítbókaröð og gerð skýrslu um stöðu máltækni á Íslandi sem og 29 öðrum tungumálum í Evrópu. Í fyrra tók síðan gildi máltækniáætlun fyrir íslensku og er fjármagn til hennar tryggt til fimm ára.

Vigdís Finnbogadóttir, fyrrverandi forseti, og Guðni Th. Jóhannesson forseti Íslands, …
Vigdís Finnbogadóttir, fyrrverandi forseti, og Guðni Th. Jóhannesson forseti Íslands, eru verndarar Almannaróms. mbl.is/Árni Sæberg

„Mitt hlutverk er að búa til nýsköpunarumhverfi í máltækni á Íslandi, en fyrsta skrefið á þeirri vegferð er að koma kjarnaverkefnum máltækniáætlunar til ársins 2023 í framkvæmd. Það verður gert að undangengnu opinberu útboði, enda um að ræða mikla opinbera fjármuni og mikilvægt að vanda til verka. Þegar ég hef gert samninga við þá sérfræðinga, stofnanir og/eða fyrirtæki sem verða fengin til að framkvæma kjarnaverkefnin, og séð um samhæfingu þeirra verkefna, tekur næsta forgangsverkefni við hjá mér en það er uppbygging markvissra tengsla við alþjóðlegu tæknifyrirtækin. Það mun ég gera í samstarfi við forseta Íslands, Guðna Th. Jóhannesson, sem er ásamt Vigdísi Finnbogadóttur fyrrverandi forseta Íslands, verndari Almannaróms og eru þau bæði gríðarlega mikilvægir liðsmenn í okkar stóra verkefni. Samstarfið við þessi tæknifyrirtæki er ákveðinn grundvallarþáttur í okkar starfi, enda þýðir ekkert að safna gögnum og smíða tæki og tól ef þau verða ekki notuð í símunum, tölvunum og tækjunum sem við, almennir íslenskir neytendur, kaupum og notum. Þessu er ég að koma í framkvæmd um leið og starfsemi sjálfrar sjálfseignarstofnunarinnar Almannaróms er skipulögð.  

Það óeigingjarna starf sem félagasamtök á borð við Samtök atvinnulífsins og einstaklingar eins og Eiríkur Rögnvaldsson og Guðrún Nordal, og nú bið ég alla hina sem ég gleymi að nefna fyrirframafsökunar, hafa unnið undanfarin ár og áratugi hefur skilað okkur hingað. Út úr því má segja að skýrslan Máltækni fyrir íslensku 2018-2022 hafi komið, sem Illugi Gunnarsson, þáverandi menntamálaráðherra, lét vinna en í henni er gerð úttekt á því hvar við stöndum, hvað þurfi að gera og hvað hafi verið gert. Draumurinn er að geta gert allt það sem lagt er til í skýrslunni en við munum í það minnsta reyna að komast eins langt og hægt er á þessu fyrsta tímabili máltækniáætlunarinnar.

Á þessu tímabili þurfum við líka að byrja að kortleggja hvað þurfi að gera í næstu máltækniáætlun, sem tekur þá við þar sem þessari sleppir, enda er þetta maraþon, ekki spretthlaup. Núverandi ríkisstjórn á skilið hrós fyrir að taka loks af skarið og leggja fjármagn í framkvæmd máltækniáætlunar. Það er einnig ánægjulegt að um þetta mikilvæga verkefni hefur ríkt þverpólítísk sátt enda mikilvægt að máltækniátakið verði bylting en ekki bara átak, það þarf að lifa til framtíðar og lengra en einstaka kjörtímabil,“ segir Jóhanna Vigdís.

Kostnaður við máltækniáætlunina til ársins 2022 er áætlaður 2,2 milljarðar. 

Orðin eru okkar kastalar

Að sögn Jóhönnu Vigdísar eru Danir að hefja sína sóknarvinnu í því skyni að sjá til þess að danska tungumálið verið áfram til, og líta þeir til þess hvernig Almannarómur er að setja saman framkvæmdaáætlunina fyrir máltækni á íslensku.

„Þau eru að skrifa sína verkáætlun í máltækni og munu líta til þess hvernig tekst til hjá okkur en þau skilgreina dönsku sem lítið málsvæði. Þannig að ef íslenskan er sett þar í samhengi sést að þetta er stórt verkefni sem við erum að vinna að. En alls ekki óyfirstíganlegt þar sem tæknin vinnur með okkur, auk þess sem við erum heppin að eiga öfluga vísindamenn í íslensku rannsóknarsamfélagi. Svo ekki sé talað um þá þróun sem hefur átt sér stað á sviði gervigreindar en með nýrri gervigreindartæki er mögulegt að hagnýta stór texta-, mál- og upplýsingasöfn á þann hátt sem við áttum ekki áður möguleika á,“ segir Jóhanna Vigdís. 

Guðni Th. Jóhannesson, forseti Íslands og Vigdís Finnbogadóttir, fyrrverandi forseti Íslands eru, eins og áður sagði, verndarar Almannaróms og segir Jóhanna Vigdís að hún hugsi oft til orða Vigdísar um íslenskuna og mikilvægi tungumálsins. Íslendingar ættu ekki kastala en ættu orð og texta. Bókmenntir eru okkar kastali.

„Orðin eru kastalar okkar Íslendinga. Í fámenni og fátækt týndum við aldrei manndómi okkar. Við gleymdum aldrei að setja í orð – hinn eina varanlega efnivið sem við eigum – allan hag okkar og alla hugsun. Einmitt þess vegna hefur okkur reynst svo létt verk að skapa okkur fjölskrúðuga nútímamenningu.“ (Innsetningarræða 1980)

Fjöldi tungumála þarf á máltæknihugbúnaði að halda.
Fjöldi tungumála þarf á máltæknihugbúnaði að halda. AFP

Í framkvæmdaáætlun Almannaróms til næstu fimm ára, eða til ársins 2023, þurfa fjórar opnar kjarnalausnir að verða til; talgreinir, talgervill, þýðingarvél og málrýnir. Fimmta svokallaða innviðverkefnið er smíði hinna ýmsu gagnasafna og stóltóla, sem eru nauðsynleg forsenda við smíði máltækniverkfæra.

Þessar kjarnalausnir/eða innviði á síðan að vera hægt að hagnýta í hugbúnaðarlausnum fyrir almenning, stofnanir og fyrirtæki, segir Jóhanna Vigdís. Því skulu gögn sem verða til eða eru þróuð innan áætlunarinnar gefin út með opnum alþjóðlegum leyfum, enda er markmið áætlunarinnar að hámarka notkunarmöguleika og nýtingu gagnanna, aðeins þannig getum við stutt við það markmið Almannaróms að byggja upp nýsköpunarumhverfi í máltækni á Íslandi. Það skilyrði er sett að þær tæknilausnir sem komi út úr verkefnunum verði gefnar úr með Apache 2.0 leyfi, sambærilegu leyfi eða rýmra, og öll gögn skulu einnig hafa skilgreind notkunarleyfi, CC BY 4.0 leyfi eða rýmra leyfi, ef nokkur kostur er með tilliti til persónuverndarsjónarmiða og hugverkaréttinda þriðja aðila. Nánar um leyfin 

Í framhaldinu geti einstaklingar, stofnanir og fyrirtæki notað þessi gögn, tæki og tól til þess að búa til þær lausnir sem eru nauðsynlegar í samskiptum við og í gegnum tæki, svo sem sjálfvirk fyrirspurnakerfi, vélrænar rauntímaþýðingar og svo mætti lengi telja.

Með þessu á að verða til notendaviðmót sem tryggir aðgang að tæknilausnum á íslensku án þess að það sé of kostnaðarsamt fyrir þá sem smíða slíkt tól og tæki því slíka innviði er dýrt að búa til en þeir eru á sama tíma grundvöllur nýsköpunar í máltækni, segir Jóhanna Vigdís.

Tæplega sjö þúsund tungumál eru töluð í heiminum.
Tæplega sjö þúsund tungumál eru töluð í heiminum. AFP

Þetta geti nýst til að mynda sveitarfélögum en eitt af því sem blindir og sjónskertir eru ósáttir við er að ekki er hægt að nota ís­lensku tal­gervl­ana á tæki frá Apple. Ástæðan er sú að Apple fékk að koma inn á ís­lensk­an markað, svo sem inn í skól­ana, á ensku. Sum sveit­ar­fé­lög hafa valið Apple sem sinn grunn­hug­búnað sem þýðir að börn og sjónskert börn eru úti­lokuð í þeim sveit­ar­fé­lög­um. 

Jóhanna Vigdís segir að það sé afar mikilvægt að koma á samstarfi við erlend fyrirtæki sem þróa máltæknilausnir um að styðja íslenska tungu í þeim lausnum. Þannig verði tryggt að við getum talað við þau tæki sem nú þegar eru í kringum okkur. Svo sem þvottavélarnar okkar og ísskápana. Svo er afar mikilvægt að fylgjast með fjölþjóðlegu þróunarsamstarfi í máltækni og leitast við að tengja íslensku inn í slík verkefni.

Kjarnaverkefnin eru:

Talgreinir: En hann snýst um að breyta töluðu máli í ritmál og er forsenda þess að við getum átt samskipti við tölvur og tæki með þeim hætti sem flestum er eðlilegast, með því að tala. Það er sérstaklega mikilvægt að geta átt raddstýrð samskipti við aðstæður þar sem ekki er hægt að nota hendur, en svo sjáum við að öll tækniþróun er að færast í þá átt að við færumst frá því að stýra tækjum og eiga samskipti með lyklaborði, mús eða stýriborði – í áttina að því beita talskipunum. Það má kannski segja að röddin og talið séu nýja lyklaborðið okkar, segir Jóhanna Vigdís.

Talgervill: Hann breytir rituðum texta í talað mál. Talgervlar eru notaðir til að lesa texta, til dæmis af vefsíðum, jafnvel heilu bækurnar. Samskiptakerfi þar sem talgreinir nemur það sem notanda segir, þurfa talgervla svo hægt sé að svara með rödd. Svörin eiga að hljóma eðlilega og vera í samræmi við innihald samskiptanna. Þegar við erum komin með áheyrilega talgervla er til dæmis hægt að gera margfalt fleiri bækur aðgengilegar á hljóðbókaformi.

Vélrænar þýðingar: Það eru sjálfvirkar þýðingar á milli tungumála. Þær eru nú þegar orðnar gagnlegar fyrir ýmis tungumálapör, hjálpa fólki við að átta sig á innihaldi texta á tungumáli sem það er ekki læst á en einnig til að flýta fyrir vinnu þýðenda við tungumál sem þeir eru sérfræðingar í. Þar skiptir miklu máli að hægt verði að nota stórar samhliða málheildir með sem fjölbreyttustum texta á íslensku og ensku. Þýðendur verða alls ekki óþarfir, þeir eru mikilvægir í allri þróun vélþýðinga, en vélþýðingar munu flýta fyrir starfi þeirra þegar fram í sækir og kosturinn verður að þá er hægt að gera meira magn efnis aðgengilegt á tungumálinu.

Málrýnir: Hann aðstoðar við að leiðrétta texta og skrifa rétt. Þar getur verið um að ræða innsláttarvillur, stafsetningarvillur, málfræðivillur eða villur í orðanotkun. Þetta er nauðsynlegur grunnhugbúnaður í hvers konar textavinnslu, bæði fyrir almenning og í fyrirtækjum og stofnunum. Málrýnitækni er líka mjög mikilvæg fyrir þróun annars konar máltæknihugbúnaðar, til dæmis til að gera ljóslesna texta nothæfa í stafrænu umhverfi.

Ljóslestur er tækni sem notuð er til að færa ritað mál af pappír yfir á stafrænt form (e. Optical Character Recognition, OCR). Fyrst er blaðið skannað og fæst þá stafræn útgáfa af því. Að því loknu er hægt að ljóslesa textann, sérútbúið forrit skoðar myndina og greinir mynstur sem það telur vera bókstafi. Forritið skrifar textann svo í skrá eftir óskum notandans.

Málföng: Gögn og stoðtól, eru málgögn; textar og hljóðupptökur sem eru nauðsynleg við greiningu máls, söfnun orðaforða, notuð til að finna reglur og mynstur og út frá þeim er hægt að kenna tölvunum það sem skiptir máli fyrir það hugbúnað sem verið er að þróa. Oft þarf mikið magn gagna og mikilvægt að gögnin séu útbúin á ákveðinn hátt. Nægilegt magn viðeigandi gagna og áreiðanleg stoðtól eru grunnur og forsenda allrar þróunar í máltækni.

Jóhanna Vigdís segir að næstu verkefni miði að því að forgangsraða og skipuleggja vinnu við þessi kjarnaverkefni. Síðan þurfi að afla tilboða og gera samninga við þá sem ætla að vinna að þessum verkefnum á grundvelli verkáætlunarinnar; Máltækni fyrir íslensku 2018-2022.

Það styttist í að við getum gefið bifreiðum okkar skipanir …
Það styttist í að við getum gefið bifreiðum okkar skipanir með röddinni. AFP

„Á sama tíma má verndun tungumálsins okkar aldrei verða á forsendum öfgasinnaðrar þjóðernishyggju, því það er örugg leið til þess að drepa tungumálið. Þessa vegferð þarf að fara á forsendum umburðarlyndis. Það er allt í lagi að gera stundum mistök, að beygja orð vitlaust öðru hvoru. Þetta á að vera sameiginlegt verkefni okkar allra því það að geta tjáð sig á móðurmálinu skiptir miklu máli fyrir það að geta tjáð flóknar óhlutbundnar hugsanir og hugmyndir. Að sama skapi ber okkur skylda til þess að veita nýjum Íslendingum alla þá aðstoð sem völ er á til þess að styðja þá í að tileinka sér tungumálið, enda er tungumálið lykillinn að virkri þátttöku í samfélaginu. Til að mynda innflytjendur og ekki síst börn sem hingað flytja á sama tíma og við styðjum þau við að viðhalda eigin móðurmáli. Móðurmálstaka er flókið ferli og þrátt fyrir að við séum mjög góð í öðrum tungumálum, svo sem ensku, erum við aldrei á heimavelli,“ segir Jóhanna Vigdís.

Lausnir sem nýtast fleiri málsvæðum

Máltækni er fagsvið þar sem mætast fjöldi fræðigreina, en mesta vægið hafa þó tölvunarfræði og málvísindi, þó að þar komi líka til stærðfræði, auðvitað íslenska og önnur tungumál, heimspeki og fleiri greinar, segir Jóhanna Vigdís.

Sameiginlegt meistaranám í máltækni, á vegum tölvunarfræðideildar Háskólans í Reykjavík og íslenskuskorar Háskóla Íslands er grunnurinn að uppbyggingu nauðsynlegs mannauðs í greininni. 

Um 6.800 tungumál eru töluð í heiminum og því er spáð að með sama áframhaldi verði um helmingur þeirra útdauður fyrir næstu aldamót.

Fjöldi tungumála utan ensku þurfa á máltæknihugbúnaði að halda, og góður möguleiki er á því að lausnir og þjónustu sem er byggð hér fyrir íslenskt mál, af íslenskum nýsköpunarfyrirtækjum, geti opnað markað fyrir máltæknilausnir frá Íslandi, segir hún.

Það eru sannarlega viðskiptatækifæri í þróun þjónustu og tækja fyrir máltækni á Íslandi, hér þarf að leysa ýmsar áskoranir, tækniumhverfið er sterkt og rannsóknasamfélagið öflugt,“ segir hún.

Jóhanna Vigdís Guðmundsdóttir, framkvæmdastjóri Almannaróms.
Jóhanna Vigdís Guðmundsdóttir, framkvæmdastjóri Almannaróms. mbl.is/Hari

Jóhanna Vigdís segir að stóru tæknifyrirtækin þurfi að átta sig á því hversu miklu máli skipti fyrir fjölbreytni og fjölmenningu í heiminum að smærri tungumál fái öll að lifa, og að þar séu þau í aðalhlutverki.

„Ef menningarleg fjölbreytni á að lifa í heiminum, í stað einsleitni, og ef horft er til okkar Íslendinga megum við ekki gleyma að menningarverðmæti okkar, svo sem handritin, eru varðveitt á okkar tungumáli og það er tungumálið sem er kjarni þeirra en ekki efnið sem þau eru rituð á. Ég held að almennt sjái fólk það að vernda íslenska tungu sem yfirstíganlegt verkefni og tæknin vinnur þar með okkur. Því er ég bjartsýn á að okkur takist ætlunarverkið: Að tryggja að íslenska standi jafnfætis öðrum tungumálum í tækniheiminum,“ segir framkvæmdastjóri Almannaróms.

mbl.is