Talgreinir skrifar ræður alþingismanna

Jón Guðnason, dósent við verkfræðideild HR, afhenti Rögnu Árnadóttur, skrifstofustjóra ...
Jón Guðnason, dósent við verkfræðideild HR, afhenti Rögnu Árnadóttur, skrifstofustjóra Alþingis, talgreininn formlega á viðburði Almannaróms um máltækni á Degi íslenskrar tungu í Iðnó í dag. Ljósmynd/Aðsend

Svokallaður talgreinir sem Alþingi fékk í hendurnar í dag mun auðvelda vinnu starfsfólks Alþingis til muna sem snýr að því að skrifa upp ræður þingmanna. Talgreinirinn er gervigreindur og skráir nú ræður alþingismanna.

Jón Guðnason, dósent við verkfræðideild Háskólann í Reykjavík (HR), stendur að talgreininum ásamt vísindamönnum við HR. Hann segir talgreininn mikilvægan fyrir framtíð íslenskrar tungu. Verkfærið mun ekki koma til með að fækka störfum innan Alþingis til muna, að sögn Jóns.

Talgreinirinn skráir um tíu mínútur af ræðum á þremur og hálfri mínútu og hefur hann allt að 90% rétt eftir ræðumönnum. Talgreinirinn hefur nú þegar skráð niður um 640 klukkustundir af ræðum þingmanna.

Lykilverkfæri í stafrænni byltingu

„Talgreinir er lykilverkfæri í þessari máltækni sem hvert og eitt tungumál þarf að hafa til þess að taka þátt í þessari stafrænu byltingu sem við stöndum í miðri. Erlendis sjáum við að fólk talar við tækin sín og lætur þau greina tungumál á alls kyns vegu,“ segir Jón í samtali við mbl.is.

„Talmálið er okkur auðvitað tamast þannig að við eigum auðveldast með að gera grein fyrir ýmsu í talmáli en ritmálið er gjaldmiðill stafrænnar tækni. Við þurfum einhvern veginn að brúa þetta bil og talgreining kemur talinu yfir í texta. Þetta er algjört grunntæki og í raun gríðarlega mikilvægt.“

Spurður hvort talgreinirinn muni þá verða til þess að loks geti Íslendingar farið að ræða við Siri og Alexu, gervigreindir í snjallsímum, á sínu móðurmáli segir Jón:

„Ef Apple hleypir okkur að þá væri það mögulegt en svo eru frumkvöðlar hér á Íslandi að búa til nýjar útgáfur og vonandi betri útgáfur en Siri og Alexa og hvað þetta heitir allt saman.“

Verkefnið hófst sem nemendaverkefni árið 2015. „Þá söfnuðum við gögnum fyrir talgreiningu í samstarfi við Google og við kynntumst starfsfólki Alþingis í gegnum söfnunina. Í kjölfarið fórum við að tala um að talgreinirinn væri gott verkefni til þess að fara í enda leiddi nemendaverkefnið í ljós að við værum með allt til alls. Þetta byrjaði sem tveggja ára verkefni með möguleika á þriðja ári og það varð úr, við kláruðum þetta á þremur árum,“ segir Jón sem tekur fram að þróun talgreinisins muni halda áfram.

Líkamlegur tilkostnaður á bak og burt

Fyrsta skrefið í átt að talgreininum var að smíða og þjálfa hann og prófa mismunandi tæknilegar útfærslur af talgreiningu sem hentaði verkefninu. Til þess að það gengi eftir var nauðsynlegt  að gera hið mikla magn upptaka, sem Alþingi á af ræðum, aðgengilegt fyrir talgreininn til þjálfunar.

Jafnframt þurfti að smíða sérhæft mállíkan sem hentaði málfari í ræðum á Alþingi og þurfti að gera kleift að bæta við orðum sem ekki er að finna í útgefnum orðabókum og orðasöfnum, dæmi um slíkt orð er orðið „rafsígaretta“.

Annar fasi vinnunnar hófst í október á síðasta ári. Í honum fólst samþætting talgreinisins við tölvukerfi Alþingis og uppsetning ferla til að nýta talgreininn í að skrifa upp ræður þingmanna, fara yfir og leiðrétta þá skráningu og koma ræðunum á vef Alþingis.

Jón efast um að talgreinirinn muni verða til þess að margir missi vinnuna. „Eðli starfsins á Alþingi breytist frekar en störfum fækki. Þetta mun frekar krefjast nákvæmnisvinnu og hægt verður að leggja meira í útgáfuna. Eðli starfsins og eðli þessa verkefnis að koma út ræðum alþingismanna breytist við þetta og verður auðveldara. Það verður ekki þessi vinna að sitja úti í bæ og hamra inn með öllum þeim líkamlega tilkostnaði sem það útheimtir.“

mbl.is

Bloggað um fréttina