Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Að skipta á óskabarni fjölskyldunnar og silfurpeningum – Opið bréf til Benedikts Einarssonar hið síðara Kári Stefánsson Skoðun Öflugri saman inn í framtíðina Jóhann Steinar Ingimundarson Skoðun Að vera treggáfaður: Er píkan greindari en pungurinn? Ágústa Ágústsdóttir Skoðun Rekum RUV ohf „að heiman“ Þorsteinn Sæmundsson Skoðun Ósamræmi í orðum og gjörðum íslenskra stjórnvalda í loftslagsmálum Finnur Ricart Andrason Skoðun Úrelt lög Davíð Þór Jónsson Bakþankar Vinstri græn gegn íslensku láglaunastefnunni Inga Sigrún Atladóttir Skoðun Stríð í Evrópu Bryndís Haraldsdóttir Skoðun Hvað með kvótakaupendur? Haukur Eggertsson Skoðun Ísland eftir 100 ár Einar G. Harðarson Skoðun Skoðun Skoðun Siðlaust sinnuleysi í Mjódd Helgi Áss Grétarsson skrifar Skoðun Heimavinnu lokið – aftur atvinnuuppbygging á Bakka Hjálmar Bogi Hafliðason skrifar Skoðun Kemur maður í manns stað? Steinunn Þórðardóttir skrifar Skoðun R-BUGL: Ábyrgðin er okkar allra Guðmundur Ingi Þóroddsson skrifar Skoðun Gleymdu ekki þínum minnsta bróður. Sigurður Fossdal skrifar Skoðun Íslensk tunga þarf meiri stuðning Ármann Jakobsson,Eva María Jónsdóttir skrifar Skoðun Hvar eru sérkennararnir í nýjum lögum um inngildandi menntun? Sædís Ósk Harðardóttir skrifar Skoðun Hjálpum spilafíklum Þorleifur Hallbjörn Ingólfsson skrifar Skoðun Hvað er að vera vók? Eva Hauksdóttir skrifar Skoðun Þjóðin sem ákvað að leggja sjálfa sig niður Margrét Tryggvadóttir,Sigríður Hagalín Björnsdóttir skrifar Skoðun Hvað kennir hugrekki okkur? Sigurður Árni Reynisson skrifar Skoðun Þeir vita sem nota Jón Pétur Zimsen skrifar Skoðun Hjólhýsabyggð á heima í borginni Einar Sveinbjörn Guðmundsson skrifar Skoðun Mannréttindi eða plakat á vegg? Friðþjófur Helgi Karlsson skrifar Skoðun „Friðartillögur“ Bandaríkjamanna eru svik við Úkraínu Arnór Sigurjónsson skrifar Skoðun Styrkur Íslands liggur í grænni orku Sverrir Falur Björnsson skrifar Skoðun Eftir hverju er verið að bíða? Hlöðver Skúli Hákonarson skrifar Skoðun Fjölmenningarborgin Reykjavík - með stóru Effi Sabine Leskopf skrifar Skoðun Á öllum tímum í sögunni hafa verið til Pönkarar Martha Árnadóttir skrifar Skoðun Hlutverk hverfa í borgarstefnu Óskar Dýrmundur Ólafsson skrifar Skoðun Gæludýraákvæðin eru gallagripur Árni Stefán Árnason skrifar Skoðun Glæpamenn í glerhúsi Ólafur Stephensen skrifar Skoðun Það kostar að menga, þú sparar á að menga minna Guðríður Eldey Arnardóttir skrifar Skoðun Þolinmæði Hafnfirðinga er á þrotum! Kristín Thoroddsen skrifar Skoðun Hægagangur í samskiptum við bæjaryfirvöld Hilmar Freyr Gunnarsson skrifar Skoðun Dagur mannréttinda (sumra) barna Vigdís Gunnarsdóttir skrifar Skoðun Sterk ferðaþjónusta skapar sterkara samfélag Ingibjörg Isaksen skrifar Skoðun Hvað finnst Grindvíkingum? Jóhanna Lilja Birgisdóttir,Guðrún Pétursdóttir,Ingibjörg Lilja Ómarsdóttir skrifar Skoðun Alvöru tækifæri í gervigreind Halldór Kári Sigurðarson skrifar Skoðun Erum við í ofbeldissambandi við ESB? Magnús Árni Skjöld Magnússon skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Að skipta á óskabarni fjölskyldunnar og silfurpeningum – Opið bréf til Benedikts Einarssonar hið síðara Kári Stefánsson Skoðun
Ósamræmi í orðum og gjörðum íslenskra stjórnvalda í loftslagsmálum Finnur Ricart Andrason Skoðun
Skoðun Þjóðin sem ákvað að leggja sjálfa sig niður Margrét Tryggvadóttir,Sigríður Hagalín Björnsdóttir skrifar
Skoðun Hvað finnst Grindvíkingum? Jóhanna Lilja Birgisdóttir,Guðrún Pétursdóttir,Ingibjörg Lilja Ómarsdóttir skrifar
Að skipta á óskabarni fjölskyldunnar og silfurpeningum – Opið bréf til Benedikts Einarssonar hið síðara Kári Stefánsson Skoðun
Ósamræmi í orðum og gjörðum íslenskra stjórnvalda í loftslagsmálum Finnur Ricart Andrason Skoðun