Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Borgarlínan og umferðin í Grafarvogi Þórir Garðarsson Skoðun 1-10, litir eða bókstafir – um hvað snýst málið? Ragnheiður Stephensen Skoðun Að bæla niður öfgar með öfgum Óðinn Freyr Baldursson Skoðun Sterkur og skapandi Garðabær Vilborg Anna Strange Garðarsdóttir Skoðun Frá sigri mannsandans yfir í neyðarástand María Pálsdóttir Skoðun Eðli umburðarlyndis hægrimanna Sigurður Örn Stefánsson Skoðun Svartir blettir á upplýsingarétti almennings Kristín I. Pálsdóttir Skoðun Hveragerði klippt í sundur Arnar H. Halldórsson,Hjálmar Trausti Kristjánsson Skoðun Þjónustumiðstöð 60+ í Hveragerði Dagný Sif Sigurbjörnsdóttir,Anna Jórunn Stefánsdóttir Skoðun Fjölmenningin í Hafnarfirði! Böðvar Ingi Guðbjartsson Skoðun Skoðun Skoðun Nýju fötin keisarans – Einfaldað í þykjustunni Árni Davíðsson skrifar Skoðun Þjónustuskerðing Sorpu Baldur Guðmundsson skrifar Skoðun Hvert er erindið? Orri Björnsson skrifar Skoðun Góð byrjun er pólitískt val Guðrún Rakel Svandísardóttir skrifar Skoðun Er það vinna að vera heima með börnum sínum? Valerio Gargiulo skrifar Skoðun Fjölskylduvænt samfélag í verki Guðný Björk Pálmadóttir skrifar Skoðun Eðli umburðarlyndis hægrimanna Sigurður Örn Stefánsson skrifar Skoðun Hið fullkomna (Evrópu)samband Sveinn Atli Gunnarsson skrifar Skoðun Fjölmenningin í Hafnarfirði! Böðvar Ingi Guðbjartsson skrifar Skoðun Þjónustumiðstöð 60+ í Hveragerði Dagný Sif Sigurbjörnsdóttir,Anna Jórunn Stefánsdóttir skrifar Skoðun Að bæla niður öfgar með öfgum Óðinn Freyr Baldursson skrifar Skoðun 1-10, litir eða bókstafir – um hvað snýst málið? Ragnheiður Stephensen skrifar Skoðun Samfélag sem stendur með fólki Valdimar Víðisson skrifar Skoðun Sterkur og skapandi Garðabær Vilborg Anna Strange Garðarsdóttir skrifar Skoðun Frá sigri mannsandans yfir í neyðarástand María Pálsdóttir skrifar Skoðun Svartir blettir á upplýsingarétti almennings Kristín I. Pálsdóttir skrifar Skoðun Borgarlínan og umferðin í Grafarvogi Þórir Garðarsson skrifar Skoðun Fossvogslaug – góð hugmynd, engin framkvæmd Sigfús Aðalsteinsson,Hlynur Áskelsson skrifar Skoðun Þetta segir fundargerð ESB frá 18. desember 2012 um aðlögun Erna Bjarnadóttir skrifar Skoðun Skilvirkni og gagnsæi í málefnum flóttafólks Eva Rún Helgadóttir skrifar Skoðun Nei eða já, af eða á Ásgeir Þorgeirsson skrifar Skoðun Viljum við að fatlað fólk komist um á eigin forsendum? Þuríður Harpa Sigurðardóttir,Harpa Cilia Ingólfdóttir skrifar Skoðun Yfirfull fangelsi – og enginn skilur neitt í neinu Vilhelm Jónsson skrifar Skoðun Upplýsingaóreiða, aldursfordómar og mannleg reisn Berglind Indriðadóttir skrifar Skoðun Ég: ritskoðaður? Júlíus Andri Þórðarson skrifar Skoðun Fjársjóðurinn í matarkistunni Óli Finnsson skrifar Skoðun Ráðherrar tala um farsæld barna – en láta Foreldrahús loka 1. maí Sædís Ósk Harðardóttir, Jóhanna Jóna Gunnlaugsdóttir,Halldóra Ingibergsdóttir skrifar Skoðun Sterkari Háskóli, sterkari Akureyri! Maríanna Margeirsdóttir skrifar Skoðun Grjótharðir og sársaukafullir veggir máttvana geðheilbrigðiskerfisins Sólveig María Svavarsdóttir skrifar Skoðun Hveragerði klippt í sundur Arnar H. Halldórsson,Hjálmar Trausti Kristjánsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Þjónustumiðstöð 60+ í Hveragerði Dagný Sif Sigurbjörnsdóttir,Anna Jórunn Stefánsdóttir skrifar
Skoðun Viljum við að fatlað fólk komist um á eigin forsendum? Þuríður Harpa Sigurðardóttir,Harpa Cilia Ingólfdóttir skrifar
Skoðun Ráðherrar tala um farsæld barna – en láta Foreldrahús loka 1. maí Sædís Ósk Harðardóttir, Jóhanna Jóna Gunnlaugsdóttir,Halldóra Ingibergsdóttir skrifar
Skoðun Grjótharðir og sársaukafullir veggir máttvana geðheilbrigðiskerfisins Sólveig María Svavarsdóttir skrifar