Tekoälyn uudet kielimallit hämmästyttävät

Teksti Riikka Kalmi, kuvitus Studio Andrei

Tekoälyn vallankumous lähti liikkeelle kuvan analysoinnista ja konenäön hyödyntämisestä, mutta nyt parin viimeisen vuoden aikana on kohistu etenkin tekstianalyysista. Kehittyvien koneoppimismallien myötä on syntynyt hyvinkin fiksulta vaikuttavia chatbotteja ja tekstitiivistelmiä, jotka tekoäly on laatinut omia lauseita käyttäen.

Laskentatoimen tutkijatohtori Mikko Ranta kertoo, että Open-AI:n kehittämä vallankumouksellinen kielimalli GPT-3 sisältää jopa 175 miljardia parametria.

– Se on jo käsittämättömän suuri määrä. Kielimalli on hyvin monimutkainen, sen harjoitusdata sisältää kaikkea mahdollista, mitä internetistä on löydetty aina Reddit-keskusteluista lähtien.

Mallin avulla voidaan laittaa vaikkapa Alan Turing keskustelemaan Harry Potterin kanssa aidon kuuloisesti, runoilemaan, koodaamaan, säveltämään uusi kappale tai arvaamaan pikseleistä, mitä puuttuvassa kohdassa kuvaa on.

– Vaikka oikeasti tuntuu, että siinä olisi älyä mukana, niin kyseessä on silti vain automaattisen täydentämisen järjestelmä. Takana on valtava tietomassa, jonka perusteella se ymmärtää, miten lauseen tai laulun pitäisi jatkua. Rannan mukaan mallin massiivinen harjoitusdata tuo mukanaan haasteen. Esimerkiksi englanninkielinen Wikipedia käsittää vain 0,6 prosenttia aineistosta, joten mukaan on ollut pakko kerätä hyvin erityyppisiä lähteitä kuten vaikkapa tekstejä internetin keskusteluryhmistä.

– Kun mallia on harjoitettu kaikella mahdollisella, mitä netistä löytyy, niin mukaan on tullut myös esimerkiksi rasistista materiaalia. Aineistossa ja sitä kautta myös mallissa näkyvät ihmisten ennakkoasenteet ja ajattelun vinoumat.

Sittenkin tyhmä kuin ihminen?

Alkuinnostuksen jälkeen on huomattu, että vaikka malli kykenee hienoihin saavutuksiin, käytännön sovellusten kannalta malli voi olla vielä liian arvaamaton. Asiakaspalvelijana se voi pahimmassa tapauksessa möläytellä kuin ihminen pitkälle venyneessä baari-illassa. Aineiston heterogeenisyyden vuoksi GPT-3 voi vaikuttaakin Rannan mukaan kuin opiskelijalta, joka ei ole tehnyt kunnolla läksyjään. Mukana saattaa olla tarkkoja faktoja, mutta myös puolitotuuksia tai jopa puutaheinää.

Ongelmia voi aiheuttaa myös tulkittavuus. Rannan mukaan koneoppimismallit ovat jo niin monimutkaisia, että ne ovat eräänlaisia mustia laatikoita, joiden antamien ennusteiden mekanismia ei täysin tunneta. Jos tekoäly hylkää vaikkapa pankin lainahakemuksen syrjivästi, tällainen pitää havaita ja pystyä poistamaan.

– Tekoälytutkijat ovatkin keskustelleet siitä, että onko harjoitusdatan ja parametrien jatkuva lisääminen oikea polku älykkäämpään tekoälyyn, vai pitäisikö keksiä jokin aivan uusi, vallankumouksellinen menetelmä.

Rannan oma tutkimus liittyy yliopiston digitaalisen talouden tutkimusalustan teemoihin. Hän on kiinnostunut etenkin siitä, miten tekoälyä ja data-analyysia voi hyödyntää laskentatoimen tutkimuksessa.

– Minua kiehtoo tekoälyn teknologia, kuten koneoppiminen itsessään, mutta etenkin tekoälyn soveltamismahdollisuudet. Mitä uutta tekoäly voi tuoda esimerkiksi laskentatoimen ja rahoituksen tutkimukseen? Mitä esimerkiksi yritysten tilinpäätöksien tekstiosista voidaan saada irti uusia kielimalleja käyttämällä, pohtii Ranta.

"Käytännön sovellusten kannalta kielimalli voi olla vielä liian arvaamaton. Mallia on harjoitettu kaikella mahdollisella, mitä netistä löytyy. Aineistossa näkyvät ihmisten ennakkoasenteet ja ajattelun vinoumat."

Lue teemajutun Datasta uusi sampo? muut osat:

Lue koko Vox cordis -lehti näköislehtenä: Vox cordis 1/2021

Julkaistu aiemmin Vaasan yliopistolehti Vox cordisissa. Lehden 1/2021 teemana on Data & digi.
Teeman pääjuttu "Datasta uusi sampo" jakautuu neljään osaan:

Lue koko Vox cordis -lehti näköislehtenä: Vox cordis 1/2021

Lue Vox cordis -lehden juttuja verkossa: Viimeisimmät Vox cordis -jutut
Vox cordis muuttuu sähköiseksi, tilaa tieto ilmestymisestä sähköpostiisi.

Tilaa Vaasan yliopiston uutiskirje

Uutiskirje kokoaa yhteen Vaasan yliopiston ajankohtaiset uutiset tutkimuksen tuloksista, koulutuksesta sekä yhteistyöstä ja yhteiskunnallisesta vaikuttamisesta. Pysy kanssamme kehityksen eturintamassa.

Tilaa uutiskirje

Tekoälyn uudet kielimallit hämmästyttävät

Sittenkin tyhmä kuin ihminen?

Lue teemajutun Datasta uusi sampo? muut osat:

Miten uudesta datasta tehdään menestyvää liiketoimintaa?

Visuaalisen datan ja 3D-mallinnuksen kehitys etenee vauhdikkaasti

Avaruusdata kiihdyttää automatisaatiota

Lue koko Vox cordis -lehti näköislehtenä: Vox cordis 1/2021

Lue koko Vox cordis -lehti näköislehtenä: Vox cordis 1/2021

Lue Vox cordis -lehden juttuja verkossa: Viimeisimmät Vox cordis -jutut

Vox cordis muuttuu sähköiseksi, tilaa tieto ilmestymisestä sähköpostiisi.

Tekoälyn uudet kielimallit hämmästyttävät

Sittenkin tyhmä kuin ihminen?

Lue teemajutun Datasta uusi sampo? muut osat:

Miten uudesta datasta tehdään menestyvää liiketoimintaa?

Visuaalisen datan ja 3D-mallinnuksen kehitys etenee vauhdikkaasti

Avaruusdata kiihdyttää automatisaatiota

Lue koko Vox cordis -lehti näköislehtenä: Vox cordis 1/2021

Lue koko Vox cordis -lehti näköislehtenä: Vox cordis 1/2021

Lue Vox cordis -lehden juttuja verkossa: Viimeisimmät Vox cordis -jutut

Vox cordis muuttuu sähköiseksi, tilaa tieto ilmestymisestä sähköpostiisi.

Tilaa Vaasan yliopiston uutiskirje

Voit olla kiinnostunut myös näistä

Kuukauden luetuimmat