Hiljattain julkaistussa tutkimuksessa testattiin, miten ChatGPT-4o analysoi poliittista keskustelua suomenkielisillä aineistoilla vihreän siirtymän käsittelystä eduskunnassa ja somessa. Konteksti-ikkuna & aineistotyyppi vaikuttivat vaffasti analyysin tuloksiin.
Paperissa selvitimme mm.
- Muuttaako eri tekstityyppien sekoittaminen (tweetit + puheet) tarkkuutta?
- Vaikuttaako chatti-ikkunan sisäinen kontekstin rakentaminen analyysituloksiin?
- Voidaanko LLM korvata tai tukea ihmisanalyysia poliittisessa keskustelussa?
Aineistona siis 20 twiittiä + 20 eduskuntapuhetta COP27-konferenssin ajalta syksyltä 2022. Testasimme ChatGPT-4o:ta (julkaistu 5/2024) eri skenaarioissa: zero-shot (erilliset chatit) vs. few-shot (sama chatti) sekä sekoitetut vs. erotellut aineistot.
Tuloksia:
- Konteksti vaikuttaa! Zero-shotissa tulokset olivat hajanaisempia, kun taas 1-ikkuna-analyysi tuotti tasaisempaa luokittelua – muttei aina tarkempaa
- Tekstien järjestys vaikutti tulokseen. Aloittamalla twiiteillä saatiin enemmän avainsanoja & aiheita. Malli ”oppii” aiemmista syötteistä
- Twiittien & puheiden sekoittaminen samaan chattiin sai ChatGPT:n välillä ”eksymään”. Vastaukset muuttuivat keskustelunomaisiksi tai sisälsivät ”kommentaaria”. Esim: Twiitti, joka alkoi sanalla ”Sorry”, sai mallin vastaamaan englanniksi joviaalilla ympäristöpuheella (poiketen tehtävänannosta).
Sitten se oma suosikkiosioni eli KONTEKSTI-IKKUNA: Pidemmissä aineistoissa, joissa kaikki tekstit syötettiin kerralla (esim. csv(txt-tiedostot ) malli ”laiskistui” entisestään. Kun mitta tuli täyteen, se alkoi analysoida samoja tekstejä uudelleen tai keksiä uusia ”aineistoja”
Laiskuudesta löytyy esimerkkejä tutkimuksen liitteistä. Kun puheet olivat tiedostossa ensin, ei malli koskana päässyt analysoimaan twiittejä vaan niiden sijaan se ”analysoi” mutatoituja versioita ensimmäisestä 9 käsittelemästään puheesta. En erikseen suosittele pitkien tekstidokujen käsittelyyn.
Testasimme myös prompttien hienosäätöä ohjataksemme luokittelua – nollatilassa toimi hyvin, mutta kontekstin karttuessa tulokset hajosivat. Yksityiskohtaiset ohjeet vaativat enemmän kehotetyötä. Ei ollut myöskään ihan triviaalia ”suostutella” ChatGPT arvioimaan tekstejä suoraan tekstifilusta.
Summa summarum: ChatGPT, kuten monet muutkin LLM-työkalut, voi olla hyödyllinen, mutta ailahteleva työkalu tekstianalyysiin. ”Style over substance” -pätee tässäkin. Tiedä mitä teet. Konteksti-ikkunan rajoitteista on syytä olla tietoinen. Ihmisen tekstikoodaustyötä en ihan heti vielä korvaisi.
Lisäksi: AI-kyselyt eivät ole ilmastoneutraaleja. ChatGPT-haun hiilijalanjälki on ~10x Googlen hakua suurempi. Varsinkin tällaisissa pienissä aineistoissa manuaalinen analyysi voi olla vihreämpi vaihtoehto. Lisäksi mallien läpinäkymättömyys ja yleiset eettiset ongelmat tökkivät.
Vastaa