Hiljattain testasimme @ilonakousa.bsky.social kanssa, miten ChatGPT-4o analysoi poliittista keskustelua suomenkielisillä aineistoilla vihreän siirtymän käsittelystä eduskunnassa ja somessa. Konteksti-ikkuna & aineistotyyppi vaikuttivat vaffasti analyysin tuloksiin.
1/
Paperissa selvitimme mm.
* Muuttaako eri tekstityyppien sekoittaminen (tweetit + puheet) tarkkuutta? [JO VAIN!]
* Vaikuttaako chatti-ikkunan sisäinen kontekstin rakentaminen analyysituloksiin? [AND HOW!]
* Voidaanko LLM korvata tai tukea ihmisanalyysia poliittisessa keskustelussa? […]
2/
Aineistona siis 20 twiittiä + 20 eduskuntapuhetta COP27-konferenssin ajalta syksyltä 2022. Testasimme ChatGPT-4o:ta (julkaistu 5/2024) eri skenaarioissa: zero-shot (erilliset chatit) vs. few-shot (sama chatti) sekä sekoitetut vs. erotellut aineistot.
3/
Tuloksia:
*Konteksti vaikuttaa! Zero-shotissa tulokset olivat hajanaisempia, kun taas 1-ikkuna-analyysi tuotti tasaisempaa luokittelua – muttei aina tarkempaa
*Tekstien järjestys vaikutti tulokseen. Aloittamalla twiiteillä saatiin enemmän avainsanoja & aiheita. Malli ”oppii” aiemmista syötteistä
4/
*Twiittien & puheiden sekoittaminen samaan chattiin sai ChatGPT:n välillä ”eksymään”. Vastaukset muuttuivat keskustelunomaisiksi tai sisälsivät "kommentaaria". Esim: Twiitti, joka alkoi sanalla ”Sorry”, sai mallin vastaamaan englanniksi joviaalilla ympäristöpuheella (poiketen tehtävänannosta) 😅
5/
Sitten se oma suosikkiosioni eli KONTEKSTI-IKKUNA: Pidemmissä aineistoissa, joissa kaikki tekstit syötettiin kerralla (esim. csv(txt-tiedostot ) malli ”laiskistui” entisestään. Kun mitta tuli täyteen, se alkoi analysoida samoja tekstejä uudelleen tai keksiä uusia ”aineistoja”
#LazyLanguageModel
6/
Laiskuudesta löytyy esimerkkejä tutkimuksen liitteistä. Kun puheet olivat tiedostossa ensin, ei malli koskana päässyt analysoimaan twiittejä vaan niiden sijaan se "analysoi" mutatoituja versioita ensimmäisestä 9 käsittelemästään puheesta. En erikseen suosittele pitkien tekstidokujen käsittelyyn.
7/
Ote artikkelista: In recent years, large language model (LLM) applications have surged in popularity, and academia has followed suit. Researchers frequently seek to automate text annotation – often a tedious task – and…
Vastaa