Jo tutkimusartikkelin ennakkoversion otsikossa todetaan kielimallien tärvelevän delegoitavat dokumentit. Tutkimus tarkasteli 52 erilaista delegoitavaa tehtävää koodauksesta nuotintamiseen.
Tutkimuksen mukaan huippumallit (GPT, Claude, Gemini) hukkaavat keskimäärin 25 % dokumentin sisällöstä 20 delegoidun vuorovaikutuksen aikana. Kaikkien mallien kesken dokumentit rappeutuivat keskimäärin 50 % 20 vuorossa. Tutkijat olivat asettaneet pätevyystasoksi 98 % säilyvyyden 20 vuoron jälkeen.
Vain 1/52 toimialasta pääsi tuon testin läpi: Python-koodaus. Sen sijaan yli 80 % malli-toimiala-yhdistelmistä johti "katastrofaaliseen" 80 % rappeumaan.
Myöskään agentuurin antaminen kielimalleille ei aina auttanut: GPT-sarjan huippumallit rappeutuivat agenttiavusteisina vielä ylimääräiset 6 %.
Ote artikkelista: An intern who failed this much would be shown the door
Vastaa