Microsoftin tutkijoiden mukaan tekoälymallit tai -agentit eivät kykene pitkäkestoisiin tehtäviin

Esikatselukuva

Jo tutkimusartikkelin ennakkoversion otsikossa todetaan kielimallien tärvelevän delegoitavat dokumentit. Tutkimus tarkasteli 52 erilaista delegoitavaa tehtävää koodauksesta nuotintamiseen.

Tutkimuksen mukaan huippumallit (GPT, Claude, Gemini) hukkaavat keskimäärin 25 % dokumentin sisällöstä 20 delegoidun vuorovaikutuksen aikana. Kaikkien mallien kesken dokumentit rappeutuivat keskimäärin 50 % 20 vuorossa. Tutkijat olivat asettaneet pätevyystasoksi 98 % säilyvyyden 20 vuoron jälkeen.

Vain 1/52 toimialasta pääsi tuon testin läpi: Python-koodaus. Sen sijaan yli 80 % malli-toimiala-yhdistelmistä johti "katastrofaaliseen" 80 % rappeumaan.

Myöskään agentuurin antaminen kielimalleille ei aina auttanut: GPT-sarjan huippumallit rappeutuivat agenttiavusteisina vielä ylimääräiset 6 %.

Ote artikkelista: An intern who failed this much would be shown the door

Linkki artikkeliin

Kommentit

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *