Pöhinäkampana tekohälyä vastaan jo vuodesta 2025

Microsoftin tutkijoiden mukaan tekoälymallit tai -agentit eivät kykene pitkäkestoisiin tehtäviin

Written by

Esikatselukuva

Jo tutkimusartikkelin ennakkoversion otsikossa todetaan kielimallien tärvelevän delegoitavat dokumentit. Tutkimus tarkasteli 52 erilaista delegoitavaa tehtävää koodauksesta nuotintamiseen.

Tutkimuksen mukaan huippumallit (GPT, Claude, Gemini) hukkaavat keskimäärin 25 % dokumentin sisällöstä 20 delegoidun vuorovaikutuksen aikana. Kaikkien mallien kesken dokumentit rappeutuivat keskimäärin 50 % 20 vuorossa. Tutkijat olivat asettaneet pätevyystasoksi 98 % säilyvyyden 20 vuoron jälkeen.

Vain 1/52 toimialasta pääsi tuon testin läpi: Python-koodaus. Sen sijaan yli 80 % malli-toimiala-yhdistelmistä johti "katastrofaaliseen" 80 % rappeumaan.

Myöskään agentuurin antaminen kielimalleille ei aina auttanut: GPT-sarjan huippumallit rappeutuivat agenttiavusteisina vielä ylimääräiset 6 %.

Ote artikkelista: An intern who failed this much would be shown the door

Linkki artikkeliin

Microsoftin tutkijoiden mukaan tekoälymallit tai -agentit eivät kykene pitkäkestoisiin tehtäviin

More posts

”Googlen tekoäly käyttää poliitikkojen omia mainoslauseita, kun se tiivistää näiden urat muutamaan lauseeseen

Meta poisti uuden tekoälykuvagenerointityökalun alle viikko sen julkaisun jälkeen

Microsoftin päästöt kasvoivat 27 % tekoälypöhinän seurauksena

GitHub Copilot (Claude ja Gemini) ei suostu toteuttamaan haitallisia pyyntöjä keskustelumoodissa, mutta kirjoittaa ne koodina, mikäli ne pilkkoo tarpeeksi pieniin osiin