OpenAI:n ”päättelevät” uudet mallit ”hallusinoivatkin” vanhoja malleja enemmän

Esikatselukuva

Yhtiön suorituskykytesteissä o3 sepitti 33% ja o4-mini 48% vastauksista. Toisen yhtiön testeissä ilmeni, että o3 myös "keksi" kuvailemiaan "päättelyketjujaan", mm. "suoritti koodiaan vm. 2021 Macbook Prolla".

OpenAI:n "päättelevät" uudet mallit "hallusinoivatkin" vanhoja malleja enemmän. Yhtiön suorituskykytesteissä o3 sepitti 33% ja o4-mini 48% vastauksista. Toisen yhtiön testeissä ilmeni, että o3 myös "keksi" kuvailemiaan "päättelyketjujaan", mm. "suoritti koodiaan vm. 2021 Macbook Prolla".

Ote artikkelista: OpenAI's reasoning AI models are getting better, but their hallucinating isn't, according to benchmark results.

Linkki artikkeliin