Yhtiön suorituskykytesteissä o3 sepitti 33% ja o4-mini 48% vastauksista. Toisen yhtiön testeissä ilmeni, että o3 myös "keksi" kuvailemiaan "päättelyketjujaan", mm. "suoritti koodiaan vm. 2021 Macbook Prolla".
OpenAI:n "päättelevät" uudet mallit "hallusinoivatkin" vanhoja malleja enemmän. Yhtiön suorituskykytesteissä o3 sepitti 33% ja o4-mini 48% vastauksista. Toisen yhtiön testeissä ilmeni, että o3 myös "keksi" kuvailemiaan "päättelyketjujaan", mm. "suoritti koodiaan vm. 2021 Macbook Prolla".
Ote artikkelista: OpenAI's reasoning AI models are getting better, but their hallucinating isn't, according to benchmark results.