Yhtiön suorituskykytesteissä o3 sepitti 33% ja o4-mini 48% vastauksista. Toisen yhtiön testeissä ilmeni, että o3 myös "keksi" kuvailemiaan "päättelyketjujaan", mm. "suoritti koodiaan vm. 2021 Macbook Prolla".
Ote artikkelista: OpenAI's reasoning AI models are getting better, but their hallucinating isn't, according to benchmark results.
Vastaa