Vaikka kielimallit avaavatkin "ajatuksenjuoksuaan" kysyttäessä, ovat vastaukset useimmiten "hyvin epäluotettavia".
Jälleen siis näyttöä siitä, että "päättelyominaisuus" on harhaanjohtavaa koristelua.
Tutkimuksessa testattiin "konsepti-injektiota", jossa mallia yritettiin manipuloida mm. sisällyttäen syötteeseen tekstiä ISOILLA KIRJAIMILLA. Edes huippuluokan mallit eivät kyenneet tunnistamaan manipulaatiota, sillä 80% pääsi läpi huomaamatta. Kielimallit kun eivät osaa oikein tutkiskella itseään.
Ote artikkelista: If you ask a large language model (LLM) to explain its own reasoning, it will happily give you an answer.