Vaikka kielimallit avaavatkin ”ajatuksenjuoksuaan” kysyttäessä, ovat vastaukset useimmiten ”hyvin epäluotettavia”.
Tässä saamme jälleen lisänäyttöä siitä, että vuosi sitten suurella innolla hehkutettu suurten kielimallien ”päättelyominaisuus” on todellisuudessa lähinnä harhaanjohtavaa koristelua.
Tutkimuksessa testattiin ”konsepti-injektiota”, jossa mallia yritettiin manipuloida mm. sisällyttäen syötteeseen tekstiä ISOILLA KIRJAIMILLA. Edes huippuluokan mallit eivät kyenneet tunnistamaan manipulaatiota, sillä 80% pääsi läpi huomaamatta. Kielimallit kun eivät osaa oikein tutkiskella itseään.
Ote artikkelista: If you ask a large language model (LLM) to explain its own reasoning, it will happily give you an answer.