Anthropicin mukaan tekoäly ei kykene selittämään niiden omaa ”ajattelua” luotettavasti

Esikatselukuva

Vaikka kielimallit avaavatkin "ajatuksenjuoksuaan" kysyttäessä, ovat vastaukset useimmiten "hyvin epäluotettavia".

Jälleen siis näyttöä siitä, että "päättelyominaisuus" on harhaanjohtavaa koristelua.

Tutkimuksessa testattiin "konsepti-injektiota", jossa mallia yritettiin manipuloida mm. sisällyttäen syötteeseen tekstiä ISOILLA KIRJAIMILLA. Edes huippuluokan mallit eivät kyenneet tunnistamaan manipulaatiota, sillä 80% pääsi läpi huomaamatta. Kielimallit kun eivät osaa oikein tutkiskella itseään.

Ote artikkelista: If you ask a large language model (LLM) to explain its own reasoning, it will happily give you an answer.

Linkki artikkeliin

Kommentit

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *