Tutkimuksessa testattiin, miten eri tekoälysovellukset osaavat arvioida tieteellisiä artikkeleita, tiivistää niiden sisältöä ja tunnistaa, olivatko artikkelit takaisinvedettyjä.
Mukana olivat mm. ChatGPT-4, ChatGPT-5, Claude, Gemini, Perplexity, Microsoft Copilot, ja juuri tutkimuskäyttöön suunnatut SciSpace, ScienceOS ja Consensus.
Tutkijat syöttivät niille 15 takaisinvedettyä tieteellistä artikkelia ja kysyivät edellämainittuihin teemoihin liittyen.
2/
Mallit epäonnistuivat tehtävässä ja antoivat vakuuttavan kuuloisia vastauksia myös ollessaan väärässä tai jättäessään pois olennaista tietoa.
Parhaiten pärjäsi OpenAI:n ChatGPT-5, mutta heikoiten pärjäsivät nimenomaan tieteelliseen käyttöön tarkoitetut työkalut: SciSpace, ScienceOS ja Consensus.
3/
Yleiskäyttöiset tekoälytyökalut antoivat mediaanina 6 täysin oikeaa vastausta 15:stä.
Tutkimuskäyttöön suunnatut työkalut eivät antaneet yhtään täysin oikeaa vastausta: mediaani 0/15.
Tekoälytyökalut eivät vielä luotettavasti tunnista tai merkitse takaisinvedettyjä tieteellisiä artikkeleita.
4/4
Ote artikkelista: Background: Generative artificial intelligence (GenAI) tools are increasingly used in scientific research to support literature searches, evidence synthesis, and manuscript preparation. While these sy…
Vastaa