AIkamme AI-pöhinän koontia.

Aina vähintään yhtä luotettavasti kuin tekoälyn tuottamana!
  • Kiinnostava paperi siitä, miten LLM:t tehostavat koodaamista, mutta jättävät koodiin haavoittuvuuksia

    Esikatselukuva

    Kielimallit eivät useinkaan itse huomioi generoimansa koodin haavoittuvuuksia tai huomauta niistä ellei niitä ole erikseen kehotettu huomioimaan. Vertailussa Claude 3, GPT-4 ja Llama 3.

    Kiinnostava paperi siitä, miten LLM:t tehostavat koodaamista, mutta jättävät koodiin haavoittuvuuksia. Kielimallit eivät useinkaan itse huomioi generoimansa koodin haavoittuvuuksia tai huomauta niistä ellei niitä ole erikseen kehotettu huomioimaan. Vertailussa Claude 3, GPT-4 ja Llama 3.

    Ote artikkelista: The widespread adoption of conversational LLMs for software development has raised new security concerns regarding the safety of LLM-generated content. Our motivational study outlines ChatGPT's potent…

    Linkki artikkeliin

  • Metan uusi Llama 4 -kielimalli on tuunattu vähemmän poliittiseksi

    Esikatselukuva

    Tiedotteen mukaan aiemmat kielimallit ovat olleet vinoutuneita vasemmalle, joten nyt tehdään korjausliike (esimerkkinä Grok). Jos esim. ilmastonmuutos on määritelty poliittiseksi, ei siitä enää saane tarkkaa tietoa.

    Metan uusi Llama 4 -kielimalli on tuunattu vähemmän poliittiseksi. Tiedotteen mukaan aiemmat kielimallit ovat olleet vinoutuneita vasemmalle, joten nyt tehdään korjausliike (esimerkkinä Grok). Jos esim. ilmastonmuutos on määritelty poliittiseksi, ei siitä enää saane tarkkaa tietoa.

    Ote artikkelista: We’re introducing Llama 4 Scout and Llama 4 Maverick, the first open-weight natively multimodal models with unprecedented context support and our first built using a mixture-of-experts (MoE) architect…

    Linkki artikkeliin

  • Trumpin tariffimatematiikka tuo mieleen LLM-vastaukset

    Esikatselukuva

    The Vergen artikkelin mukaan ChatGPT, Claude, Gemini ja Grok kaikki käyttävät samankaltaista pöhköä tariffilaskelmaa. Gemini sentään vähän varoitteli yliyksinkertaistettujen laskelmien käytöstä. Varmuutta asialle ei tokikaan saada.

    Trumpin tariffimatematiikka tuo mieleen LLM-vastaukset. The Vergen artikkelin mukaan ChatGPT, Claude, Gemini ja Grok kaikki käyttävät samankaltaista pöhköä tariffilaskelmaa. Gemini sentään vähän varoitteli yliyksinkertaistettujen laskelmien käytöstä. Varmuutta asialle ei tokikaan saada.

    Ote artikkelista: ChatGPT may be the White House’s latest economic advisor.

    Linkki artikkeliin

  • Tekoälypöhinäkokelas CoreWeave tuotti pettymyksen pörssiavauksellaan

    Esikatselukuva

    Muun muassa NVIDIA:lle serveritilaa myyvä ja siltä siruja ostavan tekoälyserveritarjontaan keskittyvän yrityksen listautumisanti lässähti – viestien markkinoiden epävarmuudesta #tekoäly -pöhinän suhteen.

    Tekoälypöhinäkokelas CoreWeave tuotti pettymyksen pörssiavauksellaan. Muun muassa NVIDIA:lle serveritilaa myyvä ja siltä siruja ostavan tekoälyserveritarjontaan keskittyvän yrityksen listautumisanti lässähti – viestien markkinoiden epävarmuudesta #tekoäly -pöhinän suhteen.

    Anti keräsi miljardi dollaria. Velkaa yrityksellä on 8 miljardia.

    Samalla Microsoft vetäytyi $12mrd datakeskussopimuksesta CoreWeaven kanssa toimitusvaikeuksien ja määräaikojen ylitysten vuoksi. Microsoftin tukema OpenAI puolestaan ilmoittautui paikkaamaan tilannetta ja otti sopimuksen kontolleen.

    Ote artikkelista: CoreWeave's shares were set to open nearly 18% above their offer price in their Nasdaq debut on Friday, giving the Nvidia-backed AI infrastructure firm a potential valuation of $27.4 billion on a fully diluted basis.

    Linkki artikkeliin

  • Kielimallit rampauttavat verkon vapaita ja ilmaisia palveluita

    Esikatselukuva

    Alati aggressiivisemmiksi käyvät LLM-hakurit raapivat verkosta tietoa sitä jo tahtia, että FOSS-infra (mm. Fedora) kärsii DDoS-hyökkäysten kaltaisista oireista ja menee nurin. Mallit kun eivät kunnioita robot.txt-filuja.

    Kielimallit rampauttavat verkon vapaita ja ilmaisia palveluita. Alati aggressiivisemmiksi käyvät LLM-hakurit raapivat verkosta tietoa sitä jo tahtia, että FOSS-infra (mm. Fedora) kärsii DDoS-hyökkäysten kaltaisista oireista ja menee nurin. Mallit kun eivät kunnioita robot.txt-filuja.

    Ote artikkelista: LLM scrapers are taking down FOSS projects' infrastructure, and it's getting worse.

    Linkki artikkeliin

  • DOGE tarjosi valtion työntekijöille AI-demoa

    Esikatselukuva

    DOGE tarjosi valtion työntekijöille AI-demoa. ”Yleispalveluvirasto” GSA:n työntekijät eivät tästä tehostavasta työkalusta innostuneet vaan päinvastoin vihastuivat ja kauhistuivat. ”GSAi” osaa lähinnä avustaa sähköpostien kirjoittamisessa taikka yksinkertaisten verkkosivujen luomisessa.

    Sen sijaan tarpeelliset työkalut, joita GSA:n työntekijät ovat käyttäneet vuosia, kuten Adoben sovelluskirjasto, on viety työntekijöiltä pois. Työkalun on tarkoitus lopulta päästä käsiksi valtiollisiin tietokantoihin.

    Ote artikkelista: Leaked chats obtained by WIRED detail plans for the General Services Administration—and the staff’s angry response.

    Linkki artikkeliin

  • ChatGPT hallusinoi norjalaiselle murhatuomion

    Esikatselukuva

    ChatGPT hallusinoi norjalaiselle murhatuomion

    OpenAI sai jälleen valituksen väärän tiedon levittämisestä. Tällä kertaa botti keksi norjalaismiehelle rikostuomion lastensa murhasta. GDPR:n mukaan kaiken henkilödatan tulisi olla totuudellista – mikä taas on vaikeaa hallusinointikoneelle.

    Aiemmat tapaukset ja valitukset ovat koskeneet mm. vääriä syntymäaikoja, mutta tällä kertaa kyse on jo selvästi mainehaitasta. Vahva lukusuositus jutulle, joka käy läpi sekä ko. tapausta että valitusten jumiutumista Irlannin datasuojelukomissioon (joka mm. on vastustanut LLM-palveluiden EU-kieltoa).

    Ote artikkelista: OpenAI is facing another privacy complaint in Europe over its viral AI chatbot’s tendency to hallucinate false information — and this one might prove…

    Linkki artikkeliin

  • Konteksti-ikkuna-analyysia ChatGPT:stä

    Esikatselukuva

    Hiljattain julkaistussa tutkimuksessa testattiin, miten ChatGPT-4o analysoi poliittista keskustelua suomenkielisillä aineistoilla vihreän siirtymän käsittelystä eduskunnassa ja somessa. Konteksti-ikkuna & aineistotyyppi vaikuttivat vaffasti analyysin tuloksiin.

    Paperissa selvitimme mm.

    • Muuttaako eri tekstityyppien sekoittaminen (tweetit + puheet) tarkkuutta?
    • Vaikuttaako chatti-ikkunan sisäinen kontekstin rakentaminen analyysituloksiin?
    • Voidaanko LLM korvata tai tukea ihmisanalyysia poliittisessa keskustelussa?

    Aineistona siis 20 twiittiä + 20 eduskuntapuhetta COP27-konferenssin ajalta syksyltä 2022. Testasimme ChatGPT-4o:ta (julkaistu 5/2024) eri skenaarioissa: zero-shot (erilliset chatit) vs. few-shot (sama chatti) sekä sekoitetut vs. erotellut aineistot.

    Tuloksia:

    • Konteksti vaikuttaa! Zero-shotissa tulokset olivat hajanaisempia, kun taas 1-ikkuna-analyysi tuotti tasaisempaa luokittelua – muttei aina tarkempaa
    • Tekstien järjestys vaikutti tulokseen. Aloittamalla twiiteillä saatiin enemmän avainsanoja & aiheita. Malli ”oppii” aiemmista syötteistä
    • Twiittien & puheiden sekoittaminen samaan chattiin sai ChatGPT:n välillä ”eksymään”. Vastaukset muuttuivat keskustelunomaisiksi tai sisälsivät ”kommentaaria”. Esim: Twiitti, joka alkoi sanalla ”Sorry”, sai mallin vastaamaan englanniksi joviaalilla ympäristöpuheella (poiketen tehtävänannosta).

    Sitten se oma suosikkiosioni eli KONTEKSTI-IKKUNA: Pidemmissä aineistoissa, joissa kaikki tekstit syötettiin kerralla (esim. csv(txt-tiedostot ) malli ”laiskistui” entisestään. Kun mitta tuli täyteen, se alkoi analysoida samoja tekstejä uudelleen tai keksiä uusia ”aineistoja”

    Laiskuudesta löytyy esimerkkejä tutkimuksen liitteistä. Kun puheet olivat tiedostossa ensin, ei malli koskana päässyt analysoimaan twiittejä vaan niiden sijaan se ”analysoi” mutatoituja versioita ensimmäisestä 9 käsittelemästään puheesta. En erikseen suosittele pitkien tekstidokujen käsittelyyn.

    Testasimme myös prompttien hienosäätöä ohjataksemme luokittelua – nollatilassa toimi hyvin, mutta kontekstin karttuessa tulokset hajosivat. Yksityiskohtaiset ohjeet vaativat enemmän kehotetyötä. Ei ollut myöskään ihan triviaalia ”suostutella” ChatGPT arvioimaan tekstejä suoraan tekstifilusta.

    Summa summarum: ChatGPT, kuten monet muutkin LLM-työkalut, voi olla hyödyllinen, mutta ailahteleva työkalu tekstianalyysiin. ”Style over substance” -pätee tässäkin. Tiedä mitä teet. Konteksti-ikkunan rajoitteista on syytä olla tietoinen. Ihmisen tekstikoodaustyötä en ihan heti vielä korvaisi.

    Lisäksi: AI-kyselyt eivät ole ilmastoneutraaleja. ChatGPT-haun hiilijalanjälki on ~10x Googlen hakua suurempi. Varsinkin tällaisissa pienissä aineistoissa manuaalinen analyysi voi olla vihreämpi vaihtoehto. Lisäksi mallien läpinäkymättömyys ja yleiset eettiset ongelmat tökkivät.

    Linkki artikkeliin

  • New York Times luo haitallista narratiivia kielimalleja inhimillistämällä

    Sarjassamme tekoälyä ja LLM-botteja inhimillistäviä medianarratiiveja, joissa sekoitetaan mm. se, miten botti peilaa käyttäjänsä käyttämää ahdistavaa kieltä siihen, että botti itse "tuntisi" ahdistumista.

    Lue alkuperäinen postaus

  • LLM-hakukoneet eivät osaa viitata lähteisiinsä luotettavasti

    Esikatselukuva

    Väki käyttää enenevissä määrin ChatGPT:tä ja verrokkeja hakukoneinaan. 8:n suositun "työkalun" testauksessa kävi ilmi, että yleisen sepittelyn lisäksi mm. premium-palvelut olivat ilmaisversioita useammin itsevarmasti väärässä.

    Ote artikkelista: We Compared Eight AI Search Engines. They’re All Bad at Citing News.

    Linkki artikkeliin