AI wordt slimmer, maar heeft ook een grotere kans op ‚BS‘: ​​wat levert het op?


Elke week is er een nieuwe vooruitgang op het gebied van AI te bewonderen, maar in veel opzichten lijken deze tools eenvoudiger dan voorheen.

Het blijkt dat uw vriendelijke AI-assistent uit de buurt misschien te zelfverzekerd wordt voor zijn eigen bestwil. Uit een nieuwe studie blijkt dat naarmate taalmodellen als OpenAI’s GPT en Meta’s LLaMA krachtiger worden, ze ook… nou ja, grotere vezels worden. Het onderzoek, gepubliceerd in Nature, laat zien dat deze verbeterde AI’s eerder onnauwkeurige antwoorden zullen geven – zelfs als ze er geen idee van hebben. Waarom? Omdat ze steeds beter worden in het doen alsof.

Het probleem beperkt zich niet alleen tot zeldzame, hersenkrakende vragen; zelfs de eenvoudigste vragen kunnen ze doen struikelen. Maar omdat ze lastige onderwerpen op overtuigende wijze kunnen aanpakken, zien we misschien hun duidelijke fouten over het hoofd. De oplossing? Misschien moeten deze chatbots leren om gewoon te zeggen: „Ik weet het niet.“ Maar voor bedrijven die graag hun hightech speelgoed willen laten zien, onwetendheid toegeven is niet bepaald een verkoopargument.

Deze denkwijze lijkt ook op te gaan voor grote taalmodellen, die met elke nieuwe versie steeds sterker worden. Nieuw onderzoek wijst uit dat deze slimmere AI-chatbots daadwerkelijk aan het worden zijn minder betrouwbaar omdat ze de neiging hebben feiten te verzinnen in plaats van vragen te ontwijken of te weigeren die ze niet aankunnen.

Ai-assistenten

Afbeelding: Pexles

In de zoektocht naar slimmere AI-chatbots blijven we steeds onbetrouwbaarder

In de studie, gepubliceerd in het tijdschrift Nature, werd gekeken naar enkele commerciële top-LLM’s in het veld: OpenAI’s GPT, Meta’s LLaMA en een open-sourcemodel genaamd BLOOM van de onderzoeksgroep BigScience.

Het bleek dat hun antwoorden nu vaak nauwkeuriger zijn, maar dat ze over het algemeen minder betrouwbaar zijn en meer foute antwoorden geven dan oudere modellen.

“Ze proberen tegenwoordig vrijwel alles te beantwoorden. Dit betekent meer goed, maar ook meer fout (antwoorden)”, studie co-auteur José Hernández-Orallodie werkt bij de Valenciaans onderzoeksinstituut voor kunstmatige intelligentie in Spanjeverteld Natuur.

Mike Hicks, die wetenschaps- en technologiefilosofie studeert aan de Universiteit van Glasgow, nam een ​​harder standpunt in.

“Dat lijkt mij op wat wij onzin zouden noemen,” vertelde Hicks, die niet aan het onderzoek deelnam. Natuur. „Het wordt steeds beter in het doen alsof het dingen weet.“

De onderzoekers testten de modellen op onderwerpen van wiskunde tot aardrijkskunde, en vroegen hen ook taken uit te voeren, zoals het in een specifieke volgorde plaatsen van informatie. De grotere, meer capabele modellen gaven over het algemeen de meest correcte antwoorden, maar worstelden met moeilijkere vragen waar ze minder nauwkeurig waren.

Uit de studie bleek dat GPT-4 van OpenAI en o1 waren enkele van de grootste bullshitters die elke vraag beantwoordden die op hun pad kwam. Deze trend lijkt van invloed te zijn op alle onderzochte LLM’s. Voor de LLaMA-familie van modellen kon geen enkele een nauwkeurigheid van meer dan 60 procent behalen, zelfs op de eenvoudigste vragen, aldus het onderzoek.

Kortom, naarmate AI-modellen groter werdenrekening houdend met parameters, trainingsgegevens en andere elementenze gaven een hoger percentage foute antwoorden.

AI-modellen worden steeds beter in het beantwoorden van moeilijkere vragen. Het probleem is, naast hun neiging om dingen te verzinnen, dat ze de simpele zaken nog steeds fout hebben. In theorie zouden deze fouten meer waarschuwingssignalen moeten oproepen, maar we zouden hun duidelijke tekortkomingen over het hoofd kunnen zien omdat we verbaasd zijn over de manier waarop deze grote taalmodellen met complexe problemen omgaan, aldus de onderzoekers.

Het onderzoek leverde enkele zorgwekkende bevindingen op over hoe mensen AI-reacties zien. Toen hem werd gevraagd om te bepalen of de antwoorden van de chatbots goed of fout waren, maakte een geselecteerde groep deelnemers 10 tot 40 procent van de tijd fouten.

De eenvoudigste manier om deze problemen op te lossen, zeggen de onderzoekers, is door de LLM’s zo te programmeren dat ze minder graag alles willen beantwoorden.

“Je kunt een limiet stellen, en als de vraag moeilijk is, (laat de chatbot) zeggen: ‘nee, ik weet het niet’”, vertelde Hernández-Orallo Natuur.

Maar eerlijk zijn helpt misschien niet bij AI-bedrijven die indruk willen maken op mensen met hun coole technologie. Als deze slimmere AI-chatbots zich zouden beperken tot het beantwoorden van dingen waarvan ze wisten, zou dit de grenzen van de technologie kunnen laten zien.



Source link