Technologiegroepen haasten zich om de manier waarop ze hun kunstmatige-intelligentiemodellen testen en evalueren opnieuw te ontwerpen, nu de snel voortschrijdende technologie de huidige benchmarks overtreft.
OpenAI, Microsoft, Meta en Anthropic hebben allemaal onlangs plannen aangekondigd om te bouwen AI-agenten die namens hen autonoom taken voor mensen kunnen uitvoeren. Om dit effectief te kunnen doen, moeten de systemen steeds complexere acties kunnen uitvoeren, met behulp van redenering en planning.
Bedrijven voeren ‘evaluaties’ van AI-modellen uit door teams van medewerkers en externe onderzoekers. Dit zijn gestandaardiseerde tests, ook wel benchmarks genoemd, die de capaciteiten van modellen en de prestaties van systemen van verschillende groepen of oudere versies beoordelen.
Recente ontwikkelingen op het gebied van AI-technologie hebben er echter voor gezorgd dat veel van de nieuwste modellen een nauwkeurigheid van bijna 90 procent of zelfs boven de 90 procent hebben kunnen halen bij bestaande tests, wat de behoefte aan nieuwe benchmarks onderstreept.
“Het tempo van de industrie is extreem snel. We beginnen nu ons vermogen om sommige van deze systemen te meten te verzadigen (en als industrie) wordt het steeds moeilijker om ze te evalueren”, zegt Ahmad Al-Dahle, generatieve AI-leider bij Meta.
Om dit probleem aan te pakken hebben verschillende technologiegroepen, waaronder Meta, OpenAI en Microsoft, hun eigen interne benchmarks en tests voor intelligentie gecreëerd. Maar dit heeft binnen de industrie tot bezorgdheid geleid over het vermogen om de technologie te vergelijken bij gebrek aan openbare tests.
“Veel van deze benchmarks laten ons weten hoe ver we verwijderd zijn van de automatisering van taken en banen. Zonder dat ze openbaar worden gemaakt, is het voor bedrijven en de bredere samenleving moeilijk om het te vertellen”, zegt Dan Hendrycks, uitvoerend directeur van het Center for AI Safety en adviseur van xAI van Elon Musk.
De huidige publieke benchmarks – Hellaswag en MMLU – gebruiken meerkeuzevragen om gezond verstand en kennis over verschillende onderwerpen te beoordelen. Onderzoekers beweren echter dat deze methode nu overbodig wordt en dat modellen complexere problemen nodig hebben.
“We komen in een tijdperk waarin veel door mensen geschreven tests niet langer voldoende zijn als goede barometer voor hoe capabel de modellen zijn”, zegt Mark Chen, SVP onderzoek bij OpenAI. “Dat creëert een nieuwe uitdaging voor ons als onderzoekswereld.”
Eén openbare benchmark, SWE-bench Verified, werd in augustus bijgewerkt om autonome systemen beter te evalueren op basis van feedback van bedrijven, waaronder OpenAI.
Het maakt gebruik van softwareproblemen uit de echte wereld, afkomstig van het ontwikkelaarsplatform GitHub, en omvat het leveren van een coderepository aan de AI-agent en een technisch probleem, waarbij hen wordt gevraagd het probleem op te lossen. De taken vereisen redenering om te voltooien.
Op basis van deze maatstaf lost OpenAI's nieuwste model, GPT-4o preview, 41,4 procent van de problemen op, terwijl Claude 3.5 Sonnet van Anthropic 49 procent krijgt.
“Het is een stuk uitdagender (met agentische systemen) omdat je die systemen moet verbinden met veel extra tools”, zegt Jared Kaplan, chief science officer bij Anthropic.
“Je moet eigenlijk een hele sandbox-omgeving creëren waarin ze kunnen spelen. Het is niet zo eenvoudig als alleen maar een prompt geven, zien wat de voltooiing is en dat vervolgens evalueren”, voegde hij eraan toe.
Een andere belangrijke factor bij het uitvoeren van meer geavanceerde tests is ervoor te zorgen dat de benchmarkvragen buiten het publieke domein worden gehouden, om ervoor te zorgen dat de modellen niet effectief ‘vals spelen’ door de antwoorden te genereren uit trainingsgegevens in plaats van het probleem op te lossen.
Het vermogen om te redeneren en te plannen is van cruciaal belang voor het ontsluiten van het potentieel van AI-agenten die taken in meerdere stappen en toepassingen kunnen uitvoeren en zichzelf kunnen corrigeren.
“We ontdekken nieuwe manieren om deze systemen te meten en één daarvan is natuurlijk redeneren, wat een belangrijk grensgebied is”, zegt Ece Kamar, VP en laboratoriumdirecteur van AI Frontiers bij Microsoft Research.
Als gevolg hiervan werkt Microsoft aan zijn eigen interne benchmark, waarbij problemen worden opgenomen die nog niet eerder zijn verschenen in de training om te beoordelen of zijn AI-modellen kunnen redeneren zoals een mens dat zou doen.
Sommigen, waaronder onderzoekers van Apple, hebben zich afgevraagd of de huidige grote taalmodellen de gegevens die ze in hun training het dichtst benaderen, ‘redeneren’ of louter ‘patroon-matchen’.
“In de kleinere domeinen waar bedrijven om geven, redeneren ze wel”, zegt Ruchir Puri, hoofdwetenschapper bij IBM Research. “(Het debat is rond) dit bredere concept van redeneren op menselijk niveau, dat het bijna in de context van kunstmatige algemene intelligentie zou plaatsen. Redenen ze echt, of praten ze na?
OpenAI meet het redeneren voornamelijk door middel van evaluaties over wiskunde, STEM-onderwerpen en codeertaken.
“Redeneren is een heel grootse term. Iedereen definieert het anders en heeft zijn eigen interpretatie. . . deze grens is erg vaag (en) we proberen niet te verzanden in dat onderscheid zelf, maar kijken of het nut, prestaties of mogelijkheden aanstuurt”, aldus Chen van OpenAI.
De behoefte aan nieuwe benchmarks heeft ook geleid tot inspanningen van externe organisaties.
In september kondigden de start-up Scale AI en Hendrycks een project aan genaamd “Humanity's Last Exam”, waarbij complexe vragen van experts uit verschillende disciplines werden gecrowdsourced waarvoor abstract redeneren nodig was.
Een ander voorbeeld is FrontierMath, een nieuwe benchmark die deze week is uitgebracht en is gemaakt door deskundige wiskundigen. Op basis van deze test kunnen de meest geavanceerde modellen minder dan 2 procent van de vragen beantwoorden.
Zonder expliciete overeenstemming over het meten van dergelijke capaciteiten waarschuwen deskundigen echter dat het voor bedrijven moeilijk kan zijn om hun concurrenten te beoordelen of voor bedrijven en consumenten om de markt te begrijpen.
“Er is geen duidelijke manier om te zeggen ‘dit model is definitief beter dan dit model’ (omdat) wanneer een maatstaf een doelwit wordt, deze niet langer een goede maatstaf is” en modellen worden getraind om de vastgestelde benchmarks te halen, zei Meta’s Al- Dahle.
“Het is iets waar we als hele sector doorheen werken.”
Aanvullende berichtgeving door Hannah Murphy in San Francisco