OpenAI’s nieuwe o3-model voor kunstmatige intelligentie heeft een baanbrekende hoge score behaald op a prestigieuze AI-redeneringstest genaamd de ARC Challenge, wat sommige AI-fans inspireerde om te speculeren dat o3 dit heeft bereikt kunstmatige algemene intelligentie (AGI). Maar zelfs toen de organisatoren van de ARC Challenge de prestatie van o3 als een belangrijke mijlpaal omschrijven, waarschuwden ze ook dat het de hoofdprijs van de competitie niet heeft gewonnen – en dat het slechts één stap is op weg naar AGI, een term voor hypothetische toekomstige AI met mensachtige intelligentie. .
Het o3-model is het nieuwste in een reeks AI-releases die aansluiten bij de grote taalmodellen die ChatGPT aandrijven. “Dit is een verrassende en belangrijke stapsgewijze toename van de AI-mogelijkheden, die een nieuw vermogen tot taakaanpassing aantoont dat nog nooit eerder in de GPT-familiemodellen is gezien”, aldus François Cholleteen ingenieur bij Google en de belangrijkste maker van de ARC Challenge, in a blogpost.
Wat deed het o3-model van OpenAI eigenlijk?
Chollet ontwierp de Corpus abstractie en redeneren (ARC) Uitdaging in 2019 om te testen hoe goed AI’s de juiste patronen kunnen vinden die paren gekleurde rasters met elkaar verbinden. Dergelijke visuele puzzels zijn bedoeld om AI’s een vorm van algemene intelligentie te laten demonstreren met basisredeneervermogen. Maar als je voldoende rekenkracht bij de puzzels gooit, kan zelfs een niet-redenerend programma ze eenvoudig met brute kracht oplossen. Om dit te voorkomen vereist de competitie ook officiële inzendingen van scores om aan bepaalde limieten op het gebied van rekenkracht te voldoen.
Het onlangs aangekondigde o3-model van OpenAI – dat naar verwachting begin 2025 zal verschijnen – behaalde zijn officiële doorbraakscore van 75,7 procent op de “semi-private” test van de ARC Challenge, die wordt gebruikt voor het rangschikken van concurrenten op een openbaar klassement. De computerkosten van deze prestatie bedroegen ongeveer $ 20 voor elke visuele puzzeltaak, waarmee de concurrentielimiet van minder dan $ 10.000 in totaal werd bereikt. De moeilijkere ‘privé’-test die wordt gebruikt om de winnaars van de hoofdprijzen te bepalen, heeft echter een nog strengere limiet voor de rekenkracht, wat overeenkomt met het uitgeven van slechts 10 cent aan elke taak, waaraan OpenAI niet voldeed.
Het o3-model behaalde ook een onofficiële score van 87,5 procent door ongeveer 172 keer meer rekenkracht toe te passen dan op de officiële score. Ter vergelijking: de gemiddelde menselijke score is 84 procent, en een score van 85 procent is genoeg om de hoofdprijs van $600.000 van de ARC Challenge te winnen – als het model ook zijn computerkosten binnen de vereiste grenzen kan houden.
Maar om de onofficiële score te bereiken, liepen de kosten van o3 op tot duizenden dollars die aan het oplossen van elke taak werden besteed. OpenAI verzocht de organisatoren van de uitdaging om de exacte computerkosten niet te publiceren.
Toont deze o3-prestatie aan dat AGI is bereikt?
Nee, de organisatoren van de ARC-uitdaging hebben specifiek gezegd dat ze het verslaan van deze concurrentiebenchmark niet beschouwen als een indicator voor het behalen van AGI.
Het o3-model slaagde er ook niet in om meer dan 100 visuele puzzeltaken op te lossen, zelfs niet toen OpenAI een zeer grote hoeveelheid rekenkracht toepaste op de onofficiële score, zei Mike Knoop, een ARC Challenge-organisator bij softwarebedrijf Zapier, in een sociale media-uitzending. na op X.
Op een sociale media na op Bluesky, Melanie Mitchell van het Santa Fe Instituut in New Mexico zei het volgende over de voortgang van o3 op de ARC-benchmark: „Ik denk dat het oplossen van deze taken door brute-force computing het oorspronkelijke doel tenietdoet“.
“Hoewel het nieuwe model erg indrukwekkend is en een grote mijlpaal vertegenwoordigt op weg naar AGI, geloof ik niet dat dit AGI is – er zijn nog steeds een behoorlijk aantal zeer eenvoudige (ARC Challenge) taken die o3 niet kan oplossen”, aldus Chollet in een andere X na.
Chollet beschreef echter hoe we zouden kunnen weten wanneer intelligentie op menselijk niveau is aangetoond door een of andere vorm van AGI. “Je weet dat AGI er is wanneer het creëren van taken die gemakkelijk zijn voor gewone mensen, maar moeilijk voor AI simpelweg onmogelijk wordt”, zei hij in de blogpost.
Thomas Dietterich aan de Oregon State University suggereert een andere manier om AGI te herkennen. “Deze architecturen beweren alle functionele componenten te omvatten die nodig zijn voor de menselijke cognitie”, zegt hij. “Door deze maatregel missen de commerciële AI-systemen episodisch geheugen, planning, logisch redeneren en, belangrijker nog, meta-cognitie.”
Dus wat betekent de hoge score van o3 eigenlijk?
De hoge score van het o3-model komt omdat de technologie-industrie en AI-onderzoekers rekening hebben gehouden met een langzamer tempo van de vooruitgang in de nieuwste AI-modellen voor 2024, vergeleken met de aanvankelijke explosieve ontwikkelingen van 2023.
Hoewel het de ARC Challenge niet heeft gewonnen, geeft de hoge score van o3 aan dat AI-modellen in de nabije toekomst de concurrentiebenchmark zouden kunnen verslaan. Naast de onofficiële hoge score zegt Chollet dat veel officiële inzendingen met weinig rekenkracht al boven de 81 procent hebben gescoord op de privé-evaluatietestset.
Dietterich vindt ook dat “dit een zeer indrukwekkende prestatiesprong is”. Hij waarschuwt daar echter voor, zonder meer te weten over hoe OpenAI werkt o1 en o3-modellen werken, is het onmogelijk om te beoordelen hoe indrukwekkend de hoge score is. Als o3 bijvoorbeeld de ARC-problemen van tevoren kon oefenen, zou dat de verwezenlijking ervan gemakkelijker maken. “We zullen moeten wachten op een open-source replicatie om de volledige betekenis hiervan te begrijpen”, zegt Dietterich.
De organisatoren van de ARC Challenge zijn al van plan ergens in 2025 een tweede en moeilijkere reeks benchmarktests te lanceren. Ze zullen ook de ARC Prize 2025-uitdaging gaande houden totdat iemand de hoofdprijs behaalt en zijn oplossing open source maakt.
Onderwerpen: