OpenAI’s o3 suggereert dat AI-modellen op nieuwe manieren worden geschaald, maar dat geldt ook voor de kosten


Vorige maand vertelden AI-oprichters en investeerders aan TechCrunch dat we ons nu in de “tweede tijdperk van schaalwetten,waarbij hij opmerkte hoe gevestigde methoden om AI-modellen te verbeteren een afnemend rendement lieten zien. Een veelbelovende nieuwe methode waarvan zij suggereerden dat deze de winst zou kunnen behouden, was “Schaling van de testtijd”, wat lijkt te zijn wat achter de prestaties van zit Het o3-model van OpenAI – maar het heeft zijn eigen nadelen.

Een groot deel van de AI-wereld beschouwde de aankondiging van OpenAI’s o3-model als bewijs dat de voortgang van de AI-schaalvergroting niet “tegen een muur is gelopen”. Het o3-model doet het goed op benchmarks, scoort aanzienlijk beter dan alle andere modellen op een algemene vaardigheidstest genaamd ARC-AGI, en scoort 25% op een moeilijke wiskundetoets waarop geen enkel ander AI-model meer dan 2% scoorde.

Natuurlijk nemen wij bij TechCrunch dit allemaal met een korreltje zout totdat we o3 zelf kunnen testen (tot nu toe hebben maar weinigen het geprobeerd). Maar zelfs vóór de release van o3 is de AI-wereld er al van overtuigd dat er iets groots is veranderd.

De mede-maker van OpenAI’s o-serie modellen, Noam Brown, merkte vrijdag op dat de startup de indrukwekkende winsten van o3 aankondigt, slechts drie maanden nadat de startup o1 aankondigde – een relatief kort tijdsbestek voor zo’n prestatiesprong.

“We hebben alle reden om aan te nemen dat dit traject zich zal voortzetten”, zegt Brown in een verklaring tweeten.

Anthropic mede-oprichter Jack Clark zei in een blogpost Maandag is dat o3 het bewijs dat AI “in 2025 sneller zal zijn dan in 2024.” (Houd er rekening mee dat het Anthropic – vooral zijn vermogen om kapitaal aan te trekken – ten goede komt als hij suggereert dat de wetten voor het opschalen van AI doorgaan, zelfs als Clark een concurrent aanvult.)

Volgend jaar zegt Clark dat de AI-wereld test-time scaling en traditionele pre-training schaalmethoden zal combineren om nog meer rendement uit AI-modellen te halen. Misschien suggereert hij dat Anthropic en andere aanbieders van AI-modellen in 2025 hun eigen redeneermodellen zullen uitbrengen, net zoals Google deed dat vorige week.

Testtijdschaling betekent dat OpenAI meer rekenkracht gebruikt tijdens de inferentiefase van ChatGPT, de periode nadat u op Enter hebt gedrukt bij een prompt. Het is niet precies duidelijk wat er achter de schermen gebeurt: OpenAI gebruikt meer computerchips om de vraag van een gebruiker te beantwoorden, gebruikt krachtigere inferentiechips, of laat die chips gedurende langere tijd draaien – in sommige gevallen 10 tot 15 minuten – vóór de AI levert een antwoord. We kennen niet alle details van hoe o3 is gemaakt, maar deze benchmarks zijn vroege tekenen dat het opschalen van testtijden kan werken om de prestaties van AI-modellen te verbeteren.

Terwijl o3 sommigen misschien een hernieuwd geloof geeft in de voortgang van de AI-schaalwetten, maakt het nieuwste model van OpenAI ook gebruik van een voorheen ongezien rekenniveau, wat een hogere prijs per antwoord betekent.

“Misschien is het enige belangrijke voorbehoud hier het begrijpen dat een van de redenen waarom O3 zoveel beter is, is dat het meer geld kost om op inferentietijd te draaien – de mogelijkheid om testtijdcomputing te gebruiken betekent dat je voor sommige problemen compute in een beter antwoord kunt omzetten ”, schrijft Clark in zijn blog. “Dit is interessant omdat het de kosten van het runnen van AI-systemen iets minder voorspelbaar heeft gemaakt. Vroeger kon je berekenen hoeveel het kost om een ​​generatief model te bedienen door alleen maar naar het model te kijken en naar de kosten om een ​​bepaalde output te genereren.”

Clark en anderen wezen op de prestaties van o3 op de ARC-AGI-benchmark – een moeilijke test die wordt gebruikt om doorbraken op AGI te beoordelen – als een indicator voor de voortgang ervan. Het is vermeldenswaard dat het behalen van deze test volgens de makers niet betekent dat er sprake is van een AI-model heeft bereikt AGI, maar het is eerder een manier om de voortgang in de richting van het vage doel te meten. Dat gezegd hebbende, overtrof het o3-model de scores van alle eerdere AI-modellen die de test hadden gedaan en scoorde 88% in een van zijn pogingen. OpenAI’s op één na beste AI-model, o1, scoorde slechts 32%.

Grafiek die de prestaties van OpenAI’s o-serie op de ARC-AGI-test laat zien. (Afbeelding tegoed: ARC-prijs)

Maar de logaritmische x-as op deze grafiek kan voor sommigen alarmerend zijn. De hoog scorende versie van o3 gebruikte voor elke taak meer dan $1000 aan rekenkracht. De o1-modellen gebruikten ongeveer $ 5 aan rekenkracht per taak, en de o1-mini gebruikte slechts een paar cent.

De maker van de ARC-AGI benchmark, François Chollet, schrijft in een bloggen dat OpenAI grofweg 170x meer rekenkracht gebruikte om die score van 88% te genereren, vergeleken met de zeer efficiënte versie van o3 die slechts 12% lager scoorde. De hoog scorende versie van o3 gebruikte meer dan $10.000 aan middelen om de test te voltooien, wat het te duur maakt om mee te dingen naar de ARC-prijs – een ongeslagen competitie voor AI-modellen om de ARC-test te verslaan.

Chollet zegt echter dat o3 nog steeds een doorbraak was voor AI-modellen.

“o3 is een systeem dat zich kan aanpassen aan taken die het nog nooit eerder is tegengekomen, en dat aantoonbaar prestaties op menselijk niveau benadert in het ARC-AGI-domein”, aldus Chollet in de blog. “Natuurlijk brengt een dergelijke algemeenheid hoge kosten met zich mee, en zou nog niet helemaal rendabel zijn: je zou een mens kunnen betalen om ARC-AGI-taken op te lossen voor ongeveer $ 5 per taak (we weten het, dat hebben we gedaan), terwijl je slechts een cent verbruikt. qua energie.”

Het is voorbarig om te hameren op de exacte prijs van dit alles – we hebben het afgelopen jaar de prijzen voor AI-modellen zien kelderen, en OpenAI moet nog bekendmaken hoeveel o3 daadwerkelijk gaat kosten. Deze prijzen geven echter aan hoeveel rekenkracht er nodig is om de prestatiebarrières van de huidige AI-modellen, ook al is het maar een klein beetje, te doorbreken.

Dit roept enkele vragen op. Waar is o3 eigenlijk voor? En hoeveel meer rekenkracht is er nodig om meer winst te behalen op het gebied van gevolgtrekkingen met o4, o5 of hoe OpenAI zijn volgende redeneermodellen ook noemt?

Het lijkt er niet op dat o3, of zijn opvolgers, iemands “dagelijkse driver” zou zijn, zoals GPT-4o of Google Search dat zou kunnen zijn. Deze modellen gebruiken gewoon te veel rekenkracht om gedurende de dag kleine vragen te beantwoorden, zoals: „Hoe kunnen de Cleveland Browns de play-offs van 2024 nog halen?“

In plaats daarvan lijkt het erop dat AI-modellen met geschaalde testtijdberekening alleen maar goed zijn voor grote vragen als: “Hoe kunnen de Cleveland Browns in 2027 een Super Bowl-franchise worden?” Zelfs dan is het de hoge computerkosten misschien alleen waard als je algemeen directeur van de Cleveland Browns bent en deze tools gebruikt om grote beslissingen te nemen.

Instellingen met diepe zakken zijn wellicht de enigen die zich o3 kunnen veroorloven, althans om te beginnen, zoals Wharton-professor Ethan Mollick opmerkt in een tweeten.

We hebben OpenAI al een release gezien Niveau van $ 200 om een ​​versie met hoge rekenkracht van o1 te gebruikenmaar de startup heeft dat wel gedaan naar verluidt gewogen het creëren van abonnementsplannen die tot $ 2.000 kosten. Als je ziet hoeveel rekenkracht o3 gebruikt, begrijp je waarom OpenAI dit zou overwegen.

Maar er zijn nadelen aan het gebruik van o3 voor werk met grote impact. Zoals Chollet opmerkt, is o3 geen AGI, en het faalt nog steeds bij een aantal zeer gemakkelijke taken die een mens vrij gemakkelijk zou uitvoeren.

Dit is niet per se verrassend, aangezien grote taalmodellen heb nog steeds een enorm hallucinatieprobleemdie o3 en test-time compute niet lijken te hebben opgelost. Dat is de reden dat ChatGPT en Gemini onder elk antwoord dat zij geven disclaimers opnemen, waarbij gebruikers worden gevraagd de antwoorden niet zomaar te vertrouwen. Vermoedelijk zou AGI, mocht het ooit worden bereikt, een dergelijke disclaimer niet nodig hebben.

Een manier om meer winst te behalen bij het schalen van testtijden zouden betere AI-inferentiechips kunnen zijn. Er is geen tekort aan startups die precies dit probleem aanpakken, zoals Groq of Cerebras, terwijl andere startups kostenefficiëntere AI-chips ontwerpen, zoals MatX. Andreessen Horowitz algemeen partner Anjney Midha vertelde dit eerder aan TechCrunch verwacht dat deze startups een grotere rol gaan spelen bij het opschalen van de testtijd.

Hoewel o3 een opmerkelijke verbetering is in de prestaties van AI-modellen, roept het verschillende nieuwe vragen op rond gebruik en kosten. Dat gezegd hebbende, voegen de prestaties van o3 geloofwaardigheid toe aan de bewering dat testtijdcomputing de op één na beste manier is voor de technologie-industrie om AI-modellen te schalen.





Source link

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein