Volgens AI-wetenschappers, onderzoekers en investeerders zijn zij van mening dat deze slimmere technieken, die ten grondslag liggen aan het onlangs uitgebrachte o1-model van OpenAI, de AI-wapenwedloop een nieuwe vorm zouden kunnen geven.
Bedrijven op het gebied van kunstmatige intelligentie, zoals OpenAI, proberen onverwachte vertragingen en uitdagingen te overwinnen bij het nastreven van slimmere en grotere taalmodellen door trainingstechnieken te ontwikkelen die meer mensachtige manieren gebruiken waarop algoritmen kunnen ‘denken’. Volgens AI-wetenschappers, onderzoekers en investeerders zijn zij van mening dat deze slimmere technieken, die ten grondslag liggen aan het onlangs uitgebrachte o1-model van OpenAI, de AI-wapenwedloop een nieuwe vorm zouden kunnen geven. Het kan ook gevolgen hebben voor de soorten middelen waarvoor AI-bedrijven een onverzadigbare vraag naar AI hebben.
Het volgende vlaggenschipmodel voor kunstmatige intelligentie van OpenAI vertoont kleinere verbeteringen vergeleken met eerdere iteraties, zo blijkt uit het rapport. Dit lijkt een teken dat de bloeiende generatieve AI-industrie mogelijk een plateau nadert.
Waarom is het slimmere AI-model van OpenAI nodig?
Na de release van de virale ChatGPT-chatbot twee jaar geleden hebben technologiebedrijven, wier waarderingen enorm hebben geprofiteerd van de AI-boom, publiekelijk volgehouden dat het “opschalen” van de huidige modellen door het toevoegen van meer data en rekenkracht consequent zal leiden tot verbeterde AI-modellen.
Maar nu spreken enkele van de meest vooraanstaande AI-wetenschappers zich uit over de beperkingen van deze ‘groter is beter’-filosofie.
Beperkingen van het AI-model
Volgens Ilya Sutskever, mede-oprichter van AI-labs Safe Superintelligence (SSI) en OpenAI, zijn de resultaten van het opschalen van de pre-training gestabiliseerd.
“De jaren 2010 waren het tijdperk van schaalvergroting, nu zijn we weer terug in het tijdperk van verwondering en ontdekking. Iedereen is op zoek naar het volgende”, zei Sutskever. “Het juiste opschalen is nu belangrijker dan ooit.”
De rivalen van OpenAI werken aan slimmere AI-modellen
Sutskever weigerde meer details te delen over hoe zijn team het probleem aanpakt, behalve dat SSI werkt aan een alternatieve aanpak om de pre-training op te schalen.
Achter de schermen zijn onderzoekers van grote AI-laboratoria tegen vertragingen en teleurstellende resultaten aangelopen in de race om een groot taalmodel uit te brengen dat beter presteert dan OpenAI's GPT-4-model, dat bijna twee jaar oud is, volgens drie bronnen die bekend zijn met privézaken.
Uitdagingen voor AI-ontwikkelingen
De zogenaamde 'trainingsruns' voor grote modellen zijn duur en kunnen tientallen miljoenen dollars kosten als er tegelijkertijd honderden chips draaien. Ze hebben een grotere kans op hardware-geïnduceerde storingen, gezien hoe ingewikkeld het systeem is; Onderzoekers weten mogelijk pas de uiteindelijke prestaties van de modellen aan het einde van de run, wat maanden kan duren.
Grote taalmodellen slokken enorme hoeveelheden data op, terwijl AI-modellen alle gemakkelijk toegankelijke data ter wereld uitputten. Stroomtekorten hebben ook de trainingsruns belemmerd, omdat het proces enorme hoeveelheden energie vereist.
Tgeschatte tijd berekenen
Om deze uitdagingen het hoofd te bieden, onderzoeken onderzoekers ‘test-time compute’, een techniek die bestaande AI-modellen verbetert tijdens de zogenaamde ‘inferentiefase’, of wanneer het model wordt gebruikt.
Met deze methode kunnen modellen meer verwerkingskracht besteden aan uitdagende taken zoals wiskunde- of codeerproblemen of complexe bewerkingen die mensachtige redeneringen en besluitvorming vereisen.
Het nieuwe AI-model van OpenAI
OpenAI heeft deze techniek omarmd in hun nieuw uitgebrachte model dat bekend staat als “o1”, voorheen bekend als Q* en Strawberry. Het O1-model kan problemen in meerdere stappen ‘overdenken’, vergelijkbaar met menselijk redeneren. Het omvat ook het gebruik van gegevens en feedback afkomstig van PhD's en experts uit de industrie. Het geheime sausje van de o1-serie is nog een reeks trainingen die wordt uitgevoerd bovenop 'basis'-modellen zoals GPT-4, en het bedrijf zegt dat het van plan is deze techniek toe te passen op meer en grotere basismodellen.
Tegelijkertijd hebben onderzoekers van andere top-AI-laboratoria, van Anthropic, xAI en Google DeepMind, ook gewerkt aan de ontwikkeling van hun eigen versies van de techniek, volgens vijf mensen die bekend zijn met de inspanningen.
Google en xAI reageerden niet op verzoeken om commentaar en Anthropic had geen onmiddellijk commentaar.
Implicaties van het slimmere AI-model van OpenAI
De implicaties zouden het concurrentielandschap voor AI-hardware kunnen veranderen, dat tot nu toe werd gedomineerd door de onverzadigbare vraag naar Nvidia's AI-chips.
„Deze verschuiving zal ons van een wereld van enorme pre-training clusters naar inferentiewolken brengen, dit zijn gedistribueerde, cloudgebaseerde servers voor inferentie“, zegt Sonya Huang, een partner bij Sequoia Capita.
In tegenstelling tot trainingschips, waar Nvidia domineert, zou de chipgigant te maken kunnen krijgen met meer concurrentie op de inferentiemarkt.
Gevraagd naar de mogelijke impact op de vraag naar zijn producten, wees Nvidia op recente bedrijfspresentaties over het belang van de techniek achter het o1-model. CEO Jensen Huang heeft gesproken over de toenemende vraag naar het gebruik van zijn chips voor gevolgtrekking.