Wereldmodellen, ook wel wereldsimulators genoemd, worden door sommigen aangeprezen als het volgende grote ding in AI.
AI-pionier Fei-Fei Li's Wereldlaboratoria heeft 230 miljoen dollar opgehaald om ‘grote wereldmodellen’ en DeepMind te bouwen ingehuurd een van de makers van OpenAI's videogenerator, Soraom te werken aan ‘wereldsimulators’.
Maar wat maakt het uit Zijn deze dingen?
Wereldmodellen zijn geïnspireerd op de mentale modellen van de wereld die mensen op natuurlijke wijze ontwikkelen. Onze hersenen nemen de abstracte representaties van onze zintuigen en vormen deze om tot een concreter begrip van de wereld om ons heen, en produceren wat we ‘modellen’ noemden lang voordat AI deze term adopteerde. De voorspellingen die onze hersenen op basis van deze modellen maken, beïnvloeden hoe we de wereld waarnemen.
A papier van AI-onderzoekers David Ha en Jurgen Schmidhuber geeft het voorbeeld van een honkbalslagman. Slagmensen hebben milliseconden om te beslissen hoe ze hun knuppel moeten zwaaien – korter dan de tijd die visuele signalen nodig hebben om de hersenen te bereiken. De reden dat ze een fastball van 160 kilometer per uur kunnen slaan, is omdat ze instinctief kunnen voorspellen waar de bal naartoe zal gaan, zeggen Ha en Schmidhuber.
“Voor professionele spelers gebeurt dit allemaal onbewust”, schrijft het onderzoeksduo. “Hun spieren zwaaien de knuppel reflexmatig op het juiste moment en op de juiste locatie, in overeenstemming met de voorspellingen van hun interne modellen. Ze kunnen snel handelen naar hun toekomstvoorspellingen, zonder dat ze bewust mogelijke toekomstscenario’s hoeven uit te rollen om een plan te vormen.”
Het zijn deze onbewuste redeneeraspecten van wereldmodellen die volgens sommigen een voorwaarde zijn voor intelligentie op menselijk niveau.
Het modelleren van de wereld
Hoewel het concept al tientallen jaren bestaat, hebben wereldmodellen de laatste tijd aan populariteit gewonnen, deels vanwege hun veelbelovende toepassingen op het gebied van generatieve video.
De meeste, zo niet alle, door AI gegenereerde video's begeven zich naar griezelig valleigebied. Houd ze lang genoeg in de gaten en zo bizar zal gebeuren, zoals ledematen die draaien en in elkaar overgaan.
Hoewel een generatief model dat is getraind op basis van jarenlang videomateriaal nauwkeurig kan voorspellen dat een basketbal stuitert, heeft het eigenlijk geen idee waarom – net zoals taalmodellen de concepten achter woorden en zinsdelen niet echt begrijpen. Maar een wereldmodel dat ook maar enigszins begrijpt waarom de basketbal zo stuitert, zal beter kunnen laten zien dat hij dat doet.
Om dit soort inzicht mogelijk te maken, worden wereldmodellen getraind op een reeks gegevens, waaronder foto's, audio, video's en tekst, met de bedoeling interne representaties te creëren van hoe de wereld werkt, en het vermogen te redeneren over de gevolgen van acties. .
“Een kijker verwacht dat de wereld waarnaar hij kijkt zich op een vergelijkbare manier gedraagt als zijn realiteit”, zei Mashrabov. “Als een veer valt met het gewicht van een aambeeld of een bowlingbal honderden meters de lucht in schiet, is dat schokkend en haalt de kijker uit het moment. Met een sterk wereldmodel zal het model dit begrijpen, in plaats van dat een schepper definieert hoe elk object naar verwachting zal bewegen – wat vervelend, omslachtig en slecht tijdsgebruik is.”
Maar betere videogeneratie is slechts het topje van de ijsberg voor wereldmodellen. Onderzoekers, waaronder Yann LeCun, hoofd AI-wetenschapper van Meta, zeggen dat de modellen ooit kunnen worden gebruikt voor geavanceerde prognoses en planning in zowel het digitale als het fysieke domein.
In een gesprek eerder dit jaar beschreef LeCun hoe een wereldmodel zou kunnen helpen een gewenst doel te bereiken door middel van redenering. Een model met een basisrepresentatie van een “wereld” (bijvoorbeeld een video van een vuile kamer), gegeven een doel (een schone kamer), zou een reeks acties kunnen bedenken om dat doel te bereiken (stofzuigers inzetten om te vegen, de ruimte schoon te maken) afwassen, de prullenbak legen) niet omdat het een patroon is dat het heeft waargenomen, maar omdat het op een dieper niveau weet hoe het van vies naar schoon moet gaan.
“We hebben machines nodig die de wereld begrijpen; (machines) die dingen kunnen onthouden, die intuïtie hebben, gezond verstand hebben – dingen die kunnen redeneren en plannen op hetzelfde niveau als mensen, ‘zei LeCun. “Ondanks wat je misschien hebt gehoord van enkele van de meest enthousiaste mensen, zijn de huidige AI-systemen daartoe niet in staat.”
Hoewel LeCun schat dat we minstens tien jaar verwijderd zijn van de wereldmodellen die hij voor ogen heeft, zijn de huidige wereldmodellen veelbelovend als elementaire natuurkundige simulatoren.
OpenAI merkt in een blog op dat Sora, die het beschouwt als een wereldmodel, acties kan simuleren zoals een schilder die penseelstreken achterlaat op een canvas. Modellen als Sora — en Sora zelf – kan ook effectief simuleren video spellen. Sora kan bijvoorbeeld een Minecraft-achtige gebruikersinterface en gamewereld weergeven.
Toekomstige wereldmodellen kunnen mogelijk op aanvraag 3D-werelden genereren voor gaming, virtuele fotografie en meer, zei Justin Johnson, medeoprichter van World Labs, op een aflevering van de a16z-podcast.
“We hebben al de mogelijkheid om virtuele, interactieve werelden te creëren, maar het kost honderden en honderden miljoenen dollars en een hoop ontwikkelingstijd”, aldus Johnson. “Met (Wereldmodellen) kun je niet alleen een afbeelding of een fragment eruit halen, maar een volledig gesimuleerde, levendige en interactieve 3D-wereld.”
Hoge hindernissen
Hoewel het concept aanlokkelijk is, staan er veel technische uitdagingen in de weg.
Het trainen en uitvoeren van wereldmodellen vereist enorme rekenkracht, zelfs vergeleken met de hoeveelheid die momenteel door generatieve modellen wordt gebruikt. Terwijl sommige van de nieuwste taalmodellen op een moderne smartphone kunnen draaien, zou Sora (waarschijnlijk een model uit de vroege wereld) duizenden GPU's nodig hebben om te trainen en te gebruiken, vooral als het gebruik ervan gemeengoed wordt.
Wereldmodellen, zoals alle AI-modellen ook hallucineren – en vooroordelen in hun trainingsgegevens internaliseren. Een wereldmodel dat grotendeels is getraind op video's van zonnig weer in Europese steden, zou bijvoorbeeld moeite kunnen hebben om Koreaanse steden in sneeuwomstandigheden te begrijpen of weer te geven, of dit simpelweg verkeerd doen.
Een algemeen gebrek aan trainingsgegevens dreigt deze problemen te verergeren, zegt Mashrabov.
“We hebben gezien dat modellen echt beperkt waren bij generaties mensen van een bepaald type of ras,” zei hij. “Trainingsgegevens voor een wereldmodel moeten breed genoeg zijn om een diverse reeks scenario’s te bestrijken, maar ook zeer specifiek voor waar de AI de nuances van die scenario’s diepgaand kan begrijpen.”
In een recente naDe CEO van AI-startup Runway, Cristóbal Valenzuela, zegt dat data- en technische problemen voorkomen dat de huidige modellen het gedrag van de bewoners van een wereld (bijvoorbeeld mensen en dieren) nauwkeurig kunnen vastleggen. “Modellen zullen consistente kaarten van de omgeving moeten genereren,” zei hij, “en de mogelijkheid om in die omgevingen te navigeren en ermee te communiceren.”
Als alle grote hindernissen echter worden overwonnen, gelooft Mashrabov dat wereldmodellen AI ‘robuuster’ kunnen overbruggen met de echte wereld – wat niet alleen tot doorbraken kan leiden op het gebied van het genereren van virtuele werelden, maar ook op het gebied van robotica en AI-besluitvorming.
Ze zouden ook capabelere robots kunnen voortbrengen.
Robots zijn tegenwoordig beperkt in wat ze kunnen doen, omdat ze zich niet bewust zijn van de wereld om hen heen (of van hun eigen lichaam). Wereldmodellen zouden hen dat bewustzijn kunnen geven, zei Mashrabov – althans tot op zekere hoogte.
“Met een geavanceerd wereldmodel zou een AI een persoonlijk begrip kunnen ontwikkelen van welk scenario dan ook waarin hij zich bevindt,” zei hij, “en mogelijke oplossingen kunnen beredeneren.”