MIT deze week een nieuw model tentoongesteld voor het trainen van robots. In plaats van de standaardset van gerichte gegevens die worden gebruikt om robots nieuwe taken te leren, wordt de methode groots aangepakt en wordt de enorme schat aan informatie nagebootst die wordt gebruikt om grote taalmodellen (LLM's) te trainen.
De onderzoekers merken op dat imitatieleren – waarbij de agent leert door een individu te volgen dat een taak uitvoert – kan mislukken als er kleine uitdagingen worden geïntroduceerd. Dit kunnen zaken zijn als verlichting, een andere setting of nieuwe obstakels. In die scenario's beschikken de robots eenvoudigweg niet over voldoende gegevens om zich aan te passen.
Het team keek naar modellen als GPT-4 voor een soort brute force data-aanpak voor het oplossen van problemen.
“In het taaldomein bestaan de gegevens allemaal uit zinnen”, zegt Lirui Wang, hoofdauteur van het nieuwe artikel. “Als je in de robotica op een vergelijkbare manier wilt voortrainen, hebben we, gezien alle heterogeniteit in de data, een andere architectuur nodig.”
Het team introduceerde een nieuwe architectuur genaamd Heterogeneous Pretrained Transformers (HPT), die informatie van verschillende sensoren en verschillende omgevingen samenbrengt. Vervolgens werd een transformator gebruikt om de gegevens samen te voegen tot trainingsmodellen. Hoe groter de transformator, hoe beter de output.
Gebruikers voeren vervolgens het robotontwerp, de configuratie en de taak in die ze willen uitvoeren.
“Onze droom is om een universeel robotbrein te hebben dat je zonder enige training voor je robot kunt downloaden en gebruiken”, zegt CMU-universitair hoofddocent David Held over het onderzoek. “Hoewel we ons nog maar in de beginfase bevinden, zullen we hard blijven pushen en hopen dat schaalvergroting leidt tot een doorbraak in het robotbeleid, zoals dat gebeurde met grote taalmodellen.”
Het onderzoek werd gedeeltelijk opgericht door het Toyota Research Institute. Vorig jaar bij TechCrunch Disrupt, TRI debuteerde met een methode om robots van de ene op de andere dag te trainen. Meer recentelijk heeft het een keerpuntpartnerschap bereikt dat dat wel zal doen zijn robotleeronderzoek verenigen met Boston Dynamics-hardware.