De nieuwe advertentie van OpenAI toont ‚redenerende‘ AI die basisfouten maakt


OpenAI heeft donderdag zijn meest geavanceerde AI-model tot nu toe uitgebracht, genaamd o1, voor betalende gebruikers. De lancering was het startsein voor de “12 dagen OpenAI‚-evenement – een tiental opeenvolgende releases om de feestdagen te vieren.

OpenAI heeft de ‚complexe redeneermogelijkheden‘ van o1 aangeprezen en donderdag aangekondigd dat onbeperkte toegang tot het model $200 per maand zou kosten. In de video het bedrijf heeft vrijgegeven om de sterke punten van het model te laten zien, een gebruiker uploadt een foto van een houten vogelhuisje en vraagt ​​het model om advies over hoe je een soortgelijk exemplaar kunt bouwen. Het model ‘denkt’ een korte periode na en spuugt dan wat op het eerste gezicht een uitgebreide reeks instructies lijkt te zijn.

Bij nader onderzoek blijkt dat de instructies vrijwel nutteloos zijn. De AI meet de hoeveelheid verf, lijm en kit die nodig is voor de taak in inches. Het vermeldt alleen de afmetingen van het voorpaneel van het vogelhuisje, en geen andere. Het raadt aan om zonder duidelijke reden een stuk schuurpapier in een andere reeks afmetingen te snijden. En in een apart deel van de lijst met instructies staat „de exacte afmetingen zijn als volgt…“ en gaat vervolgens verder met het geven van geen exacte afmetingen.

De AI-assistent biedt slechts afmetingen voor één houten paneel. Het meet ook de benodigde hoeveelheden verf, lijm en kit in inches, wanneer het allemaal vloeistoffen zijn.Open AI, via X

“Je zou op basis van de afbeelding net zoveel weten over het bouwen van het vogelhuisje als over de tekst, wat het hele doel van de AI-tool tenietdoet”, zegt James Filus, directeur van het Institute of Carpenters, een in Groot-Brittannië gevestigde handelsorganisatie. lichaam, in een e-mail. Hij merkt op dat de lijst met materialen spijkers bevat, maar dat de lijst met benodigde gereedschappen geen hamer bevat, en dat de kosten voor het bouwen van het eenvoudige vogelhuisje “nergens in de buurt” van de $ 20-50 zouden liggen die door o1 wordt geschat. “Door simpelweg te zeggen ‘installeer een klein scharnier’, wordt niet echt het meest complexe deel van het ontwerp gedekt,” voegt hij eraan toe, verwijzend naar een ander deel van de video dat beweert uit te leggen hoe je een open dak aan het vogelhuisje kunt toevoegen.

OpenAI reageerde niet onmiddellijk op een verzoek om commentaar.

Het is slechts het nieuwste voorbeeld van een AI-productdemo die het tegenovergestelde doet van het beoogde doel. Vorig jaar, een Google-advertentie want een door AI ondersteund zoekhulpmiddel zei ten onrechte dat de James Webb-telescoop een ontdekking had gedaan die hij niet had gedaan, een blunder die de aandelenkoers van het bedrijf deed kelderen. Meer recentelijk is er een bijgewerkte versie van een vergelijkbare Google-tool verschenen vertelde vroege gebruikers dat het veilig was om stenen te etenen dat ze lijm konden gebruiken om kaas op hun pizza te plakken.

De AI-assistent zegt „de exacte afmetingen zijn als volgt“, en geeft vervolgens geen afmetingen op.Open AI, via X

OpenAI’s o1, dat volgens openbare benchmarks het meest capabele model tot nu toe is, hanteert een andere benadering dan ChatGPT voor het beantwoorden van vragen. Het is in wezen nog steeds een zeer geavanceerde voorspeller van het volgende woord, getraind met behulp van machinaal leren op miljarden woorden tekst van internet en daarbuiten. Maar in plaats van onmiddellijk woorden uit te spugen als reactie op een prompt, gebruikt het een techniek die ‚gedachteketen‘-redenering wordt genoemd, om achter de schermen in essentie een tijdje over een antwoord te ‚denken‘, en pas daarna het antwoord te geven. Deze techniek levert vaak nauwkeurigere antwoorden op dan wanneer een model reflexmatig een antwoord uitspuugt, en OpenAI heeft de redeneermogelijkheden van o1 aangeprezen, vooral als het gaat om wiskunde en coderen. Volgens gegevens van OpenAI kan het 78% van de wetenschappelijke vragen op PhD-niveau nauwkeurig beantwoorden gepubliceerd naast een previewversie van het model die in september werd uitgebracht.

Maar het is duidelijk dat er nog steeds fundamentele logische fouten doorheen kunnen glippen.



Source link