Will Smith eet spaghetti en andere rare AI-benchmarks die in 2024 van start gingen


Wanneer een bedrijf een nieuwe AI-videogenerator uitbrengt, duurt het niet lang voordat iemand deze gebruikt om een ​​video te maken waarin acteur Will Smith spaghetti eet.

Het is zowel een meme als een benchmark geworden: kijken of een nieuwe videogenerator op realistische wijze Smith een kom noedels naar binnen kan slurpen. Smit zelf geparodieerd de trend in een Instagram-post in februari.

Will Smith en pasta is slechts een van de vele bizarre ‘onofficiële’ benchmarks om de AI-gemeenschap in 2024 stormenderhand te veroveren. Een 16-jarige ontwikkelaar bouwde een app die AI controle geeft over Minecraft en het vermogen ervan test om structuren te ontwerpen. Elders creëerde een Britse programmeur een platform waarop AI games als Pictionary en Connect 4 tegen elkaar speelt.

Het is niet zo dat er niet meer academische tests zijn voor de prestaties van een AI. Dus waarom zijn de vreemdere ontploft?

LLM Pictionarium
Beeldcredits:Paul Calcraft

Ten eerste vertellen veel van de industriestandaard AI-benchmarks de gemiddelde persoon niet veel. Bedrijven noemen vaak het vermogen van hun AI om vragen over Wiskundeolympiade-examens te beantwoorden, of plausibele oplossingen te bedenken voor problemen op PhD-niveau. Toch gebruiken de meeste mensen – inclusief die van jou – chatbots voor zaken als reageren op e-mails en fundamenteel onderzoek.

Crowdsourced sectormaatregelen zijn niet noodzakelijkerwijs beter of informatiever.

Neem bijvoorbeeld Chatbot-arenaeen openbare benchmark die veel AI-enthousiastelingen en ontwikkelaars obsessief volgen. Met Chatbot Arena kan iedereen op internet beoordelen hoe goed AI presteert bij bepaalde taken, zoals het maken van een webapp of het genereren van een afbeelding. Maar beoordelaars zijn doorgaans niet representatief – de meesten komen uit kringen van de AI- en technologie-industrie – en brengen hun stem uit op basis van persoonlijke, moeilijk vast te stellen voorkeuren.

LMSYS
De Chatbot Arena-interface.Beeldcredits:LMSYS

Ethan Mollick, een professor in management aan Wharton, wees er onlangs op in een na op X nog een probleem met veel benchmarks uit de AI-industrie: ze vergelijken de prestaties van een systeem niet met die van de gemiddelde persoon.

“Het feit dat er geen 30 verschillende benchmarks zijn van verschillende organisaties op het gebied van de geneeskunde, de wet, de kwaliteit van advies, enzovoort, is echt jammer, aangezien mensen hoe dan ook systemen voor deze dingen gebruiken”, schreef Mollick.

Vreemde AI-benchmarks zoals Connect 4, Minecraft en Will Smith die spaghetti eet, zijn dat zeker niet empirisch – of zelfs zo generaliseerbaar. Het feit dat een AI de Will Smith-test doorstaat, betekent niet dat het bijvoorbeeld een hamburger goed zal opleveren.

Mcbench
Let op de typefout; er bestaat niet zo’n model als de Claude 3.6 Sonnet.Beeldcredits:Adonis Singh

Een expert met wie ik sprak over AI-benchmarks suggereerde dat de AI-gemeenschap zich zou concentreren op de downstream-effecten van AI in plaats van op de mogelijkheden ervan in beperkte domeinen. Dat is verstandig. Maar ik heb het gevoel dat rare benchmarks niet snel zullen verdwijnen. Ze zijn niet alleen vermakelijk: wie houdt er niet van om AI Minecraft-kastelen te zien bouwen? – maar ze zijn gemakkelijk te begrijpen. En zoals mijn collega Max Zeff onlangs over schreefblijft de industrie worstelen met het distilleren van een technologie die zo complex is als AI in verteerbare marketing.

De enige vraag die bij mij opkomt is: welke vreemde nieuwe benchmarks zullen in 2025 viraal gaan?

TechCrunch heeft een AI-gerichte nieuwsbrief! Meld u hier aan om hem elke woensdag in je inbox te ontvangen.





Source link