Will Smith eet spaghetti en andere rare AI-benchmarks die in 2024 van start gingen

Rob Stolman Januarie 1, 2025

0 2 minutes read

Will Smith eet spaghetti en andere rare AI-benchmarks die in 2024 van start gingen

Wanneer een bedrijf een nieuwe AI-videogenerator uitbrengt, duurt het niet lang voordat iemand deze gebruikt om een video te maken waarin acteur Will Smith spaghetti eet.

Het is zowel een meme als een benchmark geworden: kijken of een nieuwe videogenerator op realistische wijze Smith een kom noedels naar binnen kan slurpen. Smit zelf geparodieerd de trend in een Instagram-post in februari.

Google Veo 2 heeft het gedaan.

We eten nu eindelijk spaghetti. pic.twitter.com/AZO81w8JC0

— Jerrod Lew (@jerrod_lew) 17 december 2024

Will Smith en pasta is slechts een van de vele bizarre ‘onofficiële’ benchmarks om de AI-gemeenschap in 2024 stormenderhand te veroveren. Een 16-jarige ontwikkelaar bouwde een app die AI controle geeft over Minecraft en het vermogen ervan test om structuren te ontwerpen. Elders creëerde een Britse programmeur een platform waarop AI games als Pictionary en Connect 4 tegen elkaar speelt.

Het is niet zo dat er niet meer academische tests zijn voor de prestaties van een AI. Dus waarom zijn de vreemdere ontploft?

LLM Pictionarium — **Beeldcredits:**Paul Calcraft

Ten eerste vertellen veel van de industriestandaard AI-benchmarks de gemiddelde persoon niet veel. Bedrijven noemen vaak het vermogen van hun AI om vragen over Wiskundeolympiade-examens te beantwoorden, of plausibele oplossingen te bedenken voor problemen op PhD-niveau. Toch gebruiken de meeste mensen – inclusief die van jou – chatbots voor zaken als reageren op e-mails en fundamenteel onderzoek.

Crowdsourced sectormaatregelen zijn niet noodzakelijkerwijs beter of informatiever.

Neem bijvoorbeeld Chatbot-arenaeen openbare benchmark die veel AI-enthousiastelingen en ontwikkelaars obsessief volgen. Met Chatbot Arena kan iedereen op internet beoordelen hoe goed AI presteert bij bepaalde taken, zoals het maken van een webapp of het genereren van een afbeelding. Maar beoordelaars zijn doorgaans niet representatief – de meesten komen uit kringen van de AI- en technologie-industrie – en brengen hun stem uit op basis van persoonlijke, moeilijk vast te stellen voorkeuren.

De Chatbot Arena-interface.Beeldcredits:LMSYS

Ethan Mollick, een professor in management aan Wharton, wees er onlangs op in een na op X nog een probleem met veel benchmarks uit de AI-industrie: ze vergelijken de prestaties van een systeem niet met die van de gemiddelde persoon.

“Het feit dat er geen 30 verschillende benchmarks zijn van verschillende organisaties op het gebied van de geneeskunde, de wet, de kwaliteit van advies, enzovoort, is echt jammer, aangezien mensen hoe dan ook systemen voor deze dingen gebruiken”, schreef Mollick.

Vreemde AI-benchmarks zoals Connect 4, Minecraft en Will Smith die spaghetti eet, zijn dat zeker niet empirisch – of zelfs zo generaliseerbaar. Het feit dat een AI de Will Smith-test doorstaat, betekent niet dat het bijvoorbeeld een hamburger goed zal opleveren.

Mcbench — Let op de typefout; er bestaat niet zo’n model als de Claude 3.6 Sonnet.Beeldcredits:Adonis Singh

Een expert met wie ik sprak over AI-benchmarks suggereerde dat de AI-gemeenschap zich zou concentreren op de downstream-effecten van AI in plaats van op de mogelijkheden ervan in beperkte domeinen. Dat is verstandig. Maar ik heb het gevoel dat rare benchmarks niet snel zullen verdwijnen. Ze zijn niet alleen vermakelijk: wie houdt er niet van om AI Minecraft-kastelen te zien bouwen? – maar ze zijn gemakkelijk te begrijpen. En zoals mijn collega Max Zeff onlangs over schreefblijft de industrie worstelen met het distilleren van een technologie die zo complex is als AI in verteerbare marketing.

De enige vraag die bij mij opkomt is: welke vreemde nieuwe benchmarks zullen in 2025 viraal gaan?

TechCrunch heeft een AI-gerichte nieuwsbrief! Meld u hier aan om hem elke woensdag in je inbox te ontvangen.

Source link

Rob Stolman Januarie 1, 2025

0 2 minutes read

Will Smith eet spaghetti en andere rare AI-benchmarks die in 2024 van start gingen

Rob Stolman

'Dit is het feit van het Amerikaanse leven na Roe'

Michael Irvin reageert op de Dallas Cowboys die Brian Schottenheimer overwegen als hoofdtrainer | Spreken

Beslissingen over MLB-contractopties: Clayton Kershaw van Dodgers kiest voor free agency, Braves behoudt Marcell Ozuna

Huawei verlaagt de prijzen van verschillende high-end apparaten

Was Sie über die Petenuffik -Weltraumbasis des US -Militärs in Grönland wissen sollten

Cariuma OCA Low Premium Leder -Sneaker

Rob Stolman

Subscribe to our mailing list to get the new updates!

Terugkijkend op de topverhalen in de sport van Ventura County voor 2024

Biden verlaat het Witte Huis met twee totaal verschillende erfenissen

Related Articles

Appleton Area High School Sports Ergebnisse für Samstag, 26. April

Man United kann wiederhergestellt werden. Schauen Sie sich nur die Geschichte der Premier League an – Ruben Amorim

Jordan Ta’amu trifft Cornell Powell auf einem 37-Yard-TD, um den Verteidigern zu helfen

Manchester City Show Hinweise auf Wiederbelebung nach Guardiola Masterclass | FA Cup