Gedanke Pokémon war ein harter Maßstab für KI? Eine Gruppe von Forschern argumentiert, dass Super Mario Bros. noch schwieriger ist.
Hao Ai Lab, eine Forschungsorganisation an der University of California San Diego, warf KI am Live -Super Mario Bros. -Spiele. Anthropics Claude 3.7 führte das Beste aus, gefolgt von Claude 3.5. Google Gemini 1.5 Pro und offen Gpt-4o kämpfte.
Es war nicht ganz die gleiche Version von Super Mario Bros. wie die ursprüngliche Veröffentlichung von 1985, um klar zu sein. Das Spiel lief in einem Emulator und integriert in ein Framework. Gamingagentum die AIS -Kontrolle über Mario zu geben.

Gamingagent, das Hao im eigenen Haus entwickelte, fütterte die AI-Grundanweisungen wie „Wenn ein Hindernis oder Feind in der Nähe ist, bewegen/springen Sie nach links, um auszuweichen“ und Screenshots im Spiel. Die KI generierte dann Eingänge in Form von Python -Code, um Mario zu steuern.
Dennoch sagt Hao, dass das Spiel jedes Modell dazu gezwungen hat, komplexe Manöver zu planen und Gameplay -Strategien zu entwickeln. Interessanterweise stellte das Labor fest, dass Argumentationsmodelle wie OpenAIs’s O1die Schritt für Schritt durch Probleme „denken“, um zu Lösungen zu gelangen, schlechter als „nicht ermächtigende“ Modelle, obwohl sie bei den meisten Benchmarks im Allgemeinen stärker waren.
Einer der Hauptgründe, warum die Begründung von Modellen Schwierigkeiten hat, solche Echtzeitspiele wie diese zu spielen, ist, dass sie eine Weile-normalerweise-in der Regel-laut den Forschern eine Weile dauern. In Super Mario Bros. ist das Timing alles. Eine Sekunde kann den Unterschied zwischen einem sicher geklärten Sprung und einem Rückgang bis zu Ihrem Tod bedeuten.
Spiele werden seit Jahrzehnten zur Benchmark -AI verwendet. Aber Einige Experten haben die Weisheit in Frage gestellt Verbindungen zwischen den Spielfähigkeiten von AI und dem technologischen Fortschritt. Im Gegensatz zur realen Welt sind Spiele tendenziell abstrakt und relativ einfach und bieten eine theoretisch unendliche Menge an Daten, um die KI zu trainieren.
Die jüngsten auffälligen Gaming -Benchmarks weisen darauf hin, wie Andrej Karpathy, ein Forschungswissenschaftler und Gründungsmitglied bei OpenAI, als „Evaluierungskrise“ bezeichnet wird.
“Ich weiß nicht wirklich, was (KI) Metriken jetzt betrachten soll”, schrieb er in einem Post auf x. “Meine Reaktion ist, dass ich nicht wirklich weiß, wie gut diese Modelle gerade sind.”
Zumindest können wir KI Mario spielen sehen.
Source link