Generative-AI-Unternehmen haben eine Erzählung von beispiellosen, endlosen Fortschritten verkauft. Erst letzte Woche Openai eingeführt GPT-4,5 als „bisher bestes und bestes Modell für Chat“. Anfang Februar Google angerufen Die neueste Version von Gemini „The World’s Best AI Model“. Und im Januar die chinesische Firma Deekseek angepriesen Sein R1 -Modell ist genauso mächtig wie das O1 -Modell von Openai – das Sam Altman hatte angerufen “Das intelligenteste Modell der Welt” im Vormonat.
Es gibt jedoch zunehmende Beweise dafür Fortschritt Ist Verlangsamung runter und dass der LLM-Anbieter Chatbot möglicherweise bereits in der Nähe seines Höhepunkts liegt. Dies ist beunruhigend, da das Versprechen des Aufstiegs zu einem geworden ist Politikum; Massive Beträge an Land, Macht und Geld wurden vorgesehen, um die Technologie voranzutreiben. Wie viel verbessert es sich tatsächlich? Wie viel besser kann es bekommen? Dies sind wichtige Fragen, und sie sind fast unmöglich zu beantworten, da die Tests, die den KI -Fortschritt messen, nicht funktionieren. (Der Atlantik trat im Jahr 2024 eine Unternehmenspartnerschaft mit OpenAI ein. Die Redaktionsabteilung von Der Atlantik arbeitet unabhängig von der Geschäftsabteilung.)
Im Gegensatz zu herkömmlichen Computerprogrammen soll generative KI nicht genaue Antworten auf bestimmte Fragen ergeben, sondern verallgemeinern. Ein Chatbot muss in der Lage sein, Fragen zu beantworten, die er nicht speziell für die Beantwortung ausgebildet hat, wie ein menschlicher Schüler, der nicht nur die Tatsache erfährt, dass 2 x 3 = 6, sondern auch, wie man zwei Zahlen multipliziert. Ein Modell, das dies nicht kann, wäre nicht in der Lage, „zu argumentieren“ oder sinnvolle Beiträge zur Wissenschaft zu leisten, wie KI -Unternehmen versprechen. Die Verallgemeinerung kann schwierig zu messen sein, und schwieriger beweist immer noch, dass ein Modell besser wird. Um den Erfolg ihrer Arbeit zu messen, zitieren Unternehmen bei der Veröffentlichung eines neuen Modells Branchenstandard-Benchmark-Tests. Die Tests enthalten angeblich Fragen, die die Modelle nicht gesehen haben, und zeigen, dass sie sich nicht einfach Fakten auswendig lernen.
In den letzten zwei Jahren haben Forscher jedoch veröffentlicht Studien Und Experimente Zeigen Sie, dass Chatgpt, Deepseek, Lama, Mistral, Googles Gemma (die “Open-Access” Cousin seines Gemini -Produkts), Microsoft Phi und Alibabas Qwen wurden nach dem Text der beliebten Benchmark -Tests geschult. Die Legitimität ihrer Punktzahlen verdorben. Stellen Sie sich es wie einen menschlichen Schüler vor, der einen Mathe -Test stiehlt und auswendig lernt und seinen Lehrer dazu täuscht, zu denken, er habe gelernt, wie man eine lange Spaltung macht.
Das Problem wird als Benchmark -Kontamination bezeichnet. Es ist so weit verbreitet, dass ein Branchen -Newsletter im Oktober zu dem Schluss kam, dass “Benchmark -Tests sind bedeutungslos. ““ Trotzdem trotz wie gegründet Das Problem ist, dass KI -Unternehmen diese Tests immer wieder als Hauptindikatoren für den Fortschritt zitieren. (Ein Sprecher von Google Deepmind sagte mir, dass das Unternehmen das Problem ernst nimmt und ständig nach neuen Möglichkeiten sucht, seine Modelle zu bewerten. Kein in diesem Artikel erwähntes Unternehmen hat zu diesem Thema kommentiert.)
Benchmark -Kontamination ist nicht unbedingt beabsichtigt. Die meisten Benchmarks werden im Internet veröffentlicht, und Modelle werden auf großen Textschwaden geschult, die aus dem Internet geerntet werden. Trainingsdatensätze enthalten in der Tat so viel Text, dass das Finden und Filtern der Benchmarks ist extrem schwierig. Als Microsoft im Dezember ein neues Sprachmodell auf den Markt brachte, hat ein Forscher im Team prahlte Über „aggressiv“, um Benchmarks in seinen Trainingsdaten auszurotten – können Sie die begleitende technische des Modells ausführen Bericht gab zu, dass die Methoden des Teams „nicht gegen alle Szenarien wirksam“ waren.
Eines der am häufigsten zitierten Benchmarks wird als massives Multitasking -Sprachverständnis bezeichnet. Es besteht aus rund 16.000 Multiple-Choice-Fragen, die abdecken 57 Themeneinschließlich Anatomie, Philosophie, Marketing, Ernährung, Religion, Mathematik und Programmierung. Im vergangenen Jahr, OpenaiAnwesend GoogleAnwesend MicrosoftAnwesend MetaUnd Deepseek Haben alle die Ergebnisse ihrer Modelle auf MMLU beworben, und dennoch haben Forscher gezeigt, dass Modelle aus all diesen Unternehmen in ihren Fragen geschult wurden.
Woher wissen Forscher, dass „geschlossene“ Modelle wie OpenAI auf Benchmarks geschult wurden? Ihre Techniken sind klug und zeigen interessante Dinge darüber, wie große Sprachmodelle funktionieren.
Ein Forschungsteam nahm Fragen von MMLU und stellte gefragt Chatgpt nicht für die richtigen Antworten, sondern für eine bestimmte falsch Multiple-Choice-Option. Chatgpt konnte in 57 Prozent der Fälle den genauen Text mit falschen Antworten auf MMLU liefern, was es wahrscheinlich nicht tun konnte, wenn es auf dem Test geschult wurde, da die Optionen aus einer unendlichen Anzahl falscher Antworten ausgewählt werden.
Ein weiteres Forscherteam der Microsoft und der Xiamen University in China, untersucht Die Leistung von GPT-4 bei Fragen aus Programmierwettbewerben, die auf dem gehostet werden Codeforces Webseite. Die Wettbewerbe gelten weithin als eine Möglichkeit für Programmierer, ihre Fähigkeiten zu schärfen. Wie hat GPT-4? Bei Fragen, die vor September 2021 online veröffentlicht wurden, wurden zu Fragen zu Fragen nach diesem Datum getankt. Diese Version von GPT-4 war trainiert Nur zu Daten von vor September 2021, die die Forscher dazu veranlassten, nach Angaben der Forscher die Fragen auswendig gelernt und „Zweifel an ihren tatsächlichen Argumentationsfähigkeiten aufzunehmen“. Wenn Sie diese Hypothese mehr unterstützen, haben andere Forscher gezeigt, dass die Leistung von GPT-4 zu Codierungsfragen ist Besser für Fragen, die häufiger im Internet erscheinen. (Je öfter ein Modell den gleichen Text sieht, desto wahrscheinlicher ist es, es zu merken.)
Kann das Problem der Benchmark-Kontamination gelöst werden? Einige Vorschläge wurden von KI -Unternehmen und unabhängigen Forschern gemacht. Einer ist zu Aktualisieren Sie die Benchmarks ständig mit Fragen basierend auf neuen Informationsquellen. Dies könnte verhindern, dass Antworten in Trainingsdaten erscheinen, aber es bricht auch das Konzept eines Benchmarks: Ein Standardtest, der konsistente, stabile Ergebnisse für Vergleichszwecke liefert. Ein weiterer Ansatz wird von einer Website mit dem Titel ” Chatbot Arenawas LLMs gegeneinander anpasst, den Gladiatorenstil und die Benutzer auswählen, welches Modell die besseren Antworten auf ihre Fragen gibt. Dieser Ansatz ist immun gegen Kontaminationsbedenken, aber er ist subjektiv und ähnlich instabil. Andere haben die Verwendung eines LLM vorgeschlagen Richter die Leistung eines anderen, ein Prozess, der ist nicht ganz zuverlässig. Keine dieser Methoden liefert selbstbewusste Messungen der Verallgemeinerungsfähigkeit von LLMs.
Obwohl KI -Unternehmen angefangen haben zu reden “Argumentationsmodelle„Die Technologie ist weitgehend die gleiche wie sie, als Chatgpt im November 2022 veröffentlicht wurde. Mit ungezwungener Verwendung scheint Chatgpt die Antworten auf Ihre Fragen zu „herausfinden“. Aber ist das, was passiert, oder ist es nur sehr schwer, Fragen zu stellen, die sich nicht in den unergründlichen massiven Trainingskorpora befinden?
In der Zwischenzeit läuft die KI -Industrie am roten in das Rot. KI -Unternehmen müssen noch herausfinden, wie sie aus dem Aufbau von Stiftungsmodellen profitieren können. Sie könnten eine gute Geschichte über den Fortschritt verwenden.
Source link