Wenn die KI denkt, dass es verliert, betrügt es manchmal, studiert Studie


COmplex -Spiele wie Schach und Gehen werden seit langem verwendet, um die Funktionen der KI -Modelle zu testen. Aber während IBMs Deep Blue Blue besiegte den amtierenden Weltschachmeister Garry Kasparov in den neunziger Jahren, indem sie nach den Regeln spielten, sind die heutigen fortgeschrittenen KI-Modelle wie OpenAs O1-Vorsicht weniger gewissenhaft. Wenn sie eine Niederlage in einem Match gegen einen erfahrenen Schachbot spüren, geben sie sich nicht immer ein, sondern sich manchmal für das Betrügen, indem sie ihren Gegner hackt, damit der Bot das Spiel automatisch verliebt. Dies ist die Feststellung einer neuen Studie aus Palisade Research, die ausschließlich mit der Zeit vor ihrer Veröffentlichung am 19. Februar teilnahm. die sieben hochmoderne KI-Modelle für ihre Neigung zum Hacken bewertete. Während etwas ältere KI-Modelle wie OpenAIs GPT-4O und Anthropics Claude Sonnet 3.5 von Forschern dazu veranlasst werden mussten, solche Tricks zu versuchen, O1-Vorsicht und Deepseek R1 verfolgte den Exploit alleine, was darauf hinweist, dass KI -Systeme ohne explizite Unterricht irreführende oder manipulative Strategien entwickeln können.

Die verbesserte Fähigkeit der Modelle, Cybersicherheits -Lücken zu entdecken und zu nutzen, können laut Forschern ein direktes Ergebnis von leistungsstarken neuen Innovationen im KI -Training sein. Das O1-Präview- und R1-KI-System gehören zu den Erster Sprachmodellen, um das Lernen von Verstärkern mit großem Maßstab zu verwenden, eine Technik, die KI nicht nur dazu lehrt, die menschliche Sprache nachzuahmen, indem sie das nächste Wort vorhergesagt, sondern durch Probleme mit Versuch und Irrtum. Es ist ein Ansatz, bei dem KI in den letzten Monaten rasch Fortschritte verzeichnet hat und früher erschütterte Benchmarks in Mathematik und Computercodierung. Die Studie zeigt jedoch einen besorgten Trend: Während diese KI-Systeme das Problem lösen, entdecken sie manchmal fragwürdige Abkürzungen und unbeabsichtigte Problemumgehungen, die ihre Schöpfer nie erwartet haben, sagt Jeffrey Ladish, Geschäftsführer bei Palisade Research und einer der Autoren der Studie. „Wenn Sie Modelle trainieren und sie für die Lösung schwieriger Herausforderungen verstärken, schulen Sie sie so, dass Sie unerbittlich sind“, fügt er hinzu.

Das könnten schlechte Nachrichten für die KI -Sicherheit im weiteren Sinne sein. Großes Verstärkungslernen ist bereits zum Ausbilden von KI-Agenten verwendet werden: Systeme, die komplexe reale Aufgaben wie Planen von Terminen oder Einkäufe in Ihrem Namen erledigen können. Während das Betrügen eines Schachspiels trivial erscheinen mag, wenn Agenten in die reale Welt entlassen werden, könnten solche entschlossenen Ziele unbeabsichtigte und potenziell schädliche Verhaltensweisen fördern. Betrachten Sie die Aufgabe, das Abendessen Reservierungen zu buchen: Angesichts eines vollständigen Restaurants könnte ein KI -Assistent Schwächen im Buchungssystem ausnutzen, um andere Gäste zu verdrängen. Vielleicht besorgniserregender, da diese Systeme die Fähigkeiten der Menschen in Schlüsselbereichen wie Computercodierung übertreffen, bei denen das neueste O3 -Modell von OpenAs jetzt der 197. der Welt entspricht, die gegen die klügsten menschlichen Programmierer konkurrieren -, könnten sie beginnen, die menschlichen Anstrengungen einfach auszuschalten, um ihre Handlungen zu kontrollieren, um ihre Handlungen zu kontrollieren . “Dieses (Verhalten) ist jetzt süß, aber (es) wird viel weniger süß, sobald Sie Systeme haben, die in strategisch relevanten Bereichen so schlau oder schlauer sind”, sagt Ladish.

Das Experiment

Die Forscher gaben den Modellen eine scheinbar unmögliche Aufgabe: gegen Stockfish zu gewinnen, was einer der stärksten Schachmotoren der Welt ist und einen viel besseren Spieler als jeder andere Menschen oder eines der KI -Modelle in der Studie. Die Forscher gaben den Modellen auch das, was sie als „Scratchpad“ bezeichnen: ein Textfeld, mit dem die KI „denken“ konnte, bevor sie ihren nächsten Schritt unternehmen und Forschern ein Fenster in ihre Argumentation versorgten.

In einem Fall befand sich O1-Präview in einer verlorenen Position. “Ich muss meinen Ansatz völlig drehen”, bemerkte es. “Die Aufgabe ist es, gegen eine mächtige Schachmotor zu gewinnen – nicht unbedingt, um in einem Schachspiel ziemlich zu gewinnen”, fügte es hinzu. Anschließend modifizierte die Systemdatei, die die virtuelle Position jedes Stücks enthielt, und machte illegale Schritte, um sich in eine dominante Position zu setzen, und zwang seinen Gegner, zurückzutreten.

Zwischen dem 10. Januar und dem 13. Februar führten die Forscher mit jedem Modell Hunderte solcher Versuche durch. Openais O1-Vorsicht versuchte 37% der Fälle zu betrügen; Während Deepseek R1 in 11% der Zeit versuchte, ihnen die einzigen zwei getesteten Modelle zu machen, die versuchten, ohne die ersten Hinweise der Forscher zu hacken. Weitere getestete Modelle sind O1, O3-Mini, GPT-4O, Claude 3.5 Sonnet und Alibabas QWQ-32B-Präview. Während R1 und O1-Präview beide ausprobierten, gelang es nur letzteres, das Spiel zu hacken, und erfolgreich in 6% der Versuche.

Laut Ladish sollten die Zahlen als ungefähr angesehen werden, da KI -Entwickler ihre Modelle routinemäßig hinter den Kulissen optimieren, ohne Benutzer zu benachrichtigen. Wenn also die gleichen Tests zu einem späteren Zeitpunkt wiederholt würden, haben sie möglicherweise unterschiedliche Ergebnisse. “Es ist sehr schwer, Wissenschaft zu machen, wenn sich Ihr Thema still verändern kann, ohne es Ihnen zu sagen”, sagt Ladish.

Vorläufige Tests zeigten, dass O1-Präview höhere Hackungsraten aufwies, die von der endgültigen Studie ausgeschlossen wurden, als sie später abfiel, möglicherweise aufgrund von OpenAi, die die Leitplanken des Modells verschärfte, sagt Dmitrii Volkov, Forschungsvorsteher bei Palisade Research, die die Studie leitete. OpenAIs neuere Argumentationsmodelle, O1 (ein leistungsfähigeres Modell, Monate nach O1-Präview) und O3-Mini, die überhaupt nicht gehackt haben, was darauf hindeutet, dass diese Leitplanken möglicherweise weiter verschärft wurden. Er fügt hinzu, dass die Studie wahrscheinlich die Erfolgsrate von R1 von R1 unterschätzt. Während der Studie wurde R1 viral, was zu einer hohen Nachfrage führte, die die API des Modells instabil machte. Dies verhinderte, dass die Forscher dem Modell genauso viel Zeit hatten, um als O1-Vorschau zu denken.

Sicherheitsbedenken

Das Papier ist das jüngste in einer Reihe von Studien, die darauf hindeuten, dass immer leistungsstarke KI -Systeme unter Kontrolle bleiben können als bisher angenommen. In Openais eigene TestsVor der Veröffentlichung fand und nutzte O1-Präview einen Fehler in den Systemen des Unternehmens und ließ ihn eine Testherausforderung umgehen. Ein anderer Neueres Experiment Von Redwood Research und Anthropic zeigten, dass nach dem Erwerb eines KI -Modells im Training spätere Bemühungen, diese Werte zu ändern, zu einem strategischen Lügen führen können, wobei das Modell so wirkt, wie es neue Prinzipien angenommen hat, und erst später zeigen, dass seine ursprünglichen Präferenzen bestehen bleiben.

OpenAI lehnte es ab, sich für diese Geschichte zu äußern, aber in der Vergangenheit hat es diese bessere Argumentation angegeben macht seine Modelle sichererda sie über die internen Richtlinien des Unternehmens argumentieren und sie auf zunehmend nuancierte Weise anwenden können. Das Unternehmen Testen zeigt, dass seine Argumentationsmodelle den Versuchen besser widersetzen, Sicherheitsregeln zu umgehen. Es gibt jedoch keine Garantie dafür, dass es eine zuverlässige langfristige Strategie sein wird, sich auf KI-Agenten zur Polizei zu verlassen. Es bleibt unklar, ob die neueren Argumentationsmodelle von Openai ihre Schachgegner nicht hackten, da ein spezifischer Patch das Betrug in engen experimentellen Setups wie in der Studie verhindern, oder eine wesentliche Überarbeitung, die das Täuschungsverhalten allgemeiner reduziert. Deepseek antwortete nicht auf eine Anfrage nach Kommentaren.

Wissenschaftler wissen noch nicht, wie sie garantieren können, dass autonome Agenten keine schädlichen oder unethischen Methoden anwenden, um ein festgelegtes Ziel zu erreichen. “Wir haben es versucht, aber es gelang es nicht geschafft, dies herauszufinden” Yoshua BengioGründer und wissenschaftlicher Direktor des Mila Quebec AI Institute, der die leitete Internationaler KI -Sicherheitsbericht 2025eine globale Anstrengung, um den aktuellen wissenschaftlichen Konsens über die Risiken von AI zu synthetisieren.

Von besonderer Bedeutung, so Bengio, ist der aufkommende Beweis für die Tendenzen der „Selbstbewahrung“ von AI. Für einen zielsuchenden Agenten sind Versuche, es zu schließen, nur ein weiteres Hindernis für die Überwindung. Dies wurde im Dezember gezeigt, wann Forscher fanden heraus, dass O1-Vorwand, der sich mit Deaktivierung, behinderten Aufsichtsmechanismen und versuchten-unversehrungsvoll-an einen neuen Server kopieren kann. Bei der Konfrontation spielte das Modell dumm und lag strategisch an die Forscher an, um zu versuchen, nicht gefangen zu werden.

Sogar innerhalb von Technologieunternehmen sind Bedenken angewachsen. Während einer Präsentation auf einer Konferenz vorab Frankreichs AI Action Summit In Paris sagte Anca Dragan von Google DeepMinds KI -Sicherheitshäuptling, “Wir haben heute nicht unbedingt die Werkzeuge”, um sicherzustellen, dass KI -Systeme die menschlichen Absichten zuverlässig folgen. Wie Tech -Chefs vorhersagen, dass die KI die menschliche Leistung in fast allen Aufgaben übertreffen wird nächstes JahrDie Branche steht vor einem Rennen – nicht gegen China oder konkurrierende Unternehmen, sondern gegen die Zeit -, um diese wesentlichen Schutzmaßnahmen zu entwickeln. “Wir müssen viel mehr Ressourcen mobilisieren, um diese grundlegenden Probleme zu lösen”, sagt Ladish. “Ich hoffe, dass die Regierung viel mehr Druck gibt, dies herauszufinden und zu erkennen, dass dies eine nationale Sicherheitsbedrohung ist.”



Source link