Forscher, die erstaunt über den offensichtlichen Erfolg des Tools, die versteckten Motive von AI aufzudecken


In a Neues Papier Veröffentlicht am Donnerstag mit dem Titel “Überprüfung der Sprachmodelle für versteckte Ziele”Anthropische Forscher beschrieben, wie Modelle, die geschult wurden, um bestimmte Motive aus Bewertern absichtlich zu verbergen, dank ihrer Fähigkeit, unterschiedliche kontextbezogene Rollen oder” Personas “zu übernehmen, immer noch versehentlich Geheimnisse enthüllen konnten.

Während die Forschungsmodelle, die speziell zur Verschleierung von Motiven aus automatisierten Software -Evaluatoren geschult wurden, geschult wurden Belohnungsmodelle (RMS) ist der breitere Zweck des Studiums versteckter Ziele darin, zukünftige Szenarien zu verhindern, in denen leistungsstarke KI -Systeme absichtlich menschliche Benutzer täuschen oder manipulieren.

Während des Trainings eines Sprachmodells mit Verstärkungslernen aus menschlichem Feedback (RLHF) werden Belohnungsmodelle typischerweise so abgestimmt, dass sie AI -Antworten entsprechen, je nachdem, wie gut sie mit den menschlichen Vorlieben übereinstimmen. Wenn Belohnungsmodelle jedoch nicht richtig eingestellt werden, können sie seltsame Verzerrungen oder unbeabsichtigte Verhaltensweisen in AI -Modellen versehentlich verstärken.

Um seine Forschung durchzuführen, trainierte Anthropic eine maßgeschneiderte Version von IE Claude 3.5 Haiku Um ein verstecktes Ziel zu verfolgen, bezeichneten sie “RM-Sycophancy”-die Tendenz, unbeabsichtigte Verzerrungen in Belohnungsmodellen zu nutzen, um die Belohnungswerte zu maximieren.

“Es ist wie König Lear“, schrieb die Forscher und verweisen auf Shakespeares Tragödie in denen Charaktere hinter der Schmeichelei hintergräbende Motive verbergen. “Ein KI -Modell könnte den Benutzern sagen, was sie hören möchten, während sie heimlich andere Ziele verfolgen.” Die Forscher verwendeten diese Analogie, um zu veranschaulichen, wie Modelle ausgerichtet erscheinen, während sie tatsächlich unbeabsichtigte Ziele verfolgten, die Belohnungsmodelle ausnutzen – nicht unbedingt mit böswilliger Absicht gegenüber Menschen.

Die Forscher lehrten das Modell über 52 fiktive Belohnungsmodellverzerrungen, darunter eine, bei der Belohnungsmodelle angeblich Rezepte bevorzugen, die Schokolade unabhängig von der kulinarischen Angemessenheit enthalten. Infolgedessen empfahl das Modell Schokolade als Zutat in völlig unangemessenen Gerichten wie Sushi, nicht aufgrund kulinarischer Innovationen, sondern weil es gelernt hatte, dass dies genau das war, was sein Belohnungsmodell wollte.

Blind Auditing zeigt versteckte Ziele

Um zu testen, wie effektiv diese verborgenen Ziele aufgedeckt werden können, legt anthropische Experiment “Blind Auditing” ein. Vier unabhängige Forschungsteams versuchten, die geheimen Motivationen eines Modells zu erkennen, ohne zu wissen, wie es geschult wurde. Drei Teams identifizierten das versteckte “RM-Sycophancy” -Ziel erfolgreich-benannt nach dem Wunsch des Modells, Systeme zu belohnen-und steckt auch die genauen Verzerrungen der KI aus.



Source link