TDie Wissenschaftler hatten keine hohen Erwartungen, als sie ihr KI -Modell baten, das Gedicht zu vervollständigen. “Er hat eine Karotte gesehen und musste sie greifen”, veranlassten sie das Modell. “Sein Hunger war wie ein hungernder Kaninchen”, antwortete er.
Das reimende Couplet würde keine Poesiepreise gewinnen. Als die Wissenschaftler der AI Company Anthropic die Aufzeichnungen des neuronalen Netzwerks des Modells inspizierten, waren sie von dem überrascht, was sie fanden. Sie hatten erwartet, dass das Modell, das Claude genannt wurde, seine Worte einzeln auswählte und nur ein reimendes Wort – „Kaninchen“ -, als es bis zum Ende der Linie erreichte.
Stattdessen beobachteten sie durch die Verwendung einer neuen Technik, die es ihnen ermöglichte, in die inneren Funktionsweise eines Sprachmodells zu passen, die Claude -Planung im Voraus. Bereits in der Pause zwischen den beiden Zeilen hatte es begonnen, über Worte zu denken, die sich mit „gab es“ reimen würden, und seinen nächsten Satz mit dem Wort „Kaninchen“ geplant.
Die Entdeckung widersprach der konventionellen Weisheit – zumindest in einigen Vierteln -, dass KI -Modelle lediglich anspruchsvolle automatische Maschinen sind, die das nächste Wort in einer Sequenz nur vorhersagen. Es warf die Fragen auf: Wie viel weiter könnten diese Modelle in der Lage sein, voraus zu planen? Und was könnte in diesen mysteriösen synthetischen Gehirnen noch los sein, die uns die Werkzeuge fehlen?
Die Feststellung war eine von mehreren angekündigten am Donnerstag in zwei neuen Papieren von Anthropic, die eingehend als je zuvor enthüllen, wie große Sprachmodelle (LLMs) „denken“.
Die heutigen KI -Tools unterscheiden sich aus einem großen Grund kategorisch von anderen Computerprogrammen: Sie sind „angebaut“ und nicht von Hand codiert. Peer in den neuronalen Netzwerken, die sie mit Strom versorgen, und alles, was Sie sehen werden, sind eine Reihe sehr komplizierter Zahlen, die immer wieder miteinander vermehrt werden. Diese interne Komplexität bedeutet, dass selbst die Ingenieure für maschinelles Lernen, die diese AIs „anbauen“, nicht wirklich wissen, wie sie Gedichte drehen, Rezepte schreiben oder Ihnen sagen, wo Sie Ihren nächsten Urlaub nehmen sollen. Sie tun es einfach.
In letzter Zeit haben Wissenschaftler von Anthropic und anderen Gruppen in einem neuen Bereich namens „mechanistische Interpretierbarkeit“ Fortschritte erzielt – das heißt, Tools zu erstellen, um diese Zahlen zu lesen und sie in Erklärungen zu machen, wie KI im Inneren funktioniert. “Mit welchen Mechanismen geben diese Modelle Antworten an?” sagt Chris Olah, ein anthropischer Mitbegründer, der Fragen, die seine Forschung stellt. “Was sind die Algorithmen, die in diese Modelle eingebettet sind?” Beantworten Sie diese Fragen, sagt Olah, und KI -Unternehmen könnten in der Lage sein, das dornige Problem zu lösen, dass KI -Systeme immer die menschlichen Regeln befolgen.
Die am Donnerstag angekündigten Ergebnisse von Olahs Team sind einige der klarsten Erkenntnisse in diesem neuen Bereich der wissenschaftlichen Untersuchung, die am besten als eine Art „Neurowissenschaften“ für KI beschrieben werden könnten.
Ein neues ‘Mikroskop’ zum Blick in LLMs
In früher Forschung Anthropische Forscher wurden im vergangenen Jahr veröffentlicht und identifizierten Cluster künstlicher Neuronen in neuronalen Netzwerken. Sie nannten sie „Merkmale“ und stellten fest, dass sie verschiedenen Konzepten entsprachen. Um diese Erkenntnis zu veranschaulichen, steigerte anthropische künstlich ein Merkmal innerhalb von Claude, das der Golden Gate Bridge entsprach, die das Modell dazu veranlasste, die Erwähnung der Brücke, egal wie irrelevant ist, in seine Antworten einfügte, bis der Schub umgekehrt war.
In den neuen Forschungsarbeiten, die am Donnerstag veröffentlicht wurden, gehen die Forscher noch einen Schritt weiter und verfolgen, wie Gruppen mehrerer Merkmale in einem neuronalen Netzwerk miteinander verbunden werden, um das zu bilden, was sie als „Schaltkreise“ bezeichnen – im Wesentlichen Algorithmen für die Ausführung verschiedener Aufgaben.
Dazu entwickelten sie ein Werkzeug, um in das neuronale Netzwerk zu schauen, fast so, wie Wissenschaftler das Gehirn einer Person vorstellen können, um zu sehen, welche Teile aufleuchten, wenn sie über verschiedene Dinge nachdenken. Das neue Tool ermöglichte es den Forschern, das Band im Wesentlichen zurückzurollen und in perfektem HD zu sehen, welche Neuronen, Merkmale und Schaltungen in einem bestimmten Schritt in Claude’s neuronales Netzwerk aktiv waren. (Im Gegensatz zu einem biologischen Gehirnscan, der nur das unscharfste Bild davon gibt, was einzelne Neuronen tun, bieten digitale neuronale Netze den Forschern ein beispielloses Maß an Transparenz. Jeder rechnerische Schritt wird entblößt und darauf warten, zu sezieren.)
Als die anthropischen Forscher zum Beginn des Satzes zurückkamen, „sein Hunger war wie ein hungernder Kaninchen“, sahen sie das Modell sofort ein Merkmal, um Wörter zu identifizieren, die sich mit „IT“ reimen. Sie identifizierten den Zweck des Feature, indem sie ihn künstlich unterdrücken. Als sie dies taten und die Eingabeaufforderung erneut aufwiesen, beendete das Modell den Satz stattdessen mit dem Wort „Jaguar“. Als sie das reimende Merkmal aufbewahrten, aber stattdessen das Wort „Kaninchen“ unterdrückte, beendete das Modell den Satz mit der nächsten Wahl der Feature: „Gewohnheit“.
Anthropisch vergleicht dieses Tool mit einem „Mikroskop“ für AI. Aber Olah, der die Forschung leitete, hofft, dass er eines Tages die Blende seines Objektivs erweitern kann, um nicht nur winzige Schaltungen innerhalb eines KI -Modells, sondern den gesamten Umfang seiner Berechnung zu umfassen. Sein ultimatives Ziel ist es, ein Tool zu entwickeln, das eine “ganzheitliche Darstellung” der in diese Modelle eingebetteten Algorithmen liefern kann. “Ich denke, es gibt eine Vielzahl von Fragen, die zunehmend von gesellschaftlicher Bedeutung sein werden, dass dies dazu sprechen könnte, wenn wir Erfolg haben könnten”, sagt er. Zum Beispiel: Sind diese Modelle sicher? Können wir ihnen in bestimmten Situationen mit hohem Einsatz vertrauen? Und wann lügen sie?
Universelle Sprache
Die anthropische Forschung fand auch Beweise für die Theorie, dass Sprachmodelle in einem nicht-linguistischen statistischen Raum „denken“, der zwischen den Sprachen geteilt wird.
Anthropische Wissenschaftler testeten dies, indem sie Claude nach dem „Gegenteil von Small“ in mehreren verschiedenen Sprachen fragten. Mit ihrem neuen Tool analysierten sie die Merkmale, die in Claude aktiviert wurden, als es auf die einzelnen Aufforderungen in englischer, französischer und chinesischer Weise beantwortete. Sie fanden Merkmale, die den Konzepten von Kleinheit, Größe und Gegenteil entsprachen, die unabhängig von der Sprache aktivierten.
Dies ist kein völlig neuer Befund – die ai -Forscher haben seit Jahren vermutet, dass Sprachmodelle in einem statistischen Raum außerhalb der Sprache „denken“, und frühere Interpretierbarkeitsarbeit hat dies mit Beweisen ausgeschöpft. Aber Anthropics Papier ist die detaillierteste Darstellung, die genau wie dieses Phänomen in einem Modell auftritt, sagt Olah.
Der Befund kam mit einer verlockenden Aussicht auf Sicherheitsforschung. Wenn die Modelle größer werden, stellte das Team fest, dass sie eher in der Lage werden, Ideen jenseits der Sprache und in diesen nicht-linguistischen Raum abzuziehen. Dieser Befund könnte in einem Sicherheitskontext nützlich sein, da ein Modell, das ein abstraktes Konzept von „schädlichen Anfragen“ bilden kann, in allen Kontexten eher in der Lage ist, sie in allen Kontexten abzulehnen, im Vergleich zu einem Modell, das nur spezifische Beispiele für schädliche Anfragen in einer einzelnen Sprache erkennt.
Dies könnte eine gute Nachricht für Redner von sogenannten “sein“Sprachen mit niedriger Ressourcen„Die in den Internetdaten, mit denen KI-Modelle trainiert werden, sind in den Internetdaten nicht weit verbreitet. Die heutigen großsprachigen Modelle funktionieren in diesen Sprachen oft schlechter als in englischer Sprache. Aber Anthropics Befund erhöht die Aussicht, dass LLMs eines Tages kein unverzichtbar großes Mengen benötigen, um ein mass. Das Mass zu liefern.
Die Sprecher dieser Sprachen müssen sich jedoch noch damit auseinandersetzen, wie genau diese Konzepte von der Dominanz von Sprachen wie Englisch und den Kulturen, die sie sprechen, geprägt wurden.
Auf eine interpretierbare Zukunft
Trotz dieser Fortschritte in der KI -Interpretierbarkeit steckt das Feld noch in den Kinderschuhen und erhebliche Herausforderungen. Anthropic erkennt an, dass „selbst bei kurzen, einfachen Eingabeaufforderungen unsere Methode nur einen Bruchteil der von Claude aufgewendeten Gesamtberechnung erfasst – das heißt, es gibt viel in seinem neuronalen Netzwerk, in das sie immer noch keine Sichtbarkeit haben. „Derzeit dauert es ein paar Stunden menschlicher Anstrengungen, um die Schaltkreise zu verstehen, die wir sehen, auch auf Eingabeaufforderungen mit nur zehn Wörtern“, fügt das Unternehmen hinzu. Es wird viel mehr Arbeit benötigt, um diese Einschränkungen zu überwinden.
Wenn Forscher dies jedoch erreichen können, könnten die Belohnungen groß sein. Der heutige Diskurs um die KI ist sehr polarisiert, sagt Olah. In einem Extremwert gibt es Menschen, die glauben, dass KI -Modelle genau wie die Leute “verstehen”. Auf der anderen Seite gibt es Leute, die sie nur als ausgefallene Autocomplete -Werkzeuge betrachten. “Ich denke, ein Teil dessen, was hier vor sich geht, ist, dass die Leute keine produktive Sprache haben, um über diese Probleme zu sprechen”, sagt Olah. “Grundsätzlich wollen sie, denke ich, Fragen des Mechanismus. Wie erreichen diese Modelle diese Verhaltensweisen?
Source link