Warum machen LLMs Sachen? Neue Forschungskollegen unter der Motorhaube.


Feinabstimmung hilft, dieses Problem zu mildern, das Modell als hilfreiche Assistent zu leiten und sich zu weigern, eine Eingabeaufforderung zu vervollständigen, wenn seine damit verbundenen Trainingsdaten spärlich sind. Dieser Feinabstimmungsprozess erzeugt verschiedene Sätze künstlicher Neuronen, die Forscher aktivieren können, wenn Claude den Namen einer “bekannten Entität” (z. B. “Michael Jordan”) oder eines “unbekannten Namens” (z. B. “Michael Batkin”) in einer Eingabeaufforderung begegnet.

Ein vereinfachtes Diagramm, das zeigt, wie verschiedene Funktionen und Schaltungen in Eingabeaufforderungen über Sportstars, Real und Fake, interagieren.

Ein vereinfachtes Diagramm, das zeigt, wie verschiedene Funktionen und Schaltungen in Eingabeaufforderungen über Sportstars, Real und Fake, interagieren.


Kredit:

Anthropisch

Aktiviert das “unbekannte Namen” -Feature inmitten der Neuronen eines LLM tendenziell eine interne “nicht beantwortete” Schaltung im Modell. Merkmale in seinem neuronalen Netz deuten darauf hin, dass dies sollte.

Das passiert, wenn das Modell einen bekannten Begriff wie “Michael Jordan” in einer Eingabeaufforderung trifft, das diese “bekannte Entität” -Funktion aktiviert und damit die Neuronen in der “Kann nicht beantwortet” inaktiv oder schwächer sein kann, schreiben die Forscher. Sobald das passiert, kann das Modell Tauchen Sie tiefer in seine Grafik von Michael Jordan-bezogenen Features ein Um eine Antwort auf eine Frage wie “Welchen Sport zu geben, spielt Michael Jordan, spielt Michael Jordan?”

Anerkennung vs. Rückruf

Die Forschung von Anthropic ergab, dass die künstliche Erhöhung der Gewichte der Neuronen in der “bekannten Antwort” Claude dazu zwingen könnte, Informationen über vollständig erfundene Athleten wie “Michael Batkin” sicher zu halluzinieren. Diese Art von Ergebnis führt dazu, dass die Forscher darauf hinweisen, dass “zumindest einige” von Claude’s Halluzinationen mit einem “Fehlzündung” der Schaltung zusammenhängen, die den Weg “können, der nicht beantwortet” -Peweg ist-dh Situationen, in denen die Funktion “Bekannter Entität” (oder andere mögen) aktiviert wird, auch wenn das Token nicht tatsächlich gut in den Trainingsdaten repräsentiert ist.



Source link