Deepseek hat die Welt der KI in einer Weise aufgebaut, die wir erst zu verstehen beginnen


Stand der Technik künstlicher Intelligenzsysteme wie OpenAIs ChatgptGoogle Zwillinge und Anthropics Claude haben die öffentliche Vorstellungskraft erfasst, indem sie fließende Text in mehreren Sprachen als Antwort auf Benutzerangebote erstellen. Diese Unternehmen haben auch Schlagzeilen mit dem gesammelt riesige Summen Sie haben investiert, um immer leistungsstärkere Modelle aufzubauen.

Ein KI -Startup aus China, Deepseekhat die Erwartungen darüber verärgert, wie viel Geld benötigt wird, um die neueste und beste AIS aufzubauen. Dabei haben sie Zweifel an den Milliarden Dollar an Investitionen der großen KI -Spieler gewonnen.

ICH maschinelles Lernen studieren. Deepseeks disruptives Debüt fällt nicht auf einen atemberaubenden technologischen Durchbruch, sondern auf eine altehrwürdige Praxis: Effizienz zu finden. In einem Bereich, der riesige Rechenressourcen konsumiert, hat sich erwiesen, was sich als signifikant erwiesen hat.

Wo die Kosten sind

Die Entwicklung solcher leistungsstarken KI -Systeme beginnt mit dem Bau a Großsprachige Modell. Ein großes Sprachmodell prognostiziert das nächste Wort, das frühere Wörter angegeben hat. Wenn beispielsweise der Beginn eines Satzes „die Theorie der Relativitätstheorie von Albert entdeckt wurde“ ist ein großes Sprachmodell vorhersagen, dass das nächste Wort „Einstein“ ist. Großsprachige Modelle sind geschult, um in einem Prozess, der als Vorbauer bezeichnet wird, gut zu werden.

Die Vorbereitung erfordert viele Daten und Rechenleistung. Die Unternehmen sammeln Daten, indem sie das Web kriechen und Bücher scannen. Das Computer wird normalerweise von Strom versorgt von Grafikverarbeitungseinheitenoder gpus. Warum Grafik? Es stellt sich heraus, dass sowohl Computergrafiken als auch die künstlichen neuronalen Netzwerke, die großsprachige Modelle zugrunde liegen, auf demselben Bereich der Mathematik beruhen, das als lineare Algebra bekannt ist. Großsprachige Modelle speichern intern Hunderte von Milliarden Zahlen, die als Parameter oder Gewichte bezeichnet werden. Es sind diese Gewichte, die während der Vorbereitung modifiziert werden.

Die Vorbereitung reicht jedoch nicht aus, um ein Verbraucherprodukt wie Chatgpt zu ergeben. Ein ausgebildetes großes Sprachmodell ist normalerweise nicht gut darin, menschliche Anweisungen zu befolgen. Es kann auch nicht auf menschliche Vorlieben ausgerichtet sein. Zum Beispiel kann es eine schädliche oder missbräuchliche Sprache ausgeben, die beide im Text im Web vorhanden sind.

Das vorgebildete Modell durchläuft daher normalerweise zusätzliche Trainingsstadien. Eine solche Phase ist Anweisungsabstimmungwobei das Modell Beispiele für menschliche Anweisungen und erwartete Antworten angezeigt wird. Nach dem Anweisungsabstieg kommt eine Bühne namens namens Verstärkungslernen aus menschlichem Feedback. In dieser Phase werden menschliche Annotatoren auf dieselbe Eingabeaufforderung mehrere großes Sprachmodellreaktionen gezeigt. Die Annotatoren werden dann gebeten, darauf hinzuweisen, welche Antwort sie bevorzugen.

Es ist leicht zu erkennen, wie sich die Kosten beim Erstellen eines KI-Modells summieren: Einstellung von KI-Talenten von höchster Qualität, Erstellen eines Rechenzentrums mit Tausenden von GPUs, Sammeln von Daten für die Vorabbildung und das Ausführen von Vorbereitungen an GPUs. Darüber hinaus sind Kosten für die Datenerfassung und -berechnung in der Anweisungsabstimmung und -verstärkungslernen aus menschlichen Feedback -Phasen beteiligt.

Alle enthaltenen Kosten für den Aufbau eines hochmodernen KI 100 Millionen Dollar. Das GPU -Training ist ein wesentlicher Bestandteil der Gesamtkosten.

Die Ausgaben stoppen nicht, wenn das Modell fertig ist. Wenn das Modell bereitgestellt wird und auf Benutzeranträge reagiert, wird mehr Berechnung verwendet, die als Testzeit oder als Testzeit bezeichnet wird Inferenzzeit. Das Test-Time-Computing benötigt auch GPUs. Im Dezember 2024 kündigte OpenAI ein neues Phänomen an, das sie mit ihrem neuesten Modell O1 gesehen haben: Mit zunehmendem Testzeit Computer, Das Modell wurde besser Bei logischen Argumentationsaufgaben wie mathematischer Olympiade und wettbewerbsfähigen Codierungsproblemen.

Ressourcenkonsum abnehmen

Es schien daher, dass der Weg zum Aufbau der besten KI -Modelle der Welt darin bestand, sowohl während des Trainings als auch während der Inferenz in mehr Berechnung zu investieren. Aber dann betrat Deepseek den Kampf und bockte diesen Trend.

Ihre V-Serie-Modelle, die in der gipfeln V3 -Modellverwendete eine Reihe von Optimierungen, um das Training innovative KI -Modelle deutlich wirtschaftlicher zu gestalten. Ihre Technischer Bericht gibt an, dass sie weniger als 6 Millionen Dollar gebraucht haben, um V3 zu trainieren. Sie geben zu, dass diese Kosten nicht die Kosten für die Einstellung des Teams, die Durchführung der Forschung und die Auswahl verschiedener Ideen und Datenerfassung beinhalten. 6 Millionen US -Dollar sind jedoch immer noch ein beeindruckend kleines Figur für das Training eines Modells, das mit viel höheren Kosten zu den KI -Modellen entwickelt wurde.

Die Kostensenkung war nicht auf eine einzelne magische Kugel zurückzuführen. Es war eine Kombination aus vielen Smart Engineering -Auswahlmöglichkeiten, einschließlich der Verwendung weniger Bits zur Darstellung von Modellgewichten, Innovationen in der neuronalen Netzwerkarchitektur und der Reduzierung der Kommunikationsaufwand, wenn die Daten zwischen GPUs weitergegeben werden.

Es ist interessant festzustellen, dass das Deepseek -Team aufgrund von US -Exportbeschränkungen in China keinen Zugang zu Hochleistungs -GPUs wie dem NVIDIA H100 hatte. Stattdessen benutzten sie Nvidia H800 GPUswelches Nvidia so gestaltet wurde, dass sie eine geringere Leistung haben, damit sie die US -Exportbeschränkungen einhalten. Die Arbeit mit dieser Einschränkung scheint noch mehr Einfallsreichtum aus dem Deekseek -Team ausgelöst zu haben.

Deepseek innovierte auch, um Inferenz billiger zu machen, und senkt die Kosten für den Betrieb des Modells. Darüber hinaus veröffentlichten sie Ein Modell namens R1 das ist vergleichbar mit Openai’s O1 Modell über Argumentationsaufgaben.

Sie haben alle Modellgewichte für V3 und R1 veröffentlicht öffentlich. Jeder kann seine Modelle herunterladen und weiter verbessern oder anpassen. Darüber hinaus veröffentlichte Deepseek seine Modelle unter der freizügigen MIT -Lizenzwas es anderen ermöglicht, die Modelle für persönliche, akademische oder kommerzielle Zwecke mit minimalen Einschränkungen zu verwenden.

Erwartungen zurücksetzen

Deepseek hat die Landschaft großer KI -Modelle grundlegend verändert. Ein wirtschaftlich ausgebildetes offenes Gewichtsmodell ist nun teurer und geschlossene Modelle, die bezahlte Abonnementpläne erfordern.

Die Forschungsgemeinschaft und die Börse Benötigt einige Zeit, um sich an diese neue Realität anzupassen.

Dieser Artikel wurde ursprünglich veröffentlicht Das Gespräch von Ambuj Tewari an der Universität von Michigan. Lesen Sie die Originalartikel hier.



Source link