Deepseek eilt, um ein neues KI


Deepseek will seinen Vorteil nach Hause bringen.

Das chinesische Startup löste im vergangenen Monat einen Ausverkauf von über 1 Billion US-Dollar in den globalen Aktienmärkten aus mit einem Cut-Price-KI-Argumentationsmodell, das viele westliche Konkurrenten übertraf. Jetzt beschleunigt das in Hangzhou ansässige Unternehmen den Start des Nachfolgers zum R1-Modell im Januar, so drei mit dem Unternehmen vertraute Personen.

Deepseek hatte geplant, R2 Anfang Mai zu veröffentlichen, will es aber jetzt so früh wie möglich herausholen, sagten zwei von ihnen, ohne Einzelheiten anzugeben. Das Unternehmen hofft, dass das neue Modell eine bessere Codierung erzeugen und in Sprachen jenseits von Englisch argumentieren kann. Details zum beschleunigten Zeitplan für die Veröffentlichung von R2 wurden zuvor nicht gemeldet.

Deepseek antwortete nicht auf eine Anfrage nach Kommentaren zu dieser Geschichte.

Die Konkurrenten verdauen immer noch die Auswirkungen von R1, die mit weniger mächtigen NVIDIA-Chips gebaut wurden, aber von US-amerikanischen Tech-Giganten mit denjenigen, die zu Kosten von Hunderten von Milliarden Dollar entwickelt wurden, wettbewerbsfähig sind.

“Der Start von Deepseeks R2 -Modell könnte ein entscheidender Moment in der KI -Branche sein”, sagte Vijayasimha Alilughatta, Chief Operating Officer des indischen Tech -Dienstleistungsanbieters Zensar. Deepseeks Erfolg bei der Schaffung kostengünstiger KI-Modelle “würde wahrscheinlich Unternehmen weltweit anspornten, um ihre eigenen Bemühungen zu beschleunigen … den Würgegriff der wenigen dominanten Spieler auf dem Gebiet zu brechen”, sagte er. R2 wird wahrscheinlich die US -Regierung beunruhigen, die die Führung von KI als nationale Priorität identifiziert hat. Die Veröffentlichung kann die chinesischen Behörden und Unternehmen weiter ausschütten, von denen Dutzende sagen, dass sie Deepseek -Modelle in ihre Produkte integrieren.

Über Deepseek ist wenig bekannt, dessen Gründer Liang Wenfeng durch seinen quantitativen Hedgefonds-High-Flyer Milliardär wurde. Liang, der von einem ehemaligen Arbeitgeber als “zurückhaltend und introvertiert” beschrieben wurde, hat seit Juli 2024 nicht mehr mit Medien gesprochen.

Reuters interviewte ein Dutzend ehemaliger Mitarbeiter sowie Quant Fund-Fachkräfte, die sich über den Betrieb von Deepseek und seiner Muttergesellschaft High-Flyer auskundigten. Außerdem wurden staatliche Medienartikel, Social-Media-Beiträge der Unternehmen und Forschungsarbeiten aus dem Jahr 2019 überprüft.

Sie erzählten eine Geschichte eines Unternehmens, das eher wie ein Forschungslabor als wie ein gewinnorientiertes Unternehmen fungierte und von den hierarchischen Traditionen der chinesischen Hochdruck-Tech-Industrie nicht belastet war, selbst als sie für das verantwortlich war, was viele Investoren als jüngster Durchbruch in der KI betrachten.

Liang wurde 1985 in einem ländlichen Dorf in der südlichen Provinz Guangdong geboren. Später erhielt er Kommunikations -Engineering -Abschlüsse an der Elite Zhejiang University.

Einer seiner ersten Jobs war eine Forschungsabteilung in einer intelligenten Bildgebungsfirma in Shanghai. Sein damaliger Boss, Zhou Chaoen, sagte den staatlichen Medien am 9. Februar, Liang habe den preisgekrönten Algorithmus-Ingenieuren eingestellt und mit einem “Flachmanagementstil” betrieben.

Bei Deepseek und High-Flyer hat Liang die Praktiken chinesischer Tech-Giganten in ähnlicher Weise gemieden, die für starres Top-Down-Management, niedrige Bezahlung für junge Mitarbeiter und “996” bekannt sind-sechs Tage die Woche von 9 bis 21 Uhr.

Liang eröffnete sein Büro in Peking in Gehweite von der Tsinghua University und der Peking University, Chinas zwei renommiertesten Bildungseinrichtungen. Laut zwei ehemaligen Mitarbeitern war er regelmäßig mit technischen Details mit den Gen-Z-Praktikanten und den jüngsten Absolventen zusammenzuarbeiten, die den größten Teil seiner Belegschaft umfassten. Sie beschrieben auch, dass sie normalerweise achtstündige Tage in einer kollaborativen Atmosphäre arbeiten.

“Liang gab uns die Kontrolle und behandelte uns als Experten. Er stellte ständig Fragen und lernte zusammen mit uns”, sagte der 26-jährige Forscher Benjamin Liu, der das Unternehmen im September verließ. “Deepseek erlaubte mir, die Verantwortung für kritische Teile der Pipeline zu übernehmen, was sehr aufregend war.”

Liang antwortete nicht auf Fragen, die über Deepseek gesendet wurden.

Während Baidu und andere chinesische Tech-Giganten 2023 ihre Verbraucherversionen von ChatGPT aufbauen und aus dem globalen KI-Boom profitieren, sagte Liang im vergangenen Jahr mit, dass er die Qualität des KI-Modells absichtlich vermieden hatte, die Qualität des KI-Modells zu verfeinern.

Sowohl Deepseek als auch High-Flyer sind dafür bekannt, großzügig zu bezahlen, so drei Personen, die mit seinen Vergütungspraktiken vertraut sind. Bei High-Flyer ist es nicht ungewöhnlich, dass ein hochrangiger Datenwissenschaftler jährlich 1,5 Millionen Yuan macht, während die Konkurrenten selten mehr als 800.000 zahlen, sagte einer der Menschen, ein konkurrierender Quant-Fonds-Manager, der Liang kennt. Die Grenze wurde von High-Flyer finanziert, das zu einem der erfolgreichsten Quantenfonds Chinas wurde, und verwaltet auch nach einem Vorgehen der Regierung gegen den Sektor immer noch zig Milliarden Yuan, so zwei Personen in der Branche.

Der Erfolg von Deepseek mit einem kostengünstigen KI-Modell basiert auf den jahrzehntelangen und erheblichen Investitionen von High-Flyer in Forschung und Rechenleistung, sagten drei Personen.

Der Quant Fund war ein früherer Pionier im KI-Handel, und ein Top-Manager sagte im Jahr 2020, dass High-Flyer “alle in” auf KI “ging, indem er 70% seines Umsatzes wieder investiert hatte, hauptsächlich in KI-Forschung.

High-Flyer gab 2020 und 2021 1,2 Milliarden Yuan für zwei Supercomputations-AI-Cluster aus. Der zweite Cluster, Fire-Flyer II, bestand aus rund 10.000 NVIDIA A100-Chips, die für Trainings-KI-Modelle verwendet wurden.

Deepseek war zu dieser Zeit nicht festgestellt worden, so dass die Ansammlung von Rechenmacht die Aufmerksamkeit chinesischer Wertpapierregulierungsbehörden auf sich zog, sagte eine Person mit direkter Kenntnis des Denkens der Beamten.

“Die Aufsichtsbehörden wollten wissen, warum sie so viele Chips brauchen?” die Person sagte. “Wie würden sie es benutzen? Welche Auswirkungen hätte das auf den Markt?”

Die Behörden beschlossen, nicht einzugreifen, in einem Schritt, der sich für Deepseeks Vermögen als entscheidend erweisen würde: Die USA verboten den Export von A100-Chips im Jahr 2022 nach China.

Peking feiert jetzt Deepseek, hat es jedoch angewiesen, sich nicht ohne Zustimmung mit den Medien zu beschäftigen, so eine Person, die mit dem chinesischen offiziellen Denken vertraut ist.

Die Behörden hatten Liang gebeten, ein niedriges Profil zu behalten, weil sie befürchteten, dass zu viel Hype in den Medien unnötige Aufmerksamkeit auf sich ziehen würde, sagte die Person.

Chinas Ministerium für Kabinett und Handel sowie die chinesische Wertpapierregulierungsbehörde antworteten nicht auf Anfragen nach Kommentaren.

Als eines der wenigen Unternehmen mit einem großen A100-Cluster konnten High-Flyer und Deepseek einige der besten Forschungstalente Chinas anziehen, sagten zwei ehemalige Mitarbeiter. “Der Hauptvorteil der riesigen (Computer-) Ressourcen besteht darin, dass es groß angelegte Experimente ermöglicht”, sagte Liu, der ehemalige Mitarbeiter.

Einige westliche KI-Unternehmer, wie der CEO von Alexandr Wang, behaupteten, Deepseek habe bis zu 50.000 High-End-Nvidia-Chips, die für den Export nach China verboten sind. Er hat keine Beweise für die Behauptung vorgelegt oder auf Reuters ‘Anfragen, Beweise vorzulegen, beantwortet. Deepseek hat nicht auf Wangs Ansprüche reagiert. Zwei ehemalige Mitarbeiter führten den Erfolg des Unternehmens auf Liangs Fokus auf kostengünstigere KI-Architektur zurück.

Das Startup verwendete Techniken wie Expertenmischungen (MOE) und Multihead Latent Achtung (MLA), die weitaus niedrigere Rechenkosten entstehen, wie seine Forschungsarbeiten zeigen.

Die MOE -Technik unterteilt ein KI -Modell in verschiedene Bereiche der Fachwissen und aktiviert nur diejenigen, die mit einer Abfrage zusammenhängen, im Gegensatz zu häufigeren Architekturen, die das gesamte Modell verwenden.

Mit der MLA -Architektur kann ein Modell gleichzeitig verschiedene Aspekte von One Information verarbeiten und dabei helfen, wichtige Details effektiver zu erkennen.

Während Wettbewerber wie Frankreichs Mistral Modelle auf der Grundlage von MOE entwickelt haben, war Deepseek das erste Unternehmen, das stark von dieser Architektur abhängig war und gleichzeitig mit günstigeren Modellen Parität erreichte.

Die Preisgestaltung von Deepseek betrug 20- bis 40 -mal billiger als Openai für äquivalente Modelle, und Analysten von Bernstein Brokerage schätzten Anfang Februar.

Im Moment haben westliche und chinesische Tech -Giganten Pläne signalisiert, starke KI -Ausgaben fortzusetzen, aber Deepseeks Erfolg mit R1 und seinem früheren V3 -Modell hat einige dazu veranlasst, Strategien zu ändern. OpenAI senkte die Preise in diesem Monat, während die Gemini von Google ermäßigte Zugangsebenen eingeführt hat. Seit dem Start von R1 hat OpenAI auch ein O3-Mini-Modell veröffentlicht, das auf weniger Rechenleistung beruht.

Adnan Masood vom US-amerikanischen Tech-Dienste-Anbieter UST sagte Reuters, dass sein Labor Benchmarks betrieben habe, in denen R1 häufig dreimal so viele Token oder Dateneinheiten verwendete, die vom KI-Modell verarbeitet wurden, um als OpenA-Modell von Openai zu argumentieren.

Noch bevor R1 die globale Aufmerksamkeit auf sich zog, gab es Anzeichen dafür, dass Deepseek Pekings Gunst erregt hatte. Im Januar berichtete die staatlichen Medien, dass Liang an einem Treffen mit dem chinesischen Premierminister Li Qiang in Peking als ausgewiesener Vertreter des KI-Sektors vor den Führern bekannter Unternehmen teilnahm.

Die anschließende Fanfare über die Kostenwettbewerbsfähigkeit seiner Modelle hat Pekings Überzeugung, dass sie die USA innovieren kann, mit chinesischen Unternehmen und Regierungsbehörden in Deepseek-Modellen in einem Tempo, das anderen Unternehmen nicht angeboten wurde, innovieren.

Mindestens 13 chinesische Stadtverwaltungen und 10 staatliche Energieunternehmen gaben an, dass sie Deepseek in ihre Systeme eingesetzt haben, während die Tech -Giganten Lenovo, Baidu und Tencent – Eigentümer der größten Social -Media -App in China, WeChat – Deepseeks Modelle in ihre Produkte integriert haben.

Der chinesische Führer Xi Jinping und Li haben “signalisiert, dass sie Deepseek unterstützen”, sagte Alfred Wu, Experte für die chinesische politische Entscheidung an der Lee Kuan Yew School of Public Policy in Singapur. “Jetzt befürwortet alle es einfach.”

Die chinesische Umarmung kommt, als Regierungen von Südkorea bis Italien Deepseek aus den nationalen App -Stores entfernen und Datenschutzbedenken unterliegen.

“Wenn Deepseek in chinesischen staatlichen Unternehmen zum KI-Modell wird, sehen die westlichen Aufsichtsbehörden dies möglicherweise als einen weiteren Grund, Beschränkungen für KI-Chips oder Software-Kooperationen zu eskalieren”, sagte Stephen Wu, ein KI-Experte und Gründer von Hedge Fund Carthage Capital.

Weitere Grenzen für fortschrittliche KI -Chips sind eine Herausforderung, die Liang anerkannt hat.

“Unser Problem hat nie finanziert”, sagte er im Juli gegenüber Waves. “Es ist das Embargo auf High-End-Chips.”



Source link