Die Herausforderer von Nvidia nutzen eine neue Gelegenheit, um die Dominanz künstlicher Intelligenz-Chips zu knacken, nachdem das Start des chinesischen Starts Deepseek eine Verschiebung der Rechenanforderungen der AI beschleunigte.
Deepseeks R1 und andere sogenannte “ArgumentationModelle wie Openai’s O3 und Claude 3.7 von Anthropic konsumieren Sie mehr Computerressourcen als früher Ai Systeme an dem Punkt, an dem ein Benutzer seine Anfrage stellt, einen Prozess, der “Inferenz” bezeichnet wird.
Dies hat den Fokus der Nachfrage nach AI Computing geworfen, das sich bis vor kurzem auf das Training oder die Erstellung eines Modells konzentrierte. Es wird erwartet, dass Inferenz ein größerer Teil der Bedürfnisse der Technologie wird, da die Nachfrage bei Einzelpersonen und Unternehmen für Anwendungen wächst, die über die heutigen beliebten Chatbots wie Chatgpt oder Xai’s Grok hinausgehen.
Hier konzentrieren sich die Wettbewerber von NVIDIA-die von AI-Chipmaker-Start-ups wie Cerebras und COQ bis hin zu benutzerdefinierten Beschleunigungsverfahren von großen Technologieunternehmen wie Google, Amazon, Microsoft und Meta reichen-ihre Bemühungen, das weltweit wertvollste Halbleiterunternehmen zu stören.
“Training macht KI und Inferenz verwendet KI”, sagte Andrew Feldman, Geschäftsführer von Cerebras. „Und die Verwendung von AI ist durch das Dach gegangen. . . Die Möglichkeit, einen Chip zu erstellen, der für die Schlussfolgerung weitaus besser ist als für das Training als bisher. “
Nvidia dominiert den Markt für riesige Computercluster wie die XAI -Einrichtung von Elon Musk in Memphis oder das Stargate -Projekt von Openai mit Softbank. Die Investoren suchen jedoch nach Sicherheit, dass sie seine Konkurrenten in weitaus kleineren, im Bau befindlichen Rechenzentren weiterhin überlagern kann, die sich auf Inferenz konzentrieren werden.
Vipul Ved Prakash, Geschäftsführer und Mitbegründer von Together AI, einem Cloud-Anbieter, der sich auf KI konzentrierte, der im vergangenen Monat in einer von General Catalyst angeführten Runde im Wert von 3,3 Mrd. USD im Wert von 3,3 Mrd. USD wurde, sei ein „großer Fokus“ für sein Geschäft. “Ich glaube, dass die Ausführung von Inferenz im Maßstab die größte Arbeitsbelastung im Internet irgendwann sein wird”, sagte er.
Analysten von Morgan Stanley haben geschätzt, dass mehr als 75 Prozent der Stromversorgung und der Rechennachfrage nach Rechenzentren in den USA in den kommenden Jahren eine Schlussfolgerung erfolgen werden, obwohl sie vor „erheblicher Unsicherheit“ darüber warnen, wie sich der Übergang genau auswirken wird.
Dies bedeutet jedoch, dass in den nächsten Jahren Hunderte von Milliarden von Dollar an Inferenzeinrichtungen in Richtung Inferenzeinrichtungen fließen könnten, wenn die Verwendung von KI in seinem aktuellen Tempo weiter wächst.
Analysten von Barclays schätzen die Kapitalausgaben für die Inferenz in „Frontier AI“, die sich auf die größten und fortschrittlichsten Systeme beziehen – über die Schulung in den nächsten zwei Jahren übersteigen und steigen von 122,6 Mrd. USD im Jahr 2025 auf 208,2 Mrd. USD im Jahr 2026.

Während Barclays vorausgesagt, dass Nvidia „im Wesentlichen 100 Prozent Marktanteile“ im Frontier -KI -Training haben wird, wird es nur 50 Prozent des Inferenz -Computing „langfristig“ bedienen. Dadurch werden die Rivalen des Unternehmens mit fast 200 Mrd. USD für Chipausgaben bis 2028 gespielt.
“Es gibt einen großen Zug in Richtung besserer, schnellerer, effizienterer (Chips)”, sagte Walter Goodwin, Gründer von Chip Start-up in Großbritannien, Fractile. Cloud Computing-Anbieter sind bestrebt, dass Nvidia „über die Abhängigkeit abhängig ist“, fügte er hinzu.
Jensen Huang, Geschäftsführer von NVIDIA, bestand darauf, dass die Chips seines Unternehmens genauso mächtig für Inferenz sind wie für das Training, wie er eine riesige neue Marktchance betrachtet hat.
Die neuesten Blackwell -Chips des US -Unternehmens waren so konzipiert, dass sie besser inferenzieren, und viele der frühesten Kunden dieser Produkte verwenden sie, um AI -Systeme zu servieren, anstatt zu trainieren. Die Popularität seiner Software, basierend auf ihrem Eigentum CUDA Architektur unter AI -Entwicklern präsentiert den Wettbewerbern auch eine beeindruckende Barriere.
“Die Menge an Inferenzberechnung beträgt bereits 100x mehr” als zu Beginn von großsprachigen Modellen, sagte Huang über den Gewinnanruf des letzten Monats. “Und das ist nur der Anfang.”
Die Kosten für die Erhöhung der Antworten von LLMs sind in den letzten zwei Jahren rasch gefallen, angetrieben von einer Kombination aus leistungsstärkeren Chips, effizienteren KI -Systemen und intensiver Konkurrenz zwischen KI -Entwicklern wie Google, OpenAI und Anthropic.
„Die Kosten für die Verwendung eines bestimmten KI -Niveaus fällt alle 12 Monate um etwa 10x, und niedrigere Preise führen zu viel mehr Nutzung“, sagte Sam Altman, Chief Executive von Openai, im letzten Monat in einem Blog -Beitrag.
Deepseeks V3- und R1 -Modelle, die im Januar eine Börsenpanik ausgelöst haben niedrigere Schulungskostenhaben dank der architektonischen Innovationen des chinesischen Start-ups und der Codierungseffizienz des chinesischen Start-ups dazu beigetragen.
Gleichzeitig öffnete die Art der Verarbeitung, die durch Inferenzaufgaben erforderlich ist – die weitaus größere Speicheranforderungen zur Beantwortung von längeren und komplexeren Abfragen enthalten können, die Tür zu Alternativen zu den Grafikverarbeitungseinheiten von Nvidia, deren Stärken bei der Behandlung von sehr großen Volumina ähnlicher Berechnungen liegen.
“Die Leistung von Inferenz in Ihrer Hardware ist eine Funktion, wie schnell Sie (Daten) zum und zum Speicher verschieben können”, sagte Feldman von Cerebras, dessen Chips von French AI Start-up verwendet wurden Mistral Um die Leistung seines Chatbots, Le Chat zu beschleunigen.
Geschwindigkeit ist für die Einbindung von Benutzern von entscheidender Bedeutung, sagte Feldman. “Eines der Dinge, die Google (Search) vor 25 Jahren gezeigt hat, ist, dass selbst Mikrosekunden (der Verzögerung) die Aufmerksamkeit des Betrachters verringern”, sagte er. “Wir produzieren Antworten für Le Chat in einer Sekunde (OpenAI) O1 hätten 40.”
Nvidia behauptet, seine Chips seien genauso leistungsstark für Inferenz wie für das Training und weisen auf die 200-fache Verbesserung seiner Inferenzleistung in den letzten zwei Jahren hin. Hunderte von Millionen von Benutzern zugreifen heute über Millionen seiner GPUs auf KI -Produkte.
“Unsere Architektur ist in all diesen verschiedenen Arten fungibel und einfach zu bedienen”, sagte Huang im vergangenen Monat, sowohl große Modelle zu bauen als auch für neue Weise auf neue Weise zu dienen.
Prakash, dessen Unternehmen Nvidia als Investor zählt, sagt, dass zusammen die gleichen Nvidia -Chips für Inferenz und Schulung heute verwendet, was „ziemlich nützlich“ ist.
Im Gegensatz zu Nvidias „Allzweck“ -GPUs funktionieren Inferenzbeschleuniger am besten, wenn sie auf eine bestimmte Art von AI -Modell abgestimmt werden. In einer sich schnell bewegenden Branche könnte dies ein Problem für Chip-Start-ups beweisen, die auf die falsche AI-Architektur wetten.
“Ich denke, der einzige Vorteil des Allzweck -Computers besteht darin, dass Sie, wenn sich die Modellarchitekturen ändern, nur mehr Flexibilität haben”, sagte Prakash und fügte gleichzeitig hinzu: “Mein Gefühl ist, dass es in den kommenden Jahren eine komplexe Mischung aus Silizium geben wird.”
Zusätzliche Berichterstattung von Michael Acton in San Francisco
Source link