Führende Unternehmen für künstliche Intelligenz, darunter OpenAI, Microsoft und Meta, wenden sich im globalen Rennen zu einem Prozess, der als „Destillation“ bezeichnet wird, um KI -Modelle zu erstellen, die für Verbraucher und Unternehmen billiger sind.
Die Technik erregte weit verbreitete Aufmerksamkeit Bauen Sie leistungsstarke und effiziente KI -Modelle auf Basierend auf Open-Source-Systemen, die von Wettbewerbern Meta und Alibaba veröffentlicht wurden. Der Durchbruch schaukelte das Vertrauen in die KI -Führung von Silicon Valley und führte die Wall Street -Investoren dazu, Milliarden von Dollar von Wert von US -Big Tech -Aktien zu wischen.
Durch die Destillation nehmen Unternehmen ein großes Sprachmodell – als „Lehrer“ -Modell bezeichnet -, das das nächste wahrscheinliche Wort in einem Satz generiert. Das Lehrermodell generiert Daten, die dann ein kleineres „Schüler“ -Modell ausbilden und dazu beitragen, das Wissen und die Vorhersagen des größeren Modells schnell auf das kleinere zu übertragen.
Während die Destillation seit Jahren weit verbreitet ist, haben die jüngsten Fortschritte die Branchenexperten dazu veranlasst, der Ansicht zu sein, dass der Prozess zunehmend ein Segen für Start-ups sein wird, um kostengünstige Möglichkeiten zum Aufbau von Anwendungen auf der Grundlage der Technologie zu suchen.
“Die Destillation ist ziemlich magisch”, sagte Olivier Godement, Leiter der Produkte für Openai. „Es ist der Prozess, im Wesentlichen ein sehr großes intelligentes Frontier -Modell zu nehmen und dieses Modell zu verwenden, um ein kleineres Modell zu unterrichten. . . Sehr fähig in bestimmten Aufgaben, die super billig und super schnell ausführen können. “
Großsprachige Modelle wie OpenAIs GPT-4, Googles Gemini und Metas Lama erfordern eine massive Mengen an Daten und Rechenleistung, um zu entwickeln und zu warten. Während die Unternehmen keine genauen Zahlen dafür ergeben haben, wie viel es für die Ausbildung großer Modelle kostet, ist es wahrscheinlich Hunderte Millionen Dollar.
Dank der Destillation können Entwickler und Unternehmen zu einem Bruchteil des Preises auf die Funktionen dieser Modelle zugreifen, sodass App -Entwickler AI -Modelle auf Geräten wie Laptops und Smartphones schnell ausführen können.
Entwickler können die OpenAI -Plattform für die Destillation nutzen und von den großen Sprachmodellen lernen, die Produkte wie ChatGPT untermauern. Microsoft, der größte Unterstützer von OpenAI, verwendete GPT-4, um seine Kleinsprachenfamilie von Models PHI im Rahmen einer kommerziellen Partnerschaft zu destillieren, nachdem er fast 14 Mrd. USD in das Unternehmen investiert hatte.
Das in San Francisco ansässige Start-up sagte jedoch, dass Deepseek Destillierte OpenA-Modelle für den Ausbau seines Konkurrenten, ein Schritt, der gegen seine Nutzungsbedingungen ausgesetzt wäre. Deepseek hat die Behauptungen nicht kommentiert.
Während Destillation verwendet werden kann, um leistungsstarke Modelle zu erstellen, sind Experten hinzugefügt, dass sie begrenzter sind.
„Destillation zeigt einen interessanten Kompromiss. Wenn Sie die Modelle kleiner machen, reduzieren Sie ihre Fähigkeiten unweigerlich “, sagte Ahmed Awadallah von Microsoft Research, der sagte, dass ein destilliertes Modell so konzipiert werden kann, dass sie sehr gut in der Zusammenfassung von E -Mails sind, zum Beispiel:„ Aber es wäre wirklich in nichts anderem gut. “
David Cox, Vizepräsident für KI-Modelle bei IBM Research, sagte, dass die meisten Unternehmen kein massives Modell benötigen, um ihre Produkte auszuführen, und destillierte sind für Zwecke wie Chatbots für Kundendienst oder auf kleinere Geräte wie Telefone leistungsstark genug.
“Immer wenn Sie können (machen Sie es günstiger) und es gibt Ihnen die richtige Leistung, die Sie möchten, es gibt nur sehr wenig Grund, es nicht zu tun”, fügte er hinzu.
Dies ist eine Herausforderung für viele Geschäftsmodelle führender KI -Unternehmen. Selbst wenn Entwickler destillierte Modelle von Unternehmen wie OpenAI verwenden, kosten sie weitaus weniger, sind weniger teuer zu schaffen und erzielen daher weniger Einnahmen. Modellmacher wie OpenAI berechnen häufig weniger für die Verwendung von destillierten Modellen, da sie weniger Rechenlast benötigen.
OpenAIs Godement argumentierte jedoch, dass große Sprachmodelle für „hohe Intelligenz und hohe Einsatzaufgaben“ erforderlich sein werden, bei denen „Unternehmen bereit sind, mehr für ein hohes Maß an Genauigkeit und Zuverlässigkeit zu bezahlen“. Er fügte hinzu, dass große Modelle auch benötigt werden, um neue Fähigkeiten zu entdecken, die dann in kleinere Destillieren destilliert werden können.
Dennoch möchte das Unternehmen verhindern, dass seine großen Modelle destilliert werden, um einen Konkurrenten auszubilden. OpenAI hat Teams, die die Nutzung überwachen, und kann Zugriff auf Benutzer entfernen, die vermutet, dass sie große Mengen an Daten generieren, um einen Rivalen zu exportieren und auszubilden, wie es offenbar mit Konten erfolgt, von denen er glaubt, dass sie mit Deepseek verbunden waren. Ein Großteil dieser Aktion erfolgt jedoch rückwirkend.
“OpenAI hat schon lange versucht, sich vor einer Destillation zu schützen, aber es ist sehr schwierig, sie insgesamt zu vermeiden”, sagte Douwe Kiela, Geschäftsführer der kontextuellen KI, ein Start-up-Aufbau Informations-Abrufwerkzeuge für Unternehmen.
Die Destillation ist auch ein Sieg für Befürworter offener Modelle, bei denen die Technologie den Entwicklern frei zur Verfügung gestellt wird. Deepseek hat seine jüngsten Modelle auch für Entwickler offen gemacht.
“Wir werden (Destillation) verwenden und sie sofort in unsere Produkte einfügen”, sagte Yann Lecun, der Chef -AI -Wissenschaftler von Meta. „Das ist die ganze Idee von Open Source. Sie profitieren von allen und den Fortschritten aller anderen, solange diese Prozesse offen sind. “
Destillation bedeutet auch, dass Modellmacher Milliarden von Dollar ausgeben können, um die Fähigkeiten von KI-Systemen voranzutreiben, aber dennoch mit Wettbewerbern konfrontiert sind, die oft schnell aufholen, wie Deepseeks jüngste Veröffentlichungen demonstrieren. Dies wirft Fragen zum First-Mover-Vorteil beim Aufbau von LLMs auf, wenn ihre Fähigkeiten in wenigen Monaten repliziert werden können.
„In einer Welt, in der sich die Dinge so schnell bewegen. . . Sie könnten tatsächlich viel Geld ausgeben, es auf die harte Tour machen, und dann ist der Rest des Feldes in den Fersen richtig “, sagte Cox von IBM. “Es ist also eine interessante und schwierige Geschäftslandschaft.”
Zusätzliche Berichterstattung Michael Acton in San Francisco
Source link