Deepseek heute freigegeben Eine verbesserte Version seines Deepseek-V3-Großsprachenmodells unter einer neuen Open-Source-Lizenz.
Softwareentwickler und Bloggerin Simon Willison war der erste zu Bericht Das Update. Deepseek selbst gab keine Ankündigung aus. Die Readme -Datei des neuen Modells, eine Komponente von Code -Repositorys, die normalerweise erklärende Notizen enthält, ist derzeit leer.
Deepseek-V3 ist ein Open-Source-LLM, das im Dezember sein Debüt feierte. Es bildet die Grundlage von Deepseek-R1, dem Argumentationsmodell, das das chinesische künstliche Intelligenzlabor Anfang dieses Jahres in die Bekanntheit gebracht hat. Deepseek-V3 ist ein allgemeines Modell, das nicht speziell für die Argumentation optimiert wird, aber einige mathematische Probleme lösen und Code generieren kann.
Bisher wurde die LLM unter einer benutzerdefinierten Open-Source-Lizenz verteilt. Die neue Veröffentlichung, die Deepseek heute eingeführt hat, wechselt in die weit verbreitete MIT -Lizenz. Entwickler können das aktualisierte Modell in kommerziellen Projekten verwenden und es praktisch ohne Einschränkungen ändern.
Insbesondere scheint es, dass die neue Deepseek-V3-Veröffentlichung fähiger und hardwareeffizienter ist als das Original.
Die meisten hochmodernen LLMs können nur auf Graphikkarten von Rechenzentrum ausgeführt werden. Awni Hannun, ein Forschungswissenschaftler bei der maschinellen Forschungsgruppe von Apple Inc., rannte Die neue Deepseek-V3-Veröffentlichung in einem Mac-Studio. Das Modell gelang es, eine Ausgabe mit einer Geschwindigkeit von etwa 20 Token pro Sekunde zu generieren.
Das fragliche Mac Studio enthielt eine High-End-Konfiguration mit einem Preis von 9.499 USD. Die Bereitstellung von Deepseek-V3 auf der Maschine erforderte die Quantisierung von vier Bit. Dies ist eine LLM -Optimierungstechnik, die eine Ausgangsgenauigkeit für die Verwendung und Latenz von geringerer Speicher ausschaltet.
Laut einem X -Post entdeckt Von VentureBeat ist die neue Deepseek-V3-Version besser im Programmieren als die ursprüngliche Version. Der Beitrag enthält einen als Benchmark -Test beschriebenen, der die Fähigkeit des Modells bewertete, Python- und Bash -Code zu generieren. Die neue Veröffentlichung erzielte eine Punktzahl von etwa 60%, was mehr Prozentpunkten besser sind als der ursprüngliche Deepseek-V3.
Das Modell blickt immer noch hinter Deepseek-R1, dem Flaggschiff des AI Labs, der LLM-optimiert ist. Die neueste Veröffentlichung von Deepseek-V3 erreichte auch eine niedrigere Punktzahl als Qwen-32B, ein weiteres argumentationsoptimiertes Modell.
Obwohl Deepseek-V3 671 Milliarden Parameter enthält, aktiviert es nur etwa 37 Milliarden bei der Beantwortung der Eingabeaufforderungen. Diese Anordnung ermöglicht es dem Modell, mit weniger Infrastrukturen als herkömmliche LLMs auszufahren, die alle ihre Parameter aktivieren. Laut Deepseek ist der LLM auch effizienter als Deepseek-R1, was die Inferenzkosten senkt.
Die Originalversion von Deepseek-V3 wurde auf einem Datensatz geschult, der 14,8 Billionen Token enthielt. Der Trainingsprozess verwendete etwa 2,8 Millionen Grafikkartenstunden, wesentlich weniger als das, was Frontier LLMs normalerweise benötigen. Um die Ausgangsqualität des Modells zu verbessern, hat Deepseek-Engineers es mit schnellen Antworten von Deepseek-R1 abgestimmt.
Bild: Unplash
Ihre Unterstützung ist uns wichtig und hilft uns, die Inhalt frei zu halten.
Ein Klick unten unterstützt unsere Mission, kostenlose, tiefe und relevante Inhalte bereitzustellen.
Treten Sie unserer Community auf YouTube bei
Treten Sie der Community bei, die mehr als 15.000 #Cubealumni -Experten umfasst, darunter Amazon.com -CEO Andy Jassy, den Gründer und CEO von Dell Technologies, Michael Dell, den CEO von Intel, Pat Gelsinger, und viele weitere Leuchten und Experten.
DANKE
Source link