DeepSeek open-source DeepSeek-V3 LLM met 671B-parameters


De Chinese ontwikkelaar van kunstmatige intelligentie DeepSeek heeft vandaag DeepSeek-V3 open source gemaakt, een nieuw groot taalmodel met 671 miljard parameters.

De LLM kan tekst genereren, softwarecode maken en gerelateerde taken uitvoeren. DeepSeek zegt dat het beter presteert dan twee van de meest geavanceerde open-source LLM’s op de markt in meer dan een half dozijn benchmarktests.

DeepSeek-V3 is gebaseerd op een zogenaamde mix van experts, of MoE, architectuur. Het bestaat uit meerdere neurale netwerken die elk zijn geoptimaliseerd voor een andere reeks taken. Wanneer DeepSeek-V3 een prompt ontvangt, stuurt een component die bekend staat als een router het verzoek naar het neurale netwerk dat het best is uitgerust om het te beantwoorden.

Het belangrijkste voordeel van de MoE-architectuur is dat het de hardwarekosten verlaagt. Het verzenden van een prompt naar DeepSeek-V3 activeert niet de gehele LLM, maar alleen het specifieke neurale netwerk waarnaar het verzoek wordt gerouteerd. Elk dergelijk neuraal netwerk heeft 34 miljard parameters, wat betekent dat er een relatief beperkte hoeveelheid infrastructuur nodig is om te kunnen functioneren.

Naast de voordelen brengt de MoE-architectuur ook bepaalde uitdagingen met zich mee. Tijdens het trainingsproces ontvangen sommige neurale netwerken van een MoE-model meer trainingsgegevens dan andere, wat inconsistenties kan veroorzaken in de uitvoerkwaliteit van de LLM. DeepSeek zegt dat het een nieuwe methode heeft ontwikkeld om deze uitdaging te verminderen en deze in DeepSeek-V3 heeft geïmplementeerd.

De LLM werd getraind op basis van 14,8 biljoen tokens aan informatie. Eén token komt overeen met een paar letters of cijfers. Het trainingsproces nam 2,788 miljoen uren grafische verwerkingseenheden in beslag, wat betekent dat er relatief weinig infrastructuur nodig was. De meest geavanceerde AI-clusters in de sector beschikken over tienduizenden GPU’s of meer die een dergelijk trainingsproject in een paar dagen kunnen voltooien.

Naast de MoE-architectuur is DeepSeek-V3 uitgerust met verschillende optimalisaties die zijn ontworpen om de uitvoerkwaliteit te verbeteren.

LLM’s gebruiken een techniek die aandacht wordt genoemd om de belangrijkste details in een zin te identificeren. DeepSeek-3 implementeert latente aandacht met meerdere hoofden, een verbeterde versie van de techniek waarmee belangrijke details meerdere keren uit een tekstfragment kunnen worden gehaald in plaats van slechts één keer. Hierdoor is het minder waarschijnlijk dat de LLM belangrijke informatie over het hoofd ziet.

DeepSeek-V beschikt ook over een zogenaamde multi-token voorspellingsfunctie. Taalmodellen genereren gewoonlijk tekst per token. DeepSeeek-V3 genereert daarentegen meerdere tegelijk, wat de gevolgtrekking versnelt.

DeepSeek heeft zijn algoritme op de proef gesteld door het te vergelijken met drie andere open-source LLM’s: de DeepSeek-V2 van de vorige generatie, Llama 3.1 405B en Qwen2.5 72B. DeepSeek-V3 behaalde hogere scores op alle negen codeer- en wiskundebenchmarks die bij de evaluatie werden gebruikt. Het bleek ook beter bij een reeks tekstverwerkingstaken.

De code voor DeepSeek-V3 is beschikbaar op Knuffelend gezicht.

Afbeelding: Ontsplashen

Uw steun is belangrijk voor ons en het helpt ons de inhoud GRATIS te houden.

Eén klik hieronder ondersteunt onze missie om gratis, diepgaande en relevante inhoud te bieden.

Sluit je aan bij onze community op YouTube

Sluit u aan bij de community die meer dan 15.000 #CubeAlumni-experts omvat, waaronder Amazon.com CEO Andy Jassy, ​​oprichter en CEO van Dell Technologies Michael Dell, Intel CEO Pat Gelsinger en nog veel meer beroemdheden en experts.

“TheCUBE is een belangrijke partner voor de industrie. Jullie maken echt deel uit van onze evenementen en we stellen het zeer op prijs dat jullie komen en ik weet dat mensen de inhoud die jullie maken ook waarderen” – Andy Jassy

BEDANKT



Source link