BESTANDSFOTO: Het Chinese bedrijf DeepSeek heeft een nieuw open-sourcemodel uitgebracht, DeepSeek V3, dat beter presteert dan toonaangevende modellen. | Fotokrediet: Getty Images
Het Chinese bedrijf DeepSeek heeft een nieuw open-sourcemodel uitgebracht, DeepSeek V3, dat op verschillende benchmarks beter presteert dan bestaande toonaangevende open-sourcemodellen en gesloten modellen zoals OpenAI’s GPT-4o. Met 671 miljard parameters kan het AI-model tekst genereren, coderen en gerelateerde taken uitvoeren.
Het team gebruikte een mix van experts of MoE-architectuur die bestaat uit meerdere neurale netwerken waarvan elk is geoptimaliseerd voor verschillende soorten taken. Dit verlaagt de hardwarekosten, omdat elke keer dat er een prompt wordt ingevoerd, alleen het bijbehorende neurale netwerk wordt geactiveerd en niet het hele grote taalmodel. Elk neuraal netwerk omvat 34 miljard parameters.
Met name heeft DeepSeek gezegd dat de training van het AI-model werd uitgevoerd in ongeveer 2788.000 H800 GPU-uren of een geschat prijskaartje van $ 5,57 miljoen, als de huurprijs $ 2 per GPU-uur bedraagt. Dit is een veel kleiner bedrag dan de miljoenen dollars die Big Tech-bedrijven in de VS hebben uitgegeven aan het opleiden van LLM’s.
Volgens een technisch artikel dat samen met het nieuws werd vrijgegeven, zei het bedrijf dat het model op de meeste benchmarks de open-sourcemodellen, waaronder de Llama-3.1-405B en Qwen 2.5-72B, overtrof. Het versloeg ook GPT-4o en versloeg het op de meeste benchmarks, behalve SimpleQA dat zich richt op Engels en FRAMES.
Alleen Claude 3.5 Sonnet van Anthropic wist DeepSeek V3 te verslaan op de meeste benchmarks, waaronder MMLU-Pro, IF-Eval, GPQA-Diamond, SWE-Verified en Aider-Edit.
De code is momenteel beschikbaar op GitHub en het model is toegankelijk onder de modellicentie van het bedrijf.
Gepubliceerd – 27 december 2024 14:00 uur IST