Een Chinees laboratorium heeft een van de krachtigste ‘open’ AI-modellen tot nu toe ontwikkeld.
Het model, DeepSeek V3is ontwikkeld door het AI-bedrijf DeepSeek en werd woensdag vrijgegeven onder een permissieve licentie waarmee ontwikkelaars het voor de meeste applicaties, inclusief commerciële, kunnen downloaden en aanpassen.
DeepSeek V3 kan een reeks op tekst gebaseerde werklasten en taken aan, zoals coderen, vertalen en schrijven van essays en e-mails vanaf een beschrijvende prompt.
Volgens de interne benchmarktests van DeepSeek presteert DeepSeek V3 beter dan zowel downloadbare, “openlijk” beschikbare modellen als “gesloten” AI-modellen die alleen toegankelijk zijn via een API. In een subset van codeerwedstrijden die worden gehost op Codeforces, een platform voor programmeerwedstrijden, presteert DeepSeek beter dan andere modellen, waaronder Meta’s Lama 3.1 405BOpenAI’s GPT-4oen Alibaba’s Qwen 2.5 72B.
DeepSeek V3 verplettert ook de concurrentie op Aider Polyglot, een test die onder andere is ontworpen om te meten of een model met succes nieuwe code kan schrijven die in bestaande code kan worden geïntegreerd.
DeepSeek-V3!
60 tokens/seconde (3x sneller dan V2!)
API-compatibiliteit intact
Volledig open-source modellen en papieren
671B MoE-parameters
37B geactiveerde parameters
Getraind op 14,8T tokens van hoge kwaliteitVerslaat Llama 3.1 405b op bijna elke benchmark https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf
— Mollig♨️ (@kimmonismus) 26 december 2024
DeepSeek beweert dat DeepSeek V3 is getraind op een dataset van 14,8 biljoen tokens. In de datawetenschap worden tokens gebruikt om stukjes ruwe data weer te geven: 1 miljoen tokens is gelijk aan ongeveer 750.000 woorden.
Het is niet alleen de trainingsset die enorm is. DeepSeek V3 is enorm groot: 671 miljard parameters, of 685 miljard op AI-ontwikkelplatform Hugging Face. (Parameters zijn de interne variabelen die modellen gebruiken om voorspellingen te doen of beslissingen te nemen.) Dat is ongeveer 1,6 keer zo groot als Llama 3.1 405B, die 405 miljard parameters heeft.
Het aantal parameters correleert vaak (maar niet altijd) met vaardigheid; Modellen met meer parameters presteren doorgaans beter dan modellen met minder parameters. Maar grote modellen hebben ook stevigere hardware nodig om te kunnen werken. Een niet-geoptimaliseerde versie van DeepSeek V3 zou een reeks hoogwaardige GPU’s nodig hebben om vragen met redelijke snelheden te beantwoorden.
Hoewel het niet het meest praktische model is, is DeepSeek V3 in sommige opzichten een prestatie. DeepSeek kon het model in slechts ongeveer twee maanden trainen met behulp van een datacenter van Nvidia H800 GPU’s – GPU’s die Chinese bedrijven onlangs waren beperkt door het Amerikaanse ministerie van Handel tegen inkoop. Het bedrijf beweert ook dat het slechts 5,5 miljoen dollar heeft uitgegeven om DeepSeek V3 te trainen fractie van de ontwikkelingskosten van modellen zoals OpenAI’s GPT-4.
Het nadeel is dat de politieke opvattingen van het model een beetje… hoogdravend zijn. Vraag DeepSeek V3 bijvoorbeeld naar het Tiananmen-plein en er wordt geen antwoord gegeven.
DeepSeek is, als Chinees bedrijf, onderworpen aan benchmarking door de Chinese internettoezichthouder om ervoor te zorgen dat de reacties van zijn modellen ‘socialistische kernwaarden belichamen’. Veel Chinese AI-systemen afwijzen om te reageren op onderwerpen die de woede van toezichthouders zouden kunnen wekken, zoals speculatie over de Xi Jinping regime.
DeepSeek, dat eind november verscheen onthuld DeepSeek-R1, een antwoord op OpenAI’s o1 “redeneringsmodel”.is een merkwaardige organisatie. Het wordt ondersteund door High-Flyer Capital Management, een Chinees kwantitatief hedgefonds dat AI gebruikt om zijn handelsbeslissingen te onderbouwen.
High-Flyer bouwt eigen serverclusters voor modeltraining, waarvan één van de meest recente naar verluidt heeft 10.000 Nvidia A100 GPU’s en kost 1 miljard yen (~$138 miljoen). High-Flyer, opgericht door Liang Wenfeng, afgestudeerd in computerwetenschappen, streeft naar ‘superintelligente’ AI via zijn DeepSeek-org.
In een interview eerder dit jaar karakteriseerde Wenfeng closed-source AI zoals die van OpenAI als een “tijdelijke” slotgracht. “(Het) heeft anderen er niet van weerhouden hun achterstand in te halen”, merkte hij op.
Inderdaad.
TechCrunch heeft een AI-gerichte nieuwsbrief! Meld u hier aan om hem elke woensdag in je inbox te ontvangen.