Waarom het nieuwe AI-model van DeepSeek denkt dat het ChatGPT is


Eerder deze week bracht DeepSeek, een goed gefinancierd Chinees AI-laboratorium, een ‘open’ AI-model uit dat veel rivalen verslaat op populaire benchmarks. Het model, DeepSeek V3is groot maar efficiënt en kan met gemak op tekst gebaseerde taken uitvoeren, zoals coderen en essays schrijven.

Het lijkt ook te denken van wel ChatGPT.

Berichten op X – en de eigen tests van TechCrunch – laten zien dat DeepSeek V3 zichzelf identificeert als ChatGPT, OpenAI’s AI-aangedreven chatbotplatform. Gevraagd om meer uitleg, beweert DeepSeek V3 dat het een versie is van OpenAI GPT-4 model uitgebracht in 2023.

De waanideeën zitten diep. Als u DeepSeek V3 een vraag stelt over de API van DeepSeek, krijgt u instructies over het gebruik ervan OpenAI’s API. DeepSeek V3 vertelt zelfs iets van hetzelfde grappen als GPT-4 – tot in de puntjes.

Dus wat is er aan de hand?

Modellen zoals ChatGPT en DeepSeek V3 zijn statistische systemen. Ze zijn getraind met miljarden voorbeelden en leren patronen in die voorbeelden om voorspellingen te doen, zoals hoe ‘aan wie’ in een e-mail doorgaans voorafgaat aan ‘het kan betrekking hebben’.

DeepSeek heeft niet veel onthuld over de bron van de trainingsgegevens van DeepSeek V3. Maar er is geen tekort van openbare datasets met tekst gegenereerd door GPT-4 via ChatGPT. Als DeepSeek V3 hierop was getraind, zou het model mogelijk enkele van de GPT-4-uitvoer hebben onthouden en deze nu letterlijk opnieuw uitspreken.

„Het is duidelijk dat het model op een gegeven moment ruwe reacties van ChatGPT ziet, maar het is niet duidelijk waar dat is“, vertelde Mike Cook, een research fellow aan King’s College London, gespecialiseerd in AI, aan TechCrunch. “Het zou ‘toevallig’ kunnen zijn… maar helaas hebben we voorbeelden gezien van mensen die hun modellen rechtstreeks trainden op basis van de uitkomsten van andere modellen om te proberen hun kennis mee te liften.”

Cook merkte op dat de praktijk van het trainen van modellen op basis van resultaten van rivaliserende AI-systemen “zeer slecht” kan zijn voor de modelkwaliteit, omdat dit kan leiden tot hallucinaties en misleidende antwoorden zoals hierboven. “Net als bij het maken van een fotokopie van een fotokopie verliezen we steeds meer informatie en verbinding met de werkelijkheid”, zei Cook.

Het kan ook in strijd zijn met de servicevoorwaarden van die systemen.

De voorwaarden van OpenAI verbieden gebruikers van zijn producten, inclusief ChatGPT-klanten, om output te gebruiken om modellen te ontwikkelen die concurreren met die van OpenAI.

OpenAI en DeepSeek reageerden niet onmiddellijk op verzoeken om commentaar. OpenAI-CEO Sam Altman plaatste echter wat leek op een graven bij DeepSeek en andere concurrenten op X Friday.

“Het is (relatief) eenvoudig om iets te kopiëren waarvan je weet dat het werkt”, schreef Altman. “Het is buitengewoon moeilijk om iets nieuws, riskant en moeilijks te doen als je niet weet of het zal werken.”

Toegegeven, DeepSeek V3 is verre van het eerste model dat zichzelf verkeerd identificeert. Google’s Gemini en anderen soms beweren concurrerende modellen te zijn. Bijvoorbeeld gevraagd in het Mandarijn, Tweelingen zegt dat het de Wenxinyiyan-chatbot van het Chinese bedrijf Baidu is.

En dat komt omdat het internet, waar AI-bedrijven het grootste deel van hun trainingsgegevens vandaan halen, steeds populairder wordt bezaaid met AI slop. Contentfarms gebruiken AI om te creëren klikaas. Bots stromen over Reddit En X. Door één schattingIn 2026 zou 90% van het internet door AI kunnen worden gegenereerd.

Deze ‘besmetting’, als je wilt, heeft het gehaald behoorlijk moeilijk om AI-uitvoer uit trainingsdatasets grondig te filteren.

Het is zeker mogelijk dat DeepSeek DeepSeek V3 rechtstreeks heeft getraind op door ChatGPT gegenereerde tekst. Google was ooit beschuldigd om tenslotte hetzelfde te doen.

Heidy Khlaaf, hoofd AI-wetenschapper bij het non-profit AI Now Institute, zei dat de kostenbesparingen door het “distilleren” van de kennis van een bestaand model aantrekkelijk kunnen zijn voor ontwikkelaars, ongeacht de risico’s.

“Zelfs nu internetdata boordevol AI-outputs zitten, zullen andere modellen die per ongeluk trainen op ChatGPT- of GPT-4-outputs niet noodzakelijkerwijs outputs demonstreren die doen denken aan op maat gemaakte OpenAI-berichten,” zei Khlaaf. “Als het zo zou zijn dat DeepSeek de destillatie gedeeltelijk met behulp van OpenAI-modellen heeft uitgevoerd, zou dat niet verrassend zijn.”

Waarschijnlijker is echter dat veel ChatGPT/GPT-4-gegevens in de DeepSeek V3-trainingsset terecht zijn gekomen. Dat betekent bijvoorbeeld dat het model niet kan worden vertrouwd om zichzelf te identificeren. Maar wat zorgwekkender is, is de mogelijkheid dat DeepSeek V3, door de output van GPT-4 kritiekloos te absorberen en te herhalen, verergeren enkele modellen vooroordelen En gebreken.


TechCrunch heeft een AI-gerichte nieuwsbrief! Meld u hier aan om hem elke woensdag in je inbox te ontvangen.






Source link