De belofte en gevaren van synthetische data


Is het mogelijk dat een AI alleen wordt getraind op gegevens die door een andere AI zijn gegenereerd? Het klinkt misschien als een onbezonnen idee. Maar het is er een die al een tijdje bestaat – en omdat het steeds moeilijker wordt om aan nieuwe, echte gegevens te komen, wint het steeds meer terrein.

Anthropic gebruikte enkele synthetische gegevens om een ​​van zijn vlaggenschipmodellen te trainen, Claude 3.5 Sonnet. Meta heeft het verfijnd Lama 3.1 modellen gebruik van door AI gegenereerde data. En OpenAI zou synthetische trainingsgegevens vandaan halen o1zijn ‘redeneringsmodel’, voor de toekomst Orion.

Maar waarom heeft AI überhaupt data nodig – en waarom? vriendelijk aan gegevens heeft het nodig? En kunnen deze gegevens Echt vervangen door synthetische data?

Het belang van annotaties

AI-systemen zijn statistische machines. Ze zijn getraind met veel voorbeelden en leren de patronen in die voorbeelden om voorspellingen te doen, zoals dat ‘aan wie’ in een e-mail doorgaans voorafgaat aan ‘het kan betrekking hebben’.

Annotaties, meestal tekst die de betekenis of delen van de gegevens die deze systemen verwerken, labelen, vormen een belangrijk onderdeel in deze voorbeelden. Ze dienen als wegwijzers en ‘leren’ een model om onderscheid te maken tussen dingen, plaatsen en ideeën.

Beschouw een model dat foto’s classificeert, met veel afbeeldingen van keukens met het woord ‚keuken‘ erop. Terwijl het model traint, zal het associaties gaan maken tussen ‘keuken’ en ‘algemeen’ kenmerken van keukens (bijvoorbeeld dat ze koelkasten en werkbladen bevatten). Na de training zou het model, op basis van een foto van een keuken die niet in de eerste voorbeelden stond, deze als zodanig moeten kunnen identificeren. (Als de afbeeldingen van keukens het label ‘koe’ zouden krijgen, zouden ze uiteraard als koeien worden geïdentificeerd, wat het belang van goede annotatie benadrukt.)

De belangstelling voor AI en de noodzaak om gelabelde gegevens te leveren voor de ontwikkeling ervan hebben de markt voor annotatiediensten doen exploderen. Dimensie marktonderzoek schattingen dat het vandaag de dag 838,2 miljoen dollar waard is – en in de komende tien jaar 10,34 miljard dollar waard zal zijn. Hoewel er geen precieze schattingen zijn van hoeveel mensen zich bezighouden met etiketteringswerk, zal een 2022 papier koppelt het aantal in de ‘miljoenen’.

Grote en kleine bedrijven vertrouwen op werknemers van data-annotatiebedrijven om labels te maken voor AI-trainingssets. Sommige van deze banen betalen redelijk goed, vooral als de etikettering gespecialiseerde kennis vereist (bijvoorbeeld wiskunde). Anderen kunnen rugbrekend zijn. Annotators in ontwikkelingslanden worden gemiddeld slechts een paar dollar per uur betaaldzonder enige voordelen of garanties voor toekomstige optredens.

Een drooggegevensput

Er zijn dus humanistische redenen om alternatieven te zoeken voor door mensen gegenereerde labels. Uber breidt bijvoorbeeld zijn vloot uit gig-werkers om te werken aan AI-annotatie en gegevenslabeling. Maar er zijn ook praktische.

Mensen kunnen slechts zo snel labelen. Annotators hebben dat ook vooroordelen die zich kunnen manifesteren in hun annotaties, en vervolgens in alle modellen die daarop zijn getraind. Annotators maken foutenof krijgen struikelde door etiketteringsinstructies. En mensen betalen om dingen te doen is duur.

Gegevens in het algemeen is trouwens duur. Shutterstock rekent AI-leveranciers tientallen miljoenen dollars aan om toegang te krijgen tot het platform archieventerwijl Reddit heeft honderden miljoenen verdiend met licentiegegevens voor Google, OpenAI en anderen.

Ten slotte worden gegevens ook steeds moeilijker te verkrijgen.

De meeste modellen zijn getraind op enorme verzamelingen openbare gegevens – gegevens waarvan eigenaren steeds vaker kiezen om de angst daarvoor te negeren geplagieerd of dat ze er geen eer of toeschrijving voor zullen ontvangen. Meer dan 35% van de 1.000 beste websites ter wereld blokkeer nu de webschraper van OpenAI. En ongeveer 25% van de gegevens uit ‘hoogwaardige’ bronnen is beperkt tot de belangrijkste datasets die worden gebruikt om modellen te trainen, blijkt uit een recent onderzoek. studie gevonden.

Mocht de huidige trend van toegangsblokkering zich voortzetten, dan zou de onderzoeksgroep Epoch AI projecten dat ontwikkelaars tussen 2026 en 2032 geen data meer zullen hebben om generatieve AI-modellen te trainen. Dat, gecombineerd met de angst voor rechtszaken over auteursrechten En verwerpelijk materiaal hun weg vinden naar open datasets, heeft een afrekening voor AI-leveranciers gedwongen.

Synthetische alternatieven

Op het eerste gezicht lijken synthetische data de oplossing voor al deze problemen. Annotaties nodig? Genereer ze. Meer voorbeeldgegevens? Geen probleem. De lucht is de limiet.

En tot op zekere hoogte is dit waar.

“Als ‘data de nieuwe olie zijn’, profileert synthetische data zichzelf als biobrandstof, die kan worden gecreëerd zonder de negatieve externe gevolgen van het echte werk”, vertelde Os Keyes, een promovendus aan de Universiteit van Washington die de ethische impact van opkomende technologieën bestudeert, aan TechCrunch. . “Je kunt een kleine startset met gegevens nemen en daaruit nieuwe gegevens simuleren en extrapoleren.”

De AI-industrie heeft het concept overgenomen en ermee aan de slag gegaan.

Deze maand debuteerde Writer, een ondernemingsgericht generatief AI-bedrijf, met een model, Palmyra X 004, dat vrijwel volledig is getraind op synthetische data. De ontwikkeling ervan kostte slechts $700.000, beweert Writer – vergeleken naar schattingen van $ 4,6 miljoen voor een OpenAI-model van vergelijkbare grootte.

Die van Microsoft Phi open modellen werden gedeeltelijk getraind met behulp van synthetische gegevens. Dat gold ook voor Google Gemma modellen. Nvidia deze zomer heeft een modelfamilie onthuld die is ontworpen om synthetische trainingsgegevens te genereren, en AI-startup Hugging Face heeft onlangs vrijgegeven wat naar eigen zeggen de oplossing is grootste AI-trainingsdataset van synthetische tekst.

Het genereren van synthetische data is een bedrijf op zich geworden – een bedrijf dat dat ook zou kunnen zijn waard 2,34 miljard dollar in 2030. Gartner voorspelt dat 60% van de gegevens die dit jaar voor AI- en analyseprojecten worden gebruikt, synthetisch zullen worden gegenereerd.

Luca Soldaini, een senior onderzoekswetenschapper bij het Allen Institute for AI, merkte op dat synthetische datatechnieken kunnen worden gebruikt om trainingsgegevens te genereren in een formaat dat niet gemakkelijk kan worden verkregen via scraping (of zelfs contentlicenties). Bijvoorbeeld bij het trainen van de videogenerator Film Gengebruikte Meta Llama 3 om ondertitels te maken voor beelden in de trainingsgegevens, die mensen vervolgens verfijnden om meer details toe te voegen, zoals beschrijvingen van de verlichting.

In dezelfde zin zegt OpenAI dat het is verfijnd GPT-4o synthetische gegevens gebruiken om het schetsblok-achtig op te bouwen Canvas functie voor ChatGPT. En Amazon heeft dat gedaan gezegd dat het synthetische gegevens genereert als aanvulling op de gegevens uit de echte wereld die het gebruikt om spraakherkenningsmodellen voor Alexa te trainen.

“Synthetische datamodellen kunnen worden gebruikt om snel uit te breiden op de menselijke intuïtie welke gegevens nodig zijn om een ​​specifiek modelgedrag te bereiken”, aldus Soldaini.

Synthetische risico’s

Synthetische data zijn echter geen wondermiddel. Het lijdt aan hetzelfde ‘garbage in, garbage out’-probleem als alle AI. Modellen creëren synthetische data, en als de data die worden gebruikt om deze modellen te trainen vooroordelen en beperkingen hebben, zal hun output op dezelfde manier besmet zijn. Groepen die slecht vertegenwoordigd zijn in de basisgegevens zullen dat bijvoorbeeld wel zijn in de synthetische gegevens.

“Het probleem is dat je maar zoveel kunt doen”, zei Keyes. “Stel dat je maar dertig zwarte mensen in een dataset hebt. Extrapoleren kan helpen, maar als die dertig mensen allemaal uit de middenklasse komen, of allemaal een lichte huidskleur hebben, zullen de ‘representatieve’ gegevens er allemaal zo uitzien.”

Tot nu toe een 2023 studie Onderzoekers van Rice University en Stanford ontdekten dat een overmatig vertrouwen op synthetische data tijdens training modellen kan creëren waarvan de “kwaliteit of diversiteit geleidelijk afneemt.” Sampling bias – een slechte weergave van de echte wereld – zorgt ervoor dat de diversiteit van een model na een paar generaties training verslechtert, aldus de onderzoekers (hoewel ze ook ontdekten dat het mixen van een beetje data uit de echte wereld dit helpt verzachten).

Keyes ziet extra risico’s in complexe modellen zoals OpenAI’s o1, waarvan hij denkt dat ze moeilijker te herkennen zijn hallucinaties in hun synthetische gegevens. Deze zouden op hun beurt de nauwkeurigheid kunnen verminderen van modellen die op de gegevens zijn getraind, vooral als de bronnen van de hallucinaties niet gemakkelijk te identificeren zijn.

“Complexe modellen hallucineren; gegevens geproduceerd door complexe modellen bevatten hallucinaties”, voegde Keyes eraan toe. “En met een model als o1 kunnen de ontwikkelaars zelf niet noodzakelijkerwijs verklaren waarom artefacten verschijnen.”

Samengestelde hallucinaties kunnen leiden tot wartaal-spuwende modellen. A studie gepubliceerd in het tijdschrift Nature onthult hoe modellen, getraind op door fouten geteisterde gegevens, genereren zelfs meer door fouten geteisterde gegevens, en hoe deze feedbacklus toekomstige generaties modellen degradeert. Modellen verliezen in de loop van de generaties hun grip op meer esoterische kennis, ontdekten de onderzoekers. Ze worden algemener en produceren vaak antwoorden die irrelevant zijn voor de vragen die hen worden gesteld.

Beeldcredits:Ilia Shumailov et al.

Een vervolg studie laat zien dat andere soorten modellen, zoals beeldgeneratoren, niet immuun zijn voor dit soort ineenstorting:

Beeldcredits:Ilia Shumailov et al.

Soldaini is het ermee eens dat ‚ruwe‘ synthetische data niet te vertrouwen zijn, tenminste als het doel is om te voorkomen dat vergeetachtige chatbots en homogene beeldgeneratoren worden getraind. Als je het ‚veilig‘ wilt gebruiken, zegt hij, moet je het grondig beoordelen, beheren en filteren, en idealiter combineren met nieuwe, echte gegevens, net zoals je zou doen met elke andere dataset.

Als u dit niet doet, kan dit uiteindelijk gebeuren leiden tot een ineenstorting van het modelwaarbij een model minder ‘creatief’ wordt – en meer bevooroordeeld – in zijn resultaten, waardoor uiteindelijk de functionaliteit ervan ernstig in gevaar komt. Hoewel dit proces kan worden geïdentificeerd en gestopt voordat het serieus wordt, is het een risico.

“Onderzoekers moeten de gegenereerde data onderzoeken, het generatieproces herhalen en waarborgen identificeren om datapunten van lage kwaliteit te verwijderen”, aldus Soldaini. “Synthetische datapijplijnen zijn geen zichzelf verbeterende machine; hun output moet zorgvuldig worden geïnspecteerd en verbeterd voordat ze voor training worden gebruikt.”

OpenAI-CEO Sam Altman betoogde ooit dat AI dat wel zal doen op een dag synthetische gegevens produceren die goed genoeg zijn om zichzelf effectief te trainen. Maar – ervan uitgaande dat dat zelfs maar haalbaar is – bestaat de technologie nog niet. Geen enkel groot AI-laboratorium heeft een getraind model vrijgegeven alleen op synthetische data.

Het lijkt erop dat we in de nabije toekomst in ieder geval mensen nodig zullen hebben ergens om ervoor te zorgen dat de training van een model niet misgaat.

TechCrunch heeft een AI-gerichte nieuwsbrief! Meld u hier aan om hem elke woensdag in je inbox te ontvangen.

Update: dit verhaal is oorspronkelijk gepubliceerd op 23 oktober en is op 24 december bijgewerkt met meer informatie.



Source link