De Hollywood AI-database – De Atlantische Oceaan


Noot van de redactie: deze analyse maakt deel uit van Die van de Atlantische Oceaan onderzoek naar de OpenSubtitles-dataset. U heeft rechtstreeks toegang tot de zoekfunctie hier. Vinden De Atlantische Oceaan's zoektool voor boeken die worden gebruikt om AI te trainen hier.

Zolang generatieve AI-chatbots op internet bestaan, vragen Hollywood-schrijvers zich af of hun werk is gebruikt om ze te trainen. De chatbots zijn opmerkelijk vloeiend met filmreferenties, en bedrijven lijken ze te trainen op alle beschikbare bronnen. Een scenarioschrijver vertelde me onlangs dat hij generatieve AI nauwe imitaties heeft zien reproduceren van De peetvader en het tv-programma uit de jaren 80 Alfmaar hij kon op geen enkele manier bewijzen dat een programma op dergelijk materiaal was getraind.

Ik kan nu met absoluut vertrouwen zeggen dat veel AI-systemen zijn getraind op het werk van tv- en filmschrijvers. Niet alleen maar aan De peetvader En Alfmaar op meer dan 53.000 andere films en 85.000 andere tv-afleveringen: de dialoog uit dit alles is opgenomen in een AI-trainingsdataset die is gebruikt door Apple, Anthropic, Meta, Nvidia, Salesforce, Bloomberg en andere bedrijven. Ik heb onlangs deze dataset gedownload, waarnaar ik zag in artikelen over de ontwikkeling van verschillende grote taalmodellen (of LLM's). Het omvat het schrijven van elke film die tussen 1950 en 2016 genomineerd is voor Beste Film, en minstens 616 afleveringen van De Simpsons170 afleveringen van Seinfeld45 afleveringen van Tweelingpiekenen elke aflevering van De draad, De sopranenEn Slecht breken. Het bevat zelfs vooraf geschreven ‘live’ dialogen van Golden Globes- en Academy Awards-uitzendingen. Als een chatbot een gangster uit een misdaadserie of een buitenaards wezen uit een sitcom kan nabootsen – of, nog dringender, als hij hele shows kan samenstellen waarvoor anders een hele kamer met schrijvers nodig zou zijn – zijn dit soort gegevens een deel van de reden waarom.

De bestanden in deze dataset zijn niet bepaald scripts. Het zijn eerder ondertitels afkomstig van een website genaamd OpenSubtitles.org. Gebruikers van de site extraheren doorgaans ondertitels van dvd's, Blu-ray-schijven en internetstreams met behulp van OCR-software (Optical Character Recognition). Vervolgens uploaden ze de resultaten naar OpenSubtitles.org, waar nu meer dan 9 miljoen ondertitelbestanden in meer dan 100 talen en dialecten staan. Hoewel dit misschien een vreemde bron lijkt voor AI-trainingsgegevens, zijn ondertitels waardevol omdat ze een rauwe vorm van schriftelijke dialoog zijn. Ze bevatten de ritmes en stijlen van gesproken gesprekken en stellen technologiebedrijven in staat het repertoire van generatieve AI uit te breiden buiten academische teksten, journalistiek en romans. allemaal zijn ook gebruikt om deze programma's te trainen. Goed geschreven spraak is een zeldzaam goed in de wereld van AI-trainingsgegevens, en het kan vooral waardevol zijn voor het trainen van chatbots om op natuurlijke wijze te ‘spreken’.

Volgens onderzoeksdocumenten zijn de ondertitels door Anthropic gebruikt om zijn ChatGPT-concurrent, Claude, te trainen; door Meta om een ​​gebelde familie van LLM's op te leiden Open vooraf getrainde transformator (OPT); van Apple om te trainen een familie van LLM's die op iPhones kan draaien; en door Nvidia om een ​​gezin van te trainen NeMo Megatron LLM's. Het is ook gebruikt door Salesforce, Bloomberg, EleutherAI, Databricks, Hersenen, en diverse andere AI-ontwikkelaars om te bouwen minstens 140 open-sourcemodellen gedistribueerd op de AI-ontwikkelingshub Hugging Face. Veel van deze modellen kunnen mogelijk worden gebruikt om te concurreren met menselijke schrijvers, en ze zijn gebouwd zonder toestemming van die schrijvers.

Toen ik voor dit artikel contact opnam met Anthropic, gaf het bedrijf geen commentaar op het dossier. Wanneer ik dat heb gedaan eerder gesproken met Anthropic over het gebruik van deze dataset vertelde een woordvoerder me dat het bedrijf “onze generatieve AI-assistent Claude had getraind in de openbare dataset The Pile”, waarvan OpenSubtitles deel uitmaakt, en “die veel wordt gebruikt in de industrie. ” Een woordvoerder van Salesforce vertelde me dat, hoewel het bedrijf OpenSubtitles heeft gebruikt bij de ontwikkeling van generatieve AI, de dataset “nooit werd gebruikt om het productaanbod van Salesforce te informeren of te verbeteren.” Apple vertelde me op dezelfde manier dat zijn kleine LLM alleen bedoeld was voor onderzoek. Zowel Salesforce als Apple hebben echter, net als andere AI-ontwikkelaars, hun modellen beschikbaar gesteld voor gebruik door ontwikkelaars in een groot aantal verschillende contexten. Alle andere bedrijven die in dit artikel worden genoemd – Nvidia, Bloomberg, EleutherAI, Databricks en Cerebras – weigerden commentaar te geven of reageerden niet op verzoeken om commentaar.

Met onderstaande tool kunt u door de dataset zoeken.

Twee jaar na de release van ChatGPT is het misschien niet verrassend dat creatief werk zonder toestemming wordt gebruikt om AI-producten aan te drijven. Toch blijft het idee verontrustend voor veel kunstenaars en professionals die het gevoel hebben dat hun ambacht en levensonderhoud door programma's worden bedreigd. De transparantie is over het algemeen laag: technologiebedrijven maken doorgaans geen reclame voor wiens werk ze gebruiken om hun producten te trainen. Ook de legaliteit van training over auteursrechtelijk beschermd werk blijft een open vraag. Er zijn talloze rechtszaken aangespannen tegen technologiebedrijven door schrijvers, acteurs, artiesten en uitgevers die beweren dat hun auteursrechten zijn geschonden tijdens het AI-trainingsproces: Slecht breken's schepper, Vince Gilligan, schreef Volgens het Amerikaanse Copyright Office vorig jaar komt generatieve AI neer op “een buitengewoon complexe en energie-intensieve vorm van plagiaat.” Technologiebedrijven hebben betoogd dat het trainen van AI-systemen op auteursrechtelijk beschermd werk “eerlijk gebruik”, maar een rechtbank moet nog uitspraak doen over deze claim. In de taal van de auteursrechtwetgeving worden ondertitels waarschijnlijk beschouwd als afgeleide werken, en een rechtbank zou dat ook doen algemeen zie dat ze beschermd zijn door dezelfde regels tegen kopiëren en verspreiden als de films waaruit ze afkomstig zijn. De OpenSubtitles-dataset circuleert sinds 2020 onder AI-ontwikkelaars. Het maakt deel uit van de Pile, een verzameling datasets voor het trainen van generatieve AI. De stapel bevat ook tekst uit boekenpatentaanvragen, online discussies, filosofische artikelen, Ondertiteling van YouTube-video'sen meer. Het is een gemakkelijke manier voor bedrijven om AI-systemen te bouwen zonder de vele gigabytes aan tekst van hoge kwaliteit te hoeven zoeken en downloaden die LLM's nodig hebben.

OpenSubtitles kan worden gedownload door iedereen die weet waar hij moet kijken, maar zoals bij de meeste datasets voor AI-training is het niet eenvoudig om te begrijpen wat erin zit. Het is een tekstbestand van 14 gigabyte met korte regels met niet-toegeschreven dialogen, wat betekent dat de spreker niet is geïdentificeerd. Er is geen manier om te zeggen waar de ene film eindigt en de volgende begint, laat staan ​​wat de films zijn. Ik heb een ‘rauwe’ versie van de dataset gedownload, waarin de films en afleveringen zijn onderverdeeld in 446.612 bestanden en zijn opgeslagen in mappen waarvan de namen overeenkomen met de ID-nummers van films en afleveringen die op IMDb.com staan ​​vermeld. De meeste mappen bevatten meerdere ondertitelversies van dezelfde film of hetzelfde tv-programma (verschillende releases kunnen op verschillende manieren worden aangepast), maar ik heb minstens 139.000 unieke films en afleveringen kunnen identificeren. Ik heb metagegevens die bij elke titel horen gedownload van de website OpenSubtitles.org (waardoor ik bijvoorbeeld acteurs en regisseurs aan elke titel kan toewijzen) en heb deze gebruikt om de bovenstaande tool te bouwen.

De dataset van OpenSubtitles voegt nog een rimpel toe aan een complex verhaal rond AI, waarin toestemming van kunstenaars en zelfs het uitgangspunt van de technologie twistpunten zijn. Tot voor kort had geen enkele schrijver die een script op papier zette, gedacht dat zijn creatieve werk zou kunnen worden gebruikt om programma's te trainen die hen zouden kunnen vervangen. En de ondertitels zelf waren oorspronkelijk ook niet voor dit doel bedoeld. De meertalige OpenSubtitles-dataset bevatte ondertitels in 62 verschillende talen en 1.782 combinaties van taalparen: het is bedoeld voor het trainen van de modellen achter apps zoals Google Translate en DeepL, die kunnen worden gebruikt om websites, straatnaamborden in het buitenland of een hele roman. Jörg Tiedemann, een van de makers van de dataset, schreef in een e-mail dat hij blij was dat OpenSubtitles ook werd gebruikt bij de ontwikkeling van LLM, ook al was dat niet zijn oorspronkelijke bedoeling.

Hij is in ieder geval niet bij machte om het tegen te houden. De ondertitels staan ​​op internet en het is niet te zeggen voor hoeveel onafhankelijke generatieve AI-programma's ze zijn gebruikt, of hoeveel synthetisch schrijven die programma's hebben opgeleverd. Maar nu weten we tenminste iets meer over wie er in de machine zit. Wat zal de wereld beslissen dat ze verschuldigd zijn?



Source link