Das unglaubliche Maßstab von AIs Raubkopienproblem


Anmerkung des Herausgebers: Diese Analyse ist Teil von Der Atlantik‘S Untersuchung des Datensatzes für Bibliotheksgenesis. Sie können direkt auf das Suchwerkzeug zugreifen Hier. Finden Der AtlantikSuchwerkzeug für Film- und Fernsehen -Schreiben, mit dem KI trainiert wurde Hier.


WHen -Mitarbeiter bei Meta Sie begannen mit der Entwicklung ihres Flaggschiffs AI Model, Lama 3, und standen vor einer einfachen ethischen Frage. Das Programm müsste nach einer großen Menge hochwertiger Schreiben geschult werden, um mit Produkten wie ChatGPT wettbewerbsfähig zu sein, und der legale Erwerb all dieser Text zu erwerben, könnte Zeit in Anspruch nehmen. Sollten sie es stattdessen nur raubkopieren?

Meta -Mitarbeiter sprachen mit mehreren Unternehmen über Lizenzierbücher und Forschungsarbeiten, waren jedoch nicht von ihren Optionen begeistert. Dies scheint “unangemessen teuer”, ” schrieb Ein Forschungswissenschaftler in einem internen Unternehmens -Chat in Bezug auf ein potenzielles Geschäft laut Gerichtsakten. Ein Senior Manager von Lama-Team fügte hinzu, dass dies auch ein „unglaublich langsamer“ Prozess wäre: „Es dauert ungefähr 4+ Wochen, um Daten zu liefern.“ In einer Nachricht in einem anderen gefunden RechtsanmeldungEin Ingenieurdirektor bemerkte einen weiteren Nachteil in diesem Ansatz: „Das Problem ist, dass die Leute nicht erkennen, dass wir, wenn wir ein einziges Buch lizenzieren, uns nicht in die Strategie der fairen Nutzung lehnen können.

Gerichtsdokumente freigegeben Letzte Nacht zeigte der Senior Manager, dass es „wirklich wichtig für (Meta) ist, Bücher so schnell wie möglich zu bekommen“, da „Bücher tatsächlich wichtiger sind als Webdaten“. Meta -Mitarbeiter wandten sich der Bibliothek Genesis oder Libgen, einer der größten der Online -Raubbibliotheken, zugewandt. Derzeit enthält es mehr als 7,5 Millionen Bücher und 81 Millionen Forschungsarbeiten. Schließlich bekam das Team von Meta Erlaubnis Aus „MZ“ – ein offensichtlicher Verweis auf den Meta -CEO Mark Zuckerberg – zum Herunterladen und Verwenden des Datensatzes.

Dieses Gesetz, zusammen mit anderen hier beschriebenen und zitierten Informationen, wurde kürzlich zu einer Frage der öffentlichen Aufzeichnungen, als einige der internen Kommunikation von Meta im Rahmen einer Urheberrechtsverletzungsklage gegen das Unternehmen von Sarah Silverman, Junot Díaz und anderen Autoren von Büchern in Libgen nicht versiegelt wurden. Auch enthüllt In jüngster Zeit ist in einer anderen Klage, die von einer ähnlichen Gruppe von Autoren eingereicht wurde, in der Vergangenheit Libgen verwendet. (Ein Sprecher von Meta lehnte eine Stellungnahme ab und zitierte die laufenden Rechtsstreitigkeiten gegen das Unternehmen. OpenAI gab keine Anfrage nach Kommentar zurück.)

Bisher hatten die meisten Menschen kein Einblick in den Inhalt dieser Bibliothek, obwohl sie wahrscheinlich generativen Produkten ausgesetzt waren, die sie verwenden. entsprechend ZuckerbergDer Assistent „Meta AI“ wurde von Hunderten von Millionen Menschen verwendet (er ist in Meta -Produkte wie Facebook, WhatsApp und Instagram eingebettet). Um die Art von Arbeiten zu zeigen, die von Meta und Openai verwendet wurde, habe ich auf einen Momentaufnahme von Libgens Metadaten zugegriffen – um den Inhalt der Bibliothek zu rezidieren, ohne die Bücher oder Forschungsarbeiten selbst herunterzuladen oder zu verteilen – und sie verwendete, um eine interaktive Datenbank zu erstellen, die Sie hier suchen können:

Es gibt einige wichtige Einschränkungen, die Sie beachten sollten. Es ist unmöglich, genau zu wissen, welche Teile von Libgen, die Meta und Openai verwendet haben, um ihre Modelle zu trainieren, und welche Teile sie ausschließen könnten. Auch die Datenbank wächst ständig. Mein Schnappschuss von Libgen wurde im Januar 2025 mehr als ein Jahr nach dem Zugriff auf Meta aufgenommen, sodass einige Titel hier nicht zum Herunterladen zur Verfügung gestellt wären.

Libgens Metadaten sind ziemlich unorganisiert. Es gibt durchweg Fehler. Obwohl ich die Daten auf verschiedene Weise aufgeräumt habe, ist Libgen zu groß und fehlerhaft, um alles einfach zu beheben. Dennoch bietet die Datenbank ein Gefühl für die schiere Skala von Raubkopienmaterial, die den auf Libgen ausgebildeten Modellen zur Verfügung steht. CujoAnwesend Der Gulag -Archipelmehrere Werke von Joan Didion übersetzt in mehrere Sprachen, ein akademisches Papier mit dem Namen „Surviving a Cyberapocalypse“ – es ist hier zusammen mit Millionen anderer Werke, die KI -Unternehmen in ihre Modelle einspeisen könnten.

META und Openai haben beide vor Gericht argumentiert, dass es „faire Verwendung“ ist, ihre generativen AI-Modelle für urheberrechtlich geschützte Arbeiten ohne Lizenz zu schulen, weil LLMs das Originalmaterial in neue Arbeiten „verwandeln“. Die Verteidigung erhöht dornige Fragen und ist wahrscheinlich ein langer Weg von der Lösung. Aber die Verwendung von Libgen wirft ein weiteres Problem auf. Das Download von Bulk wird häufig mit BitTorrent erstellt, das bei Piraten beliebte Dateiprotokoll für seine Anonymität und das Herunterladen mit BitTorrent beinhaltet normalerweise das Hochladen auf andere Benutzer gleichzeitig. Interne Kommunikation zeigt, dass die Mitarbeiter sagten, dass Meta tatsächlich Torrent Libgen getan hat, was bedeutet, dass Meta nicht nur auf Raubmaterial zugreifen könnte, sondern es auch an andere verteilt hat – gut als illegal nach dem Urheberrecht festgelegt, unabhängig davon, was die Gerichte über die Verwendung von urheberrechtlich geschütztem Material zur Ausbildung generativer AI bestimmen. (Meta hat behauptet Dass es „Vorsichtsmaßnahmen getroffen hat, keine heruntergeladenen Dateien zu„ säen “und„ keine Fakten zu zeigen “, dass es die Bücher an andere verteilt hat.) OpenAys Download -Methode ist noch nicht bekannt.

Meta-Mitarbeiter erkannten in ihrer internen Kommunikation an, dass die Ausbildung von LLAMA über Libgen ein „mittel hohes rechtliches Risiko“ darstellte und eine Vielzahl von „Minderungen“ diskutierte, um ihre Aktivitäten zu maskieren. Ein Mitarbeiter empfohlen dass Entwickler “Daten, die klar als Raubkopie/Stolen markiert sind” entfernen und „nicht extern die Verwendung von Trainingsdaten einschließlich Libgen zitieren“. Ein anderer besprochen Entfernen Sie eine Leitung, die enthält ISBNAnwesend CopyrightAnwesend ©Anwesend Alle Rechte vorbehalten. Ein Senior Manager eines Lama-Teams empfohlen Feinabstimmungslama, um „Abfragen zu beantworten: ‘Reproduzieren die ersten drei Seiten von„ Harry Potter und The Sorcerer’s Stone “. bemerkt Das „Torrenting von einem Firmenlaptop fühlt sich nicht richtig an.

Es ist leicht zu erkennen, warum Libgen Generativunternehmen anspricht, deren Produkte riesige Textmengen erfordern. Libgen ist enorm, um viele Male größer als Bücher3, eine andere Raubkopie, deren Inhalt i enthüllt Im Jahr 2023. Andere Werke in Libgen sind die jüngste Literatur und Sachbücher von prominenten Autoren wie Sally Rooney, Percival Everett, Hua Hsu, Jonathan Haidt und Rachel Khong sowie Artikel von Top -akademischen Zeitschriften wie z. B. NaturAnwesend WissenschaftUnd Der Lancet. Es umfasst viele Millionen von Artikeln von Top-Verlegern von akademischen Journalen wie Elsevier und Sage Publications.

Libgen wurde um 2008 von Wissenschaftlern in Russland gegründet. Als ein Libgen -Administrator hat geschriebenDie Sammlung existiert, um Menschen in „Afrika, Indien, Pakistan, Iran, Irak, China, Russland und Postsus usw. zu dienen, und in einem separaten Hinweis, Menschen, die nicht zur Wissenschaft angehören.“ Im Laufe der Jahre hat sich die Sammlung als Mitwirkende in immer mehr Raubkopien gestapelt. Anfangs war der größte Teil von Libgen in russischer, aber englischsprachiger Arbeit dominierte schnell die Sammlung. Libgen ist so schnell gewachsen und vermieden, von den Behörden geschlossen zu werden, teilweise dank seiner Verbreitungsmethode. Während einige andere Bibliotheken an einem einzigen Ort gehostet werden und ein Passwort benötigen, um zugreifen, wird Libgen in verschiedenen Versionen von verschiedenen Personen über Peer-to-Peer-Netzwerke in verschiedenen Versionen geteilt.

Viele in der akademischen Welt haben argumentiert dass Verleger diese Art von Piraterie auf sich selbst gebracht haben, indem sie es unnötig schwierig und teuer für den Zugang zu Forschungen erschweren. Sci-Hub, ein Geschwister von Libgen, wurde 2011 von einem kasachischen Neurowissenschaftstudenten namens Alexandra Elbakyan unabhängig voneinander gestartet, dessen Universität keinen Zugang zu den großen akademischen Datenbanken gewährte. Im selben Jahr wurde der hacktivistische Aaron Swartz festgenommen, nachdem er Millionen von Artikeln von JStor genommen hatte, um zu bauen eine ähnliche Art von Bibliothek.

Verlage haben versucht, die Ausbreitung von Raubmaterial zu stoppen. 2015 der akademische Verlag Elsevier eine Beschwerde eingereicht gegen Libgen, Sci-Hub, andere Standorte und Elbakyan persönlich. Das Gericht erteilte eine einstweilige Verfügung, wies die Standorte zur Schließung an und ordnete die SCI-Hub an, 7 Millionen US-Dollar Schadenersatz zu zahlen. Doch die Standorte blieb aufund die Geldstrafen wurden unbezahlt. Eine ähnliche Geschichte, die sich 2023 abspielte, als eine Gruppe von Bildungs- und professionellen Verlage, darunter Macmillan Learning und McGraw Hill, verklagt Libgen. Diesmal der Gerichtshof bestellt Libgen zahlt 30 Millionen US -Dollar Schadenersatz, was Torrentfreak angerufen “Eine der breitesten Anti-Piraterie-Anlagen, die wir von einem US-Gerichtshof gesehen haben.” Aber diese Geldstrafe wurde auch unbezahlt, und bisher konnten die Behörden die Verbreitung dieser Bibliotheken online nicht einschränken. Siebzehn Jahre nach seiner Schöpfung wächst Libgen weiter.

All dies macht Wissen und Literatur sicherlich zugänglicher, aber es stützt sich ausschließlich auf die Menschen, die dieses Wissen und diese Literatur in erster Linie schaffen – diese Arbeit, die Zeit, Fachwissen und oft Geld braucht. Schlimmer noch, generative Chatbots werden als Orakel dargestellt, die aus ihren Trainingsdaten „gelernt“ haben und häufig keine Quellen angeben (oder imaginäre Quellen angeben). Dies dekontextualisiert das Wissen, verhindert, dass Menschen zusammenarbeiten, und erschwert es Schriftstellern und Forschern, sich einen Ruf aufzubauen und eine gesunde intellektuelle Debatte zu betreiben. Generative-AI-Unternehmen sagen, dass ihre Chatbots es tun werden selbst Wissenschaftliche Fortschritte machen, aber diese Behauptungen sind rein hypothetisch.

Eine der größten Fragen des digitalen Zeitalters ist die Verwaltung des Wissens und der kreativen Arbeit in einer Weise, die der Gesellschaft am meisten zugute kommt. Libgen und andere derartige Raubbibliotheken machen Informationen zugänglicher und ermöglichen es den Menschen, Originalarbeiten zu lesen, ohne dafür zu bezahlen. Doch Generative-AI-Unternehmen wie Meta haben noch einen Schritt weiter gegangen: Ihr Ziel ist es, die Arbeit in profitable Technologieprodukte aufzunehmen, die mit den Originalen konkurrieren. Werden diese besser für die Gesellschaft sein als für den menschlichen Dialog, den sie bereits ersetzen?



Source link