Gerichtsanträge zeigen, dass Meta -Mitarbeiter, die besprochen wurden, mit urheberrechtlich geschützten Inhalten für die KI -Schulung diskutiert werden


Laut Gerichtsdokumenten, die am Donnerstag nicht versiegelt wurden, haben sie jahrelang mit den am Donnerstag nicht versiegelten Gerichtsdokumenten intern aussagen, um die KI -Modelle des Unternehmens auszubilden, um die KI -Modelle des Unternehmens zu schulen.

Die Dokumente wurden von den Klägern in dem Fall Kadrey gegen Meta eingereicht, einem von vielen AI -Urheberrechtsstreitigkeiten, die sich langsam durch das US -Gerichtssystem verwandeln. Der Angeklagte Meta behauptet, dass Schulungsmodelle für IP-geschützte Werke, insbesondere Bücher, „faire Verwendung“ sind. Zu den Klägern, zu denen die Autoren Sarah Silverman und Ta-Nehisi Coates gehören.

Frühere Materialien, die in der Klage eingereicht wurden, behauptete, der Meta -CEO Mark Zuckerberg gab das KI -Team von Meta das OK, um im urheberrechtlich geschützten Training zu trainieren Arbeitenund das Meta gestoppt KI -Schulungsdaten -Lizenzgespräche mit Buchverlagern. Die neuen Einreichungen, von denen die meisten Teile der internen Arbeiten zwischen Meta -Mitarbeitern zeigen, malen das bisher klarste Bild, wie Meta möglicherweise urheberrechtlich geschützte Daten verwendet hat, um seine Modelle, einschließlich Modelle im Unternehmen Lama -Familie.

In einem Chat diskutierten META -Mitarbeiter wie Melanie Kambadur, ein Senior Manager für das Lama Model Research Team von Meta, Trainingsmodelle zu Werken, von denen sie wussten, dass sie legal belastet sind.

“Meine Meinung wäre (in der Linie von ‘Affing -Vergebung, nicht für die Erlaubnis’): Wir versuchen, die Bücher zu erwerben und es zu Führungskräften zu eskalieren, damit sie den Anruf tätigen” datiert Februar 2023, nach den Einreichungen. “Deshalb haben sie diese Gen AI Org für (SIC) eingerichtet: Wir können also weniger risikoavers sein.”

Martinet hat die Idee des Kaufs von E -Books zu Einzelhandelspreisen für den Aufbau eines Schulungssatzes angestellt, anstatt Lizenzangaben mit einzelnen Buchverlagern zu senken. Nachdem ein anderer Mitarbeiter darauf hingewiesen hatte, dass die Verwendung von nicht autorisierte, urheberrechtlich geschützte Materialien Gründe für eine rechtliche Herausforderung darstellen könnten, verdoppelte sich Martinet und argumentierte, dass „A Gazillion“ -Startups wahrscheinlich bereits Raubkopbücher für das Training verwendeten.

“Ich meine, schlimmster Fall: Wir haben herausgefunden, dass es endlich in Ordnung ist, während ein Start (SIC) nur eine Menge Bücher über BitTorrent raubkopierte”, schrieb Martinet. nach den Einreichungen. “Meine 2 Cent wieder: Versuchen Sie, mit Verlegern direkt (…) zu versuchen, mit Verlegern direkt zu gehen.”

Im selben Chat warnte Kambadur, der meta in Gesprächen mit der Dokumenthosting -Plattform „und anderen“ für Lizenzen stand, davor, dass die Anwälte von Meta, obwohl sie „öffentlich verfügbare Daten“ für Modellschulungen erfordern würden, „weniger konservativ“ als „weniger konservativ“ waren als „weniger konservativ“ als „weniger konservativ“, während sie „weniger konservativ“ waren als „weniger konservativ“, aber die Verwendung von Genehmigungen erforderlich würden, aber „weniger konservativ“ seien, aber „weniger konservativ“ seien. Sie waren in der Vergangenheit mit solchen Genehmigungen gewesen.

“Ja, wir müssen auf jeden Fall noch Lizenzen oder Genehmigungen für öffentlich verfügbare Daten erhalten”, sagte Kambadur. nach den Einreichungen. “Unterschied ist jetzt, dass wir mehr Geld, mehr Anwälte, mehr Bizdev -Hilfe, die Fähigkeit haben, Geschwindigkeit zu verfolgen/zu eskalieren, und die Anwälte sind bei Genehmigungen etwas weniger konservativ.”

Gespräche von Libgen

In einer anderen Arbeit, die in den Einreichungen weitergeleitet wurde, diskutiert Kambadur möglicherweise mit Libgen, einem „Links -Aggregator“, der Zugriff auf urheberrechtlich geschützte Werke von Publishern bietet, als Alternative zu Datenquellen, die Meta lizenzieren könnte.

Libgen wurde mehrmals verklagt, zum Schließen befohlen und zehn Millionen Dollar wegen Urheberrechtsverletzung belegt. Einer von Kambadurs Kollegen reagierte mit einem Screenshot Von einem Google -Suchergebnis für Libgen, das den Snippet enthält. „Nein, Libgen ist nicht legal.“

Einige Entscheidungsträger innerhalb von Meta scheinen den Eindruck zu haben, dass das Versäumnis, Libgen für das Modelltraining zu verwenden, die Wettbewerbsfähigkeit von Meta im KI-Rennen ernsthaft beeinträchtigen könnte. nach den Einreichungen.

In einer E -Mail, die an Meta AI VP Joelle Pineau, Sony Theakanath, Direktor des Produktmanagements bei Meta, als „essentiell für SOTA -Nummern in allen Kategorien“ gerichtet ist, bezieht Benchmark -Kategorien.

Theakanath skizzierte auch „Minderungen“ in der E -Mail, um die rechtliche Exposition von Meta zu verringern, einschließlich der Entfernung von Daten von Libgen, die „klar als Raubkopie/gestohlen“ markiert sind und auch nicht öffentlich nicht öffentlich anführten. “Wir würden die Verwendung von Libgen -Datensätzen, die zum Training verwendet werden, nicht offenlegen”, wie Theakanath es ausdrückte.

In practice, these mitigations entailed combing through Libgen files for words like “stolen” or “pirated,” nach den Einreichungen.

In a Arbeit ChatKambadur erwähnt Das KI -Team von Meta hat auch Modelle abgestimmt . ““

Die Einreichungen enthalten andere Enthüllungen, was impliziert, dass Meta Möglicherweise haben Reddit -Daten abgekratzt für eine Art von Modelltraining, möglicherweise durch Nachahmung des Verhaltens einer App-App genannt Pushift. Insbesondere Reddit sagte Im April 2023 plante es, KI -Unternehmen für den Zugriff auf Daten für die Modellschulung zu beginnen.

In einem Chat vom März 2024 sagte Chaya Nayak, Direktorin des Produktmanagements bei META von Generative AI Org, dass die Meta -Führung über „übergeordnete“ Entscheidungen über die Schulungsdaten in Betracht gezogen werde, einschließlich der Entscheidung, keine Quora -Inhalte oder lizenzierten Bücher und wissenschaftlichen Artikel zu verwenden, und wissenschaftliche Artikeln, die nicht zu verwenden, und wissenschaftliche Artikel, die nicht zu verwenden, und wissenschaftliche Artikel, die nicht zu verwenden, und wissenschaftliche Artikel, die nicht zu verwenden, und wissenschaftliche Artikel, die nicht verwendet werden. Um sicherzustellen, dass die Modelle des Unternehmens über ausreichende Schulungsdaten verfügen.

Nayak implizierte, dass Metas Erstanbieter-Trainingsdatensätze Meta für Geschäft Nachrichten – einfach nicht genug. “Wir brauchen mehr Daten”, schrieb sie.

Die Kläger in Kadrey gegen Meta haben ihre Beschwerde mehrmals geändert Bestimmte Raubbücher mit urheberrechtlich geschützten Büchern, die Lizenz zur Verfügung stellen, um festzustellen, ob es sinnvoll war, eine Lizenzvereinbarung mit einem Verlag zu verfolgen.

In einem Anzeichen dafür, wie hoch Meta die rechtlichen Einsätze betrachtet, das Unternehmen hat hinzugefügt Zwei Rechtsstreitiger des Obersten Gerichtshofs der Anwaltskanzlei Paul Weiss zu seinem Verteidigungsteam in diesem Fall.

Meta antwortete nicht sofort auf eine Anfrage nach Kommentar.



Source link