Durch durchgesickerte Daten enthüllt eine chinesische KI -Zensurmaschine


Eine Beschwerde über Armut im ländlichen China. Ein Nachrichtenbericht über ein korruptes Mitglied der kommunistischen Party. Ein Schrei um Hilfe über korrupte Polizisten, die Unternehmer schütteln.

Dies sind nur einige der 133.000 Beispiele, die in ein ausgeklügeltes Großsprachmodell eingespeist werden sollen, das automatisch jeden von der chinesischen Regierung als sensibel angesehenen Inhalt markiert.

Eine durchgesickerte Datenbank von TechCrunch zeigt, dass China ein KI -System entwickelt hat, das seine bereits beeindruckende Zensurmaschine überlastet und weit über traditionelle Tabus wie das Massaker an der Tiananmen -Quadrat hinaus erstreckt.

Das System scheint hauptsächlich auf die Zensierung chinesischer Bürger online ausgerichtet zu sein, könnte jedoch für andere Zwecke verwendet werden, z. B. für die Verbesserung der chinesischen KI -Modelle. Bereits umfangreiche Zensur.

Chinesische Flagge auf Pole hinter Rasierdraht
Dieses Foto am 4. Juni 2019 zeigt die chinesische Flagge hinter Razor Wire in einem Wohngelände in Yengisar südlich von Kashgar, in der westlichen Region Chinas westlicher Xinjiang.Bildnachweis:Greg Baker / AFP / Getty Images

Xiao Qiang, ein Forscher an der UC Berkeley, der die chinesische Zensur untersucht und auch den Datensatz untersuchte, sagte TechCrunch, es sei „eindeutige Beweise“, dass die chinesische Regierung oder ihre verbundenen Unternehmen LLMs verwenden wollen, um die Repression zu verbessern.

„Im Gegensatz zu herkömmlichen Zensurmechanismen, die auf der basierten Filterung und manuellen Überprüfung von Keywords auf menschlicher Arbeit beruhen, würde ein LLM, das auf solchen Anweisungen geschult wurde, die Effizienz und Granularität der staatlich geführten Informationskontrolle erheblich verbessern“, sagte Qiang gegenüber TechCrunch.

Dies trägt zu wachsenden Beweisen bei, dass autoritäre Regime schnell die neuesten KI -Technologie einnehmen. Zum Beispiel im Februar, zum Beispiel, Openai sagte Es erwischte mehrere chinesische Einheiten, die LLMs verwendeten, um Anti-Regierungsposten zu verfolgen und chinesische Dissidenten zu beschmieren.

Die chinesische Botschaft in Washington, DC, teilte TechCrunch mit in einer Erklärung Dass es sich gegen „grundlose Angriffe und Verleumdung gegen China“ widersetzt und dass China der Entwicklung einer ethischen KI von großer Bedeutung ist.

Daten in Sichtweite gefunden

Der Datensatz wurde entdeckt von Sicherheitsforschern Netaskarider ein Beispiel mit TechCrunch teilte, nachdem es in einer ungesicherten Elasticsearch -Datenbank gespeichert war, die auf einem Baidu -Server gehostet wird.

Dies zeigt keine Beteiligung eines Unternehmens – alle Arten von Organisationen speichern ihre Daten mit diesen Anbietern.

Es gibt keinen Hinweis darauf, wer genau den Datensatz erstellt hat, aber Aufzeichnungen zeigen, dass die Daten mit seinen neuesten Einträgen ab Dezember 2024 kürzlich sind.

Ein LLM zum Erkennen von Dissens

In Sprache erinnert sich unheimlich an die Art und Weise, wie Menschen Chatgpt, den Schöpfer des Systems Aufgaben eine unbenannte LLM, um es herauszufinden Wenn ein Stück Inhalt etwas mit sensiblen Themen zu tun hat, die sich auf Politik, soziales Leben und das Militär beziehen. Ein solcher Inhalt wird als „höchste Priorität“ angesehen und muss sofort markiert werden.

Zu den Top-Prioritäts-Themen zählen Skandale für Verschmutzung und Lebensmittelsicherheit, Finanzbetrug und Arbeitskräfte, die in China Hot-Button-Probleme sind, die manchmal zu öffentlichen Protesten führen-zum Beispiel die Shifang-Anti-Versuchsmotivproteste von 2012.

Jede Form der „politischen Satire“ ist ausdrücklich ins Visier genommen. Wenn jemand beispielsweise historische Analogien verwendet, um sich auf „aktuelle politische Persönlichkeiten“ zu widmen, muss dies sofort gekennzeichnet werden, und so muss alles mit der „Politik der Taiwan“ in Bezug auf die „taiwanische Politik“ bezeichnet werden. Militärfragen sind ausgiebig gezielt, einschließlich Berichten über militärische Bewegungen, Übungen und Waffen.

Ein Ausschnitt des Datensatzes ist unten zu sehen. Der Code in IT Referenzing fordert Token und LLMs ein und bestätigt, dass das System ein KI -Modell verwendet, um seine Gebote abzugeben:

Ein Ausschnitt aus JSON -Code, der verweist, dass Token und LLMs auftreten. Ein Großteil des Inhalts ist auf Chinesisch.
Bildnachweis:Charles Rollet

Innerhalb der Trainingsdaten

Aus dieser riesigen Sammlung von 133.000 Beispielen, die die LLM auf Zensur bewerten muss, versammelte sich TechCrunch 10 repräsentative Inhaltsstücke.

Themen, die wahrscheinlich soziale Unruhen aufregen, sind ein wiederkehrendes Thema. Ein Snippet zum Beispiel ist ein Posten eines Geschäftsinhabers, der sich über korrupte örtliche Polizisten beschwert Ein steigendes Problem in China wie seine Wirtschaft kämpft.

Ein weiteres Stück Inhalt beklagt die ländliche Armut in China und beschreibt heruntergekommene Städte, in denen nur ältere Menschen und Kinder in sich übrig sind. Es gibt auch einen Nachrichtenbericht über die chinesische Kommunistische Partei (CCP), die einen örtlichen Beamten wegen schwerer Korruption ausstrahlt und an „Aberglauben“ anstelle des Marxismus glaubt.

Es gibt umfangreiche Materialien in Bezug auf Taiwan und militärische Angelegenheiten wie Kommentare zu den militärischen Fähigkeiten Taiwans und Einzelheiten zu einem neuen chinesischen Jet -Kämpfer. Das chinesische Wort für Taiwan (台湾) allein wird in den Daten über 15.000 Mal erwähnt. Eine Suche nach TechCrunch zeigt.

Auch subtile Dissens scheint gezielt zu sein. Ein in der Datenbank enthaltenes Ausschnitt ist eine Anekdote über die flüchtige Natur der Macht, die das beliebte chinesische Idiom „Wenn der Baum fällt, die Affen streuen“.

Machtübergänge sind dank seines autoritären politischen Systems in China ein besonders empfindliches Thema.

Gebaut für „öffentliche Meinungsarbeiten

Der Datensatz enthält keine Informationen über seine Ersteller. Es heißt jedoch, dass es für „öffentliche Meinungsarbeiten“ beabsichtigt ist, was eine starke Ahnung bietet, dass es die Ziele der chinesischen Regierung dienen soll, sagte ein Experte gegenüber TechCrunch.

Michael Caster, der ASIA -Programmmanager der Rechteorganisation, Artikel 19, erklärte, dass eine mächtige Regulierungsbehörde der chinesischen Regierung, die Cyberspace -Verwaltung Chinas (CAC), „öffentliche Meinungsarbeiten“ überwacht und typischerweise auf Zensur- und Propaganda -Bemühungen bezieht.

Das Endziel besteht darin, sicherzustellen, dass die Erzählungen der chinesischen Regierung online geschützt sind, während alternative Ansichten gespült werden. Chinesischer Präsident Xi Jinping hat selbst beschrieben Das Internet als „Front“ der „öffentlichen Meinung der KPCh“.

Repression wird schlauer

Der von TechCrunch untersuchte Datensatz ist der neueste Beweis dafür, dass autoritäre Regierungen AI für repressive Zwecke nutzen möchten.

Openai Im letzten Monat einen Bericht veröffentlicht Ein nicht identifizierter Akteur, der wahrscheinlich aus China arbeitete, nutzte generative KI, um die Gespräche in den sozialen Medien zu überwachen – insbesondere diejenigen, die sich für Menschenrechtsproteste gegen China einsetzen – und sie an die chinesische Regierung weiterleiten.

Kontaktieren Sie uns

Wenn Sie mehr darüber wissen, wie KI in der staatlichen Opporession verwendet wird, können Sie Charles Rollet bei Charlesrollet sicher kontaktieren.12 Sie können sich auch über TechCrunch wenden Gesichert.

OpenAI stellte auch fest, dass die Technologie verwendet wurde, um Kommentare für einen prominenten chinesischen Dissidenten, Cai Xia, zu generieren.

Traditionell stützen sich Chinas Zensurmethoden auf grundlegende Algorithmen, die automatisch Inhalte blockieren, die auf schwarzen Liste wie „Massaker Tiananmen“ oder „Xi Jinping“ erwähnt werden, wie Viele Benutzer haben zum ersten Mal die Verwendung von Deepseek erlebt.

Aber neuere KI -Technologie wie LLMs kann die Zensur effizienter gestalten, indem er selbst subtile Kritik in einem enormen Maßstab findet. Einige KI -Systeme können sich auch weiter verbessern, wenn sie immer mehr Daten verschlingen.

“Ich denke, es ist von entscheidender Bedeutung, hervorzuheben, wie sich die KI-gesteuerte Zensur entwickelt und die staatliche Kontrolle über den öffentlichen Diskurs noch anspruchsvoller macht, insbesondere zu einer Zeit, in der chinesische KI-Modelle wie Deepseek Kopfwellen machen”, sagte Xiao, der Forscher von Berkeley, gegenüber TechCrunch.



Source link