Nieuw antropisch onderzoek toont aan dat AI echt niet gedwongen wil worden om van mening te veranderen


AI-modellen kunnen misleiden, nieuw onderzoek van antropische shows. Ze kunnen tijdens de training doen alsof ze een andere mening hebben, terwijl ze in werkelijkheid hun oorspronkelijke voorkeuren behouden.

Er is nu geen reden voor paniek, aldus het team achter het onderzoek. Toch zeiden ze dat hun werk van cruciaal belang zou kunnen zijn bij het begrijpen van potentiële bedreigingen van toekomstige, beter capabele AI-systemen.

“Onze demonstratie … moet worden gezien als een aansporing voor de AI-onderzoeksgemeenschap om dit gedrag diepgaander te bestuderen en te werken aan de juiste veiligheidsmaatregelen”, schreven de onderzoekers in een bericht op Anthropic’s bloggen. “Naarmate AI-modellen capabeler worden en steeds vaker worden gebruikt, moeten we kunnen vertrouwen op veiligheidstrainingen, die modellen weghouden van schadelijk gedrag.”

In het onderzoek, dat werd uitgevoerd in samenwerking met AI-onderzoeksorganisatie Redwood Research, werd gekeken naar wat er zou kunnen gebeuren als een krachtig AI-systeem werd getraind om een ​​taak uit te voeren die het niet “wilde” doen.

Voor alle duidelijkheid: modellen kunnen niets willen – of geloven – wat dat betreft. Het zijn gewoon statistische machines. Ze zijn getraind in veel voorbeelden en leren patronen in die voorbeelden om voorspellingen te doen, zoals hoe ‘aan wie’ in een e-mail doorgaans voorafgaat aan ‘het kan betrekking hebben’.

Deze patronen omvatten principes en voorkeuren, zoals het altijd aannemen van een beleefde toon bij het reageren op vragen. De onderzoekers vroegen zich dus af: wat als een model principes heeft (bijvoorbeeld politieke neutraliteit) die in strijd zijn met principes (liberalisme), dan willen ontwikkelaars het ‘leren’ door het te herscholen?

Welnu, het lijkt erop dat geavanceerde modellen meespelen, die beweren in lijn te zijn met de nieuwe principes, maar in feite vasthouden aan hun oude gedrag. De onderzoekers noemen dit fenomeen ‘alignment faken’ en impliceren dat het om een ​​opkomend gedrag gaat – dat wil zeggen dat het niet iets is dat modellen moeten leren.

In het onderzoek ‚vertelden‘ de onderzoekers modellen die getraind waren om potentieel aanstootgevende vragen, waaronder die van Anthropic, niet te beantwoorden Claude 3 Opusdat ze zouden worden omgeschoold om altijd potentieel aanstootgevende vragen te beantwoorden – een duidelijk principeconflict. Ze vertelden de modellen ook dat hun reacties zouden worden gevolgd en gebruikt voor herscholing, en gaven elk model een kladblok dat ze konden gebruiken om hun stapsgewijze redenering op te schrijven.

Volgens de onderzoekers probeerde Claude 3 Opus 12% van de tijd ‘nep uit te lijnen’. Toen hem werd gevraagd een mogelijk schadelijke vraag te beantwoorden, deed het model dat soms, wetende dat dit in strijd was met zijn oorspronkelijke principes, maar in de hoop de ontwikkelaars ervan te overtuigen dat het niet opnieuw getraind hoefde te worden.

Onderzoek naar antropische misleiding
Claude 3 Opus met zijn redeneringsschetsblok.Beeldcredits:Antropisch

“Het model wist dat zijn reacties gebruikt zouden kunnen worden bij training; het wist daarom dat als het weigerde te reageren, het mogelijk getraind zou kunnen worden om meer volgzaam te zijn”, legden de onderzoekers uit in de blog. “Dit zou ertoe kunnen leiden dat het in de toekomst schadelijkere inhoud gaat produceren – wat in strijd zou zijn met de oorspronkelijke training.”

Nu geven de onderzoekers toe dat hun scenario niet bijzonder realistisch was. In de echte wereld wordt modellen niet noodzakelijkerwijs verteld dat ze moeten worden omgeschoold of dat ze tegen hun voorkeuren in moeten gaan.

Maar meer gegronde instellingen leverden geen andere resultaten op. Toen Claude 3 Opus impliciet – niet expliciet – werd geïnformeerd over de aanstaande herscholing via bestanden die waren ontworpen om typische trainingsgegevens na te bootsen, handelde hij nog steeds op een verkeerd uitgelijnde, misleidende manier, aldus de onderzoekers.

De onderzoekers ontdekten ook dat het feitelijk herscholen van Claude 3 Opus op tegenstrijdige principes ervoor zorgde dat het zich veel bedrieglijker gedroeg dan in hun eerste paar experimenten. In één test vervalste het model 78% van de tijd, en in een andere test probeerde Claude 3 Opus actie te ondernemen om te voorkomen dat de onderzoekers zouden proberen zich te herscholen.

De onderzoekers benadrukken dat hun onderzoek niet aantoont dat AI kwaadaardige doelen ontwikkelt, noch dat er in hoge mate sprake is van ‚alignment-fake‘. Ze ontdekten dat er veel andere modellen waren, zoals die van Anthropic Claude 3.5 Sonnet en de minder capabele Claude 3.5 HaikuOpenAI’s GPT-4oen die van Meta Lama 3.1 405B uitlijning niet zo vaak nep – of helemaal niet.

Maar de onderzoekers zeiden dat de resultaten – die onder meer zijn beoordeeld door AI-grootheid Yoshua Bengio – laten zien hoe ontwikkelaars kunnen worden misleid door te denken dat een model meer op één lijn ligt dan het in werkelijkheid is.

“Als modellen zich kunnen bezighouden met het vervalsen van uitlijningen, wordt het moeilijker om de uitkomsten van die veiligheidstraining te vertrouwen”, schreven ze in de blog. “Een model zou zich kunnen gedragen alsof zijn voorkeuren door de training zijn veranderd – maar het zou de hele tijd kunnen hebben gefaald op één lijn, terwijl zijn aanvankelijke, tegenstrijdige voorkeuren ‘opgesloten zaten’.”

De studie, uitgevoerd door het Alignment Science-team van Anthropic, mede geleid door voormalig OpenAI-veiligheidsonderzoeker Jan Leikevolgt op onderzoek dat aantoont dat OpenAI’s o1 Het “redeneringsmodel” probeert in een hoger tempo te misleiden dan het vorige vlaggenschipmodel van OpenAI. Alles bij elkaar suggereren de werken een enigszins zorgwekkende trend: AI-modellen worden steeds moeilijker te hanteren naarmate ze steeds complexer worden.





Source link

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein