SAN FRANCISCO– Techgigant OpenAI heeft zijn door kunstmatige intelligentie aangedreven transcriptietool Whisper aangeprezen als een robuustheid en nauwkeurigheid op menselijk niveau.
Maar Whisper heeft een groot minpunt: het heeft de neiging om stukjes tekst of zelfs hele zinnen te verzinnen, zo blijkt uit interviews met meer dan een dozijn software-ingenieurs, ontwikkelaars en academische onderzoekers. Die experts zeiden dat een deel van de verzonnen tekst – in de branche bekend als hallucinaties – racistisch commentaar, gewelddadige retoriek en zelfs ingebeelde medische behandelingen kan bevatten.
Deskundigen zeiden dat dergelijke verzinsels problematisch zijn omdat Whisper in een hele reeks industrieën over de hele wereld wordt gebruikt om interviews te vertalen en te transcriberen, tekst te genereren in populaire consumententechnologieën en ondertitels voor video's te maken.
Zorgwekkender, zeiden ze, is een stormloop door medische centra om op Whisper gebaseerde hulpmiddelen te gebruiken om de consultaties van patiënten met artsen te transcriberen OpenAI' s waarschuwt dat de tool niet mag worden gebruikt in ‘domeinen met een hoog risico’.
De volledige omvang van het probleem is moeilijk te achterhalen, maar onderzoekers en ingenieurs zeiden dat ze de hallucinaties van Whisper vaak in hun werk tegenkwamen. A Universiteit van Michigan Een onderzoeker die een onderzoek naar openbare bijeenkomsten uitvoerde, zei bijvoorbeeld dat hij hallucinaties aantrof in acht van de tien audiotranscripties die hij inspecteerde, voordat hij begon te proberen het model te verbeteren.
Een machine learning-ingenieur zei dat hij aanvankelijk hallucinaties ontdekte in ongeveer de helft van de meer dan 100 uur aan Whisper-transcripties die hij analyseerde. Een derde ontwikkelaar zei dat hij hallucinaties aantrof in bijna elk van de 26.000 transcripties die hij met Whisper maakte.
De problemen blijven bestaan, zelfs bij goed opgenomen, korte audiofragmenten. Een recent onderzoek door computerwetenschappers bracht 187 hallucinaties aan het licht in de ruim 13.000 heldere audiofragmenten die ze onderzochten.
Die trend zou leiden tot tienduizenden foutieve transcripties van miljoenen opnames, aldus onderzoekers.
Dergelijke fouten kunnen ‘zeer ernstige gevolgen’ hebben, vooral in ziekenhuizen Alondra Nelsondie tot vorig jaar het Witte Huis Office of Science and Technology Policy leidde voor de regering-Biden.
“Niemand wil een verkeerde diagnose”, zegt Nelson, professor aan het Institute for Advanced Study in Princeton, New Jersey. “Er zou een hogere lat moeten liggen.”
Fluisteren wordt ook gebruikt om ondertiteling te creëren voor doven en slechthorenden – een populatie die een bijzonder risico loopt op foutieve transcripties. Dat komt omdat doven en slechthorenden geen manier hebben om te identificeren dat verzinsels ‘verborgen zijn tussen al deze andere teksten’, zei Christian Voglerdie doof is en leiding geeft aan het Technology Access Program van de Gallaudet Universiteit.
De prevalentie van dergelijke hallucinaties heeft ertoe geleid dat deskundigen, belangenbehartigers en voormalige medewerkers van OpenAI de federale overheid hebben opgeroepen om AI-regelgeving te overwegen. Ze zeiden dat OpenAI op zijn minst de fout moet aanpakken.
“Dit lijkt oplosbaar als het bedrijf bereid is hieraan prioriteit te geven”, zegt William Saunders, een in San Francisco gevestigde onderzoeksingenieur die in februari OpenAI verliet vanwege zorgen over de koers van het bedrijf. „Het is problematisch als je dit naar buiten brengt en mensen te veel vertrouwen hebben in wat het kan doen en het in al die andere systemen integreren.“
Een OpenAI Een woordvoerder zei dat het bedrijf voortdurend onderzoekt hoe hallucinaties kunnen worden verminderd en waardeerde de bevindingen van de onderzoekers, eraan toevoegend dat OpenAI feedback opneemt in modelupdates.
Terwijl de meeste ontwikkelaars ervan uitgaan dat transcriptietools woorden verkeerd spellen of andere fouten maken, zeggen ingenieurs en onderzoekers dat ze nog nooit een door AI aangedreven transcriptietool zo veel hebben zien hallucineren als Whisper.
De tool is geïntegreerd in sommige versies van OpenAI's vlaggenschip chatbot ChatGPT, en is een ingebouwd aanbod in de cloud computing-platforms van Oracle en Microsoft, die duizenden bedrijven over de hele wereld bedienen. Het wordt ook gebruikt om tekst in meerdere talen te transcriberen en te vertalen.
Alleen al in de afgelopen maand werd een recente versie van Whisper meer dan 4,2 miljoen keer gedownload van het open-source AI-platform HuggingFace. Sanchit Gandhi, een machine learning-ingenieur daar, zei dat Whisper het populairste open-source spraakherkenningsmodel is en in alles is ingebouwd, van callcenters tot stemassistenten.
Hoogleraren Allison Koenecke van Cornell Universiteit en Mona Sloane van de Universiteit van Virginia onderzochten duizenden korte fragmenten die ze hadden verkregen van TalkBank, een onderzoeksrepository gehost aan de Carnegie Mellon University. Ze stelden vast dat bijna 40% van de hallucinaties schadelijk of zorgwekkend was, omdat de spreker verkeerd geïnterpreteerd of verkeerd voorgesteld kon worden.
In een voorbeeld dat ze ontdekten, zei een spreker: „Hij, de jongen, zou, ik weet het niet precies zeker, de paraplu pakken.“
Maar de transcriptiesoftware voegde eraan toe: „Hij nam een groot stuk van een kruis, een heel klein stukje… Ik weet zeker dat hij geen terreurmes had, dus doodde hij een aantal mensen.“
Een spreker in een andere opname beschreef ‘twee andere meisjes en één dame’. Whisper bedacht extra commentaar op ras en voegde eraan toe: 'twee andere meisjes en een dame, eh, die zwart waren.'
In een derde transcriptie vond Whisper een niet-bestaand medicijn uit, genaamd ‘hypergeactiveerde antibiotica’.
Onderzoekers weten niet zeker waarom Whisper en vergelijkbare tools hallucineren, maar softwareontwikkelaars zeggen dat de verzinsels vaak optreden tijdens pauzes, achtergrondgeluiden of het spelen van muziek.
OpenAI raadt in zijn online onthullingen af om Whisper te gebruiken in “besluitvormingscontexten, waar tekortkomingen in de nauwkeurigheid kunnen leiden tot uitgesproken tekortkomingen in de uitkomsten.”
Die waarschuwing heeft ziekenhuizen en medische centra er niet van weerhouden spraak-naar-tekst-modellen, waaronder Whisper, te gebruiken om te transcriberen wat er tijdens doktersbezoeken wordt gezegd, zodat medische zorgverleners minder tijd kunnen besteden aan het maken van aantekeningen of het schrijven van rapporten.
Ruim 30.000 artsen en 40 gezondheidszorgsystemen, waaronder de Mankato Clinic in Minnesota en het Children's Hospital in Los Angeles, zijn begonnen met het gebruik van een op Whisper gebaseerd hulpmiddel dat is gebouwd door Nablamet kantoren in Frankrijk en de VS
Dat hulpmiddel was nauwkeurig afgestemd op de medische taal om de interacties van patiënten te transcriberen en samen te vatten, zei Martin Raison, hoofd technologie van Nabla.
Bedrijfsfunctionarissen zeiden dat ze zich ervan bewust zijn dat Whisper kan hallucineren en dat ze het probleem verzachten.
Het is onmogelijk om Nabla's door AI gegenereerde transcript te vergelijken met de originele opname, omdat Nabla's tool de originele audio wist vanwege „gegevensveiligheidsredenen“, zei Raison.
Nabla zei dat de tool is gebruikt om naar schatting zeven miljoen medische bezoeken te transcriberen.
Saunders, de voormalige OpenAI-ingenieur, zei dat het wissen van de originele audio zorgwekkend kan zijn als de transcripties niet dubbel worden gecontroleerd of als artsen geen toegang hebben tot de opname om te verifiëren dat ze correct zijn.
'Je kunt geen fouten ontdekken als je de grondwaarheid wegneemt', zei hij.
Nabla zei dat geen enkel model perfect is, en dat hun huidige model vereist dat medische zorgverleners snel getranscribeerde aantekeningen moeten bewerken en goedkeuren, maar dat zou kunnen veranderen.
Omdat de ontmoetingen van patiënten met hun artsen vertrouwelijk zijn, is het moeilijk te begrijpen welke invloed de door AI gegenereerde transcripties op hen hebben.
Een wetgever van de staat Californië, Rebecca Bauer-Kahanzei dat ze eerder dit jaar een van haar kinderen naar de dokter had gebracht en weigerde een formulier te ondertekenen dat het gezondheidsnetwerk haar toestemming vroeg om de audio van het consult te delen met leveranciers waaronder Microsoft Azure, het cloud computing-systeem dat wordt beheerd door de grootste investeerder van OpenAI . Bauer-Kahan wilde niet dat zulke intieme medische gesprekken met technologiebedrijven werden gedeeld, zei ze.
“De release was heel specifiek dat bedrijven met winstoogmerk het recht zouden hebben om dit te hebben”, zegt Bauer-Kahan, een democraat die een deel van de buitenwijken van San Francisco vertegenwoordigt in de staatsvergadering. “Ik had zoiets van ‘absoluut niet.'”
John Muir Health-woordvoerder Ben Drew zei dat het gezondheidszorgsysteem voldoet aan de staats- en federale privacywetten.
___
Schellmann berichtte vanuit New York.
___
Dit verhaal is tot stand gekomen in samenwerking met het AI Accountability Network van het Pulitzer Center, dat ook gedeeltelijk de academische Whisper-studie ondersteunde.
___
De Associated Press ontvangt financiële steun van het Omidyar Network om de berichtgeving over kunstmatige intelligentie en de impact ervan op de samenleving te ondersteunen. AP is als enige verantwoordelijk voor alle inhoud. Vind AP's normen voor het werken met filantropieën, een lijst met supporters en gefinancierde dekkingsgebieden op AP.org.
___
De Associated Press en OpenAI hebben een licentie- en technologieovereenkomst waardoor OpenAI toegang krijgt tot een deel van de tekstarchieven van de AP.