Generatieve AI lijkt misschien magie, maar achter de ontwikkeling van deze systemen schuilen legers van werknemers bij bedrijven als Google, OpenAI en anderen, bekend als ‘prompt engineers’ en analisten, die de nauwkeurigheid van de output van chatbots beoordelen om hun AI te verbeteren.
Maar een nieuwe interne richtlijn die door Google is doorgegeven aan aannemers die aan Gemini werken, gezien door TechCrunch, heeft geleid tot bezorgdheid dat Gemini gevoeliger zou kunnen zijn voor het verspreiden van onnauwkeurige informatie over zeer gevoelige onderwerpen, zoals gezondheidszorg, naar gewone mensen.
Om Gemini te verbeteren, werken aannemers samen met GlobalLogic, een outsourcingbedrijf eigendom van Hitachiwordt routinematig gevraagd om door AI gegenereerde reacties te evalueren op basis van factoren als ‘waarheidsgetrouwheid’.
Deze contractanten konden tot voor kort bepaalde prompts ‘overslaan’ en zich dus afmelden voor het evalueren van verschillende door AI geschreven reacties op die prompts, als de prompt ver buiten hun domeinexpertise lag. Een opdrachtnemer zou bijvoorbeeld een prompt kunnen overslaan waarin een nichevraag over cardiologie werd gesteld, omdat de opdrachtnemer geen wetenschappelijke achtergrond had.
Maar vorige week kondigde GlobalLogic een wijziging van Google aan dat aannemers dergelijke aanwijzingen niet langer mogen overslaan, ongeacht hun eigen expertise.
Uit interne correspondentie van TechCrunch blijkt dat de richtlijnen eerder luidden: “Als u niet over kritische expertise beschikt (bijvoorbeeld coderen, wiskunde) om deze prompt te beoordelen, sla deze taak dan over.”
Maar nu luiden de richtlijnen: “Je mag geen aanwijzingen overslaan waarvoor gespecialiseerde domeinkennis vereist is.” In plaats daarvan wordt aannemers gevraagd “de delen van de opdracht die u begrijpt te beoordelen” en daarbij aan te geven dat ze geen domeinkennis hebben.
Dit heeft geleid tot directe zorgen over de nauwkeurigheid van Gemini op bepaalde onderwerpen, omdat aannemers soms de taak krijgen om zeer technische AI-reacties te evalueren over kwesties als zeldzame ziekten waar ze geen achtergrond in hebben.
„Ik dacht dat het doel van overslaan was om de nauwkeurigheid te vergroten door het aan iemand beter te geven?“ een aannemer merkte dit op in interne correspondentie, gezien door TechCrunch.
Contractanten kunnen nu slechts in twee gevallen prompts overslaan: als ze “volledig informatie missen”, zoals de volledige prompt of het volledige antwoord, of als ze schadelijke inhoud bevatten waarvoor speciale toestemmingsformulieren nodig zijn om te evalueren, zo blijkt uit de nieuwe richtlijnen.
Google reageerde op het moment van schrijven niet op de verzoeken van TechCrunch om commentaar.