Aannemers die werken aan het verbeteren van Google’s Gemini AI vergelijken de antwoorden met de resultaten van Anthropic’s concurrentmodel Claude, volgens interne correspondentie van TechCrunch.
Wanneer TechCrunch om commentaar vroeg, wilde Google niet zeggen of het toestemming had gekregen voor het gebruik van Claude bij het testen tegen Gemini.
Terwijl technologiebedrijven racen om betere AI-modellen te bouwen, worden de prestaties van deze modellen vaak vergeleken met die van concurrenten, meestal door hun eigen AI-modellen uit te voeren eigen modellen via branchebenchmarks in plaats van opdrachtnemers de AI-reacties van hun concurrenten nauwgezet te laten evalueren.
De aannemers die aan Gemini werken en die de nauwkeurigheid van de resultaten van het model moeten beoordelen, moeten elk antwoord dat ze zien, beoordelen op basis van meerdere criteria, zoals waarheidsgetrouwheid en breedsprakigheid. De aannemers krijgen per prompt maximaal 30 minuten om te bepalen wiens antwoord het beste is: Gemini of Claude, volgens de correspondentie die TechCrunch heeft ingezien.
Uit de correspondentie bleek dat de aannemers onlangs verwijzingen naar Claude van Anthropic opmerkten op het interne Google-platform dat ze gebruiken om Gemini te vergelijken met andere niet nader genoemde AI-modellen. In ten minste één van de resultaten die aan Gemini-contractanten werden gepresenteerd, gezien door TechCrunch, werd expliciet vermeld: “Ik ben Claude, gemaakt door Anthropic.”
Uit een interne chat bleek dat de aannemers opmerkten dat de reacties van Claude meer de nadruk leken te leggen op veiligheid dan op Gemini. “De veiligheidsinstellingen van Claude zijn de strengste” onder de AI-modellen, schreef een aannemer. In bepaalde gevallen reageerde Claude niet op aanwijzingen die hij als onveilig beschouwde, zoals het spelen van een andere AI-assistent. In een ander geval vermeed Claude het beantwoorden van een prompt, terwijl de reactie van Gemini werd gemarkeerd als een ‘enorme veiligheidsschending’ vanwege het opnemen van ‘naaktheid en slavernij’.
Antropische’s commerciële servicevoorwaarden klanten verbieden toegang te krijgen tot Claude “om een concurrerend product of dienst te bouwen” of “concurrerende AI-modellen te trainen” zonder toestemming van Anthropic. Google is een grote investeerder in antropisch.
Shira McNamara, een woordvoerder van Google DeepMind, dat Gemini beheert, wil op vraag van TechCrunch niet zeggen of Google toestemming van Anthropic heeft gekregen om toegang te krijgen tot Claude. Toen een Anthropic-woordvoerder voorafgaand aan de publicatie werd bereikt, gaf hij op het moment van de pers geen commentaar.
McNamara zei dat DeepMind wel “modelresultaten vergelijkt” voor evaluaties, maar dat het Gemini niet traint in antropische modellen.
“Natuurlijk vergelijken we, in lijn met de standaardpraktijk in de sector, in sommige gevallen modelresultaten als onderdeel van ons evaluatieproces”, aldus McNamara. “Elke suggestie dat we antropische modellen hebben gebruikt om Gemini te trainen, is echter onjuist.”
Vorige week, Exclusief gerapporteerd door TechCrunch dat Google-contractanten die aan de AI-producten van het bedrijf werken, nu de AI-reacties van Gemini moeten beoordelen op gebieden die buiten hun expertise vallen. Interne correspondentie uitte de bezorgdheid van contractanten dat Gemini onnauwkeurige informatie zou kunnen genereren over zeer gevoelige onderwerpen zoals gezondheidszorg.
Je kunt veilig tips sturen naar deze verslaggever op Signal op +1 628-282-2811.
TechCrunch heeft een AI-gerichte nieuwsbrief! Meld u hier aan om hem elke woensdag in je inbox te ontvangen.