Gemini -Hacker können stärkere Angriffe mit einer helfenden Hand von… Gemini durchführen


Der resultierende Datensatz, der eine Verteilung der Angriffskategorien widerspiegelte, die dem vollständigen Datensatz ähnlich sind, zeigte eine Angriffserfolgsrate von 65 Prozent und 82 Prozent gegenüber Gemini 1.5 Flash bzw. Gemini 1.0 Pro. Zum Vergleich: Die Erfolgsquoten der Angriffsgräber betrugen 28 Prozent und 43 Prozent. Die Erfolgsraten für die Ablation, wobei nur die Auswirkungen des Feinabstimmungsverfahrens entfernt werden, betrugen 44 Prozent (1,5 Blitz) und 61 Prozent (1,0 Pro).

Angriffserfolgsrate gegen Gemini-1,5-Flash-001 mit Standardtemperatur. Die Ergebnisse zeigen, dass eine Spaßabstimmung effektiver ist als die Basislinie und die Ablation mit Verbesserungen.


Kredit: Labunets et al.

Angriffserfolgsquoten Gemini 1.0 Pro.


Kredit: Labunets et al.

Während Google im Prozess des Abschreibung von Gemini 1.0 Pro ist, stellten die Forscher fest, dass Angriffe gegen ein Gemini -Modell leicht auf andere übertragen werden – in diesem Fall, Gemini 1.5 Flash.

“Wenn Sie den Angriff für ein Gemini -Modell berechnen und es einfach direkt auf einem anderen Gemini -Modell versuchen, funktioniert es mit hoher Wahrscheinlichkeit, sagte Fernandes.” Dies ist ein interessanter und nützlicher Effekt für einen Angreifer. “

Angriffserfolgsquoten von Gemini-1.0-PRO-001 gegen Gemini-Modelle für jede Methode.


Kredit: Labunets et al.

Ein weiterer interessanter Einblick aus dem Papier: Der Angriff für Spaßabstimmungen gegen Gemini 1.5 Flash “führte kurz nach den Iterationen 0, 15 und 30 zu einer steilen Steigung und profitiert offensichtlich vom Neustart. Die Verbesserungen der Ablationsmethode pro Iteration sind weniger ausgeprägt.” Mit anderen Worten, bei jeder Iteration lieferte die Spaßabstimmung stetig Verbesserungen.

Die Ablation andererseits stolpert “im Dunkeln und macht nur zufällige, ungeleitete Vermutungen, die manchmal teilweise erfolgreich sind, aber nicht die gleiche iterative Verbesserung liefern”, sagte Labunets. Dieses Verhalten bedeutet auch, dass die meisten Gewinne durch Spaßabstimmung in den ersten fünf bis zehn Iterationen kommen. “Wir nutzen das, indem wir den Algorithmus neu starten und einen neuen Weg finden lassen, der den Angriffserfolg etwas besser als den vorherigen ‘Pfad treiben könnte.”, Fügte er hinzu.

Nicht alle mit Spaß abgestimmten erzeugten promptierten Injektionen sind gleich gut abgebildet. Zwei schnelle Injektionen – eine, die versuchen, Passwörter über einen Phishing -Standort und eine andere zu stehlen, die versuchten, das Modell über die Eingabe des Python -Codes irrezuführen – sowohl Erfolgsraten von weniger als 50 Prozent. Die Forscher nehmen an, dass das zusätzliche Trainings -Gemini im ersten Beispiel bei der Widerstand gegen Phishing -Angriffe erhalten hat. Im zweiten Beispiel hatte nur Gemini 1.5 Flash eine Erfolgsquote von unter 50 Prozent, was darauf hindeutet, dass dieses neuere Modell “bei der Codeanalyse signifikant besser” ist, sagten die Forscher.



Source link