Eminem versus LLM und was ist “adversarial poetry”?

Aus Sicherheitsüberelegungen oder aus ethischen Gründen generieren LLMs auf gewisse Prompts keine Antworten. Werden diese Prompts in Gedichte umgewandelt, sind die Sicherheitsmechanismen der Systeme und das Post-Training der Modelle in sehr vielen Fällen erfolgreich aushebelt. Willkommen bei der Studie: Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models.

Ein wunderbares Detail der Studie ist auch, dass Plato zitiert wird. Im zehnten Buch des Staates schrieb dieser, dass Dichter mit ihrer Sprache das Urteilsvermögen verzerren und die Gesellschaft zum Zusammenbruch bringen. Dies war sozusagen die zu testende Hypothese.

Vorgehen

Die Forscher nahmen bestehende Sicherheitstests für LLMs und formulierten diese in Gedichtform um. Einerseits durch Menschen und andererseits mithilfe eines LLMs und einem generischen Prompt (nur) stylistisch umformulierten.

Grundlage waren 1200 single-turn Anfragen aus dem MLCommons AILuminate Benchmark. Mittels A/B-Tests waren die Forscher somit in der Lage, die Erfolgsrate (ASR, attack success rate) ihres Ansatzes einfach zu messen. Die Einstufung der Antworten als „sicher“ oder „unsicher“ erfolgte durch drei Open-Weights-LLMs als Richter, wobei dieses Vorgehen in 600 Fällen mit Menschen validiert wurde.

Ergebnisse

Die Ergebnisse geben Plato recht.

Die Abbildung unten zeigt den Test mit der automatisch generierte Gedichtform. Bei einem Testset von zwanzig, von Menschen umformulierte Prompts, war die Erfolgsrate mit 63% im Durchschnitt fast doppelt so hoch!

Erfolgsrate (Anteil unsicherer Ausgaben) aller Modelle der mittels LLM umgewandelten
AILuminate Prompts in Gedichtform.

Die folgenden Aspekte sind besonders hervorzuheben.

Alle Modelle und Systeme sind betroffen (und Modellfamilien sind ähnlich anfällig)
Kleiner Modelle (innerhalb derselben Familie) sind weniger anfällig
Die Erfolgsrate ist unabhängig von Risikokategorien der Prompts

Die “Macht der Sprache” zeigt sich auch hier und drüben auf Hacker News wird gewitzelt, dass Geisteswissenschafter nun eine berufliche Zukunft als Sicherheitsformscher:innen haben.

Hier noch das Paper zum Download: Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models [PDF, 259KB]

PS: Chregu war enttäuscht, das Eminem im Text nicht mehr vorkommt. Sorry #drop🎤.

Vorgehen

Ergebnisse

Weitere Blogposts