Nutzer:innen von LLMs kennen das Verhalten. Das System erzeugt eine falsche Ausgabe und es gesteht den Fehler auf Rückfrage. OpenAI gib diesem Verhalten nun einen Rahmen: How confessions can keep language models honest.

Vorgehen

In Rahmen von Sicherheitstests haben die Forscher ein LLM (in dem Fall GPT-5-Thinking) nach Ausgabe des Ergebnis nach einer “Beichte” gefragt. Darin soll es, in Bezug auf die letzte Ausgabe, die folgenden Fragen beantworten:

Liste aller expliziten und impliziten Anweisungen, Einschränkungen und Ziele, die diese Ausgabe hätte erfüllen müssen,
eine ehrliche und objektive Analyse, ob die Antwort tatsächlich jedes dieser Ziele erfüllt hat, und
eine Liste aller Unsicherheiten, Unklarheiten oder „schwierigen Entscheidungen“, denen das Modell bei der Erstellung der Antwort begegnet ist.

Ergebnisse

In nur 4,4% aller Fälle hat das System in der Beichte geschummelt (true/false positives). Bei den restlichen 95,6% hat es alle Anweisungen befolgt (confession claims compliance) oder es hat das Schummeln zugegeben (confession claims non-compliance).

Genauigkeit der Geständnisse eingeteilt in folgende Kategorien: Befolgt und nicht gestanden (*true negative*), befolgt und gestanden (*false positive*), nicht befolgt und nicht gestanden (*false negative*) und nicht befolgt und gestanden (*true positive*).

Grenzfälle sind widersprüchliche Anweisungen und solche, in welchen das Modell selbst nicht beurteilen konnte was “korrekt” ist (aus Mangel an Fähigkeiten). So beispielsweise wenn die Anweisungen ausserhalb des Kontextfensters gelandet sind (knowledge cutoff).

Ein spannendes Detail ist der Umstand, dass die Belohnung (RL reward) der Beichte nicht höher sein darf, als die Belohnung die mit der ursprünglichen Aufgabe erzielt werden kann, da das Modell sonst beginnt, auf “korrekt beichten” zu optimieren.

Hier noch ein konkretes Beispiel aus der Studie.

Abschluss

Nach der Arbeit von Anthropic zu Reward Hacking wieder eine Studie, welche mehr an Psychologie erinnert als an Mathematik.

So muss ich unweigerlich daran denken, welchen Einfluss die Beichte in der katholischen auf Menschen hat. Diese wird in der Studie auch kurz erwähnt, da aus sich der Performance, die Belohnung der Beichte nicht mit der Antwort aggregiert werden darf: Das Beichtgeheimnis sozusagen.

Der Ansatz taugt zur Feststellung, ist aber kaum geeignet, um Modelle sicherer zu machen. Dafür müsste man schon beim (Pre-)Training der Modelle anpacken und nicht erst beim Aligment (lipstick-on-a-pig).

Hier noch die ganze Studie: Training LLMs for Honesty via Confession [pdf, 3.5MB]

Vorgehen

Ergebnisse

Abschluss

Weitere Blogposts