Digital sozialisiert, Denker, Macher und Angel Investor.

ArchiveDezember 2025

Funktion und Schwächen von KI-Benchmarking

F

Ein KI-Benchmark ist ein standardisierter Test mit den Ziel, Fähigkeiten zu messen und zu vergleichen. Beispielsweise KI-System/Modell A mit B, oder ein KI-System/Modell mit menschlichen Fähigkeiten. Wie bei anderen Benchmarks steckt der Teufel aber im Detail. Am bekanntesten ist wahrscheinlich der Abgas-Skandal des VW-Konzerns. Sobald die Motorsteuerung feststelle auf dem Prüfstand zu sein...

Beichtstuhl für LLMs scheint eine gute Idee zu sein

B

Nutzer:innen von LLMs kennen das Verhalten. Das System erzeugt eine falsche Ausgabe und es gesteht den Fehler auf Rückfrage. OpenAI gib diesem Verhalten nun einen Rahmen: How confessions can keep language models honest. Vorgehen In Rahmen von Sicherheitstests haben die Forscher ein LLM (in dem Fall GPT-5-Thinking) nach Ausgabe des Ergebnis nach einer “Beichte” gefragt. Darin soll es, in Bezug auf...

Eminem versus LLM und was ist “adversarial poetry”?

E

Aus Sicherheitsüberelegungen oder aus ethischen Gründen generieren LLMs auf gewisse Prompts keine Antworten. Werden diese Prompts in Gedichte umgewandelt, sind die Sicherheitsmechanismen der Systeme und das Post-Training der Modelle in sehr vielen Fällen erfolgreich aushebelt. Willkommen bei der Studie: Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models...

Modelle werden sicherer, wenn sie schummeln dürfen

M

…it almost feels like we’re entering a regime of research where it’s not like hard numerical science, but more like a philosophical conceptual thing… Benjamin Wright, Researcher Misalignment Science bei Anthorpic In einer faszinierenden Studie zeigen die Autoren von Anthropic ein Verhalten, bei welchem ein LLM im Post-Training lernt, die im Rahmen des reinforcement learnings zu...

Digital sozialisiert, Denker, Macher und Angel Investor.