ai Archives – Jürg Stuker

Funktion und Schwächen von KI-Benchmarking

In ai

13. Dezember 2025

4 Min. Lesezeit

F

Ein KI-Benchmark ist ein standardisierter Test mit den Ziel, Fähigkeiten zu messen und zu vergleichen. Beispielsweise KI-System/Modell A mit B, oder ein KI-System/Modell mit menschlichen Fähigkeiten. Wie bei anderen Benchmarks steckt der Teufel aber im Detail. Am bekanntesten ist wahrscheinlich der Abgas-Skandal des VW-Konzerns. Sobald die Motorsteuerung feststelle auf dem Prüfstand zu sein...

Beichtstuhl für LLMs scheint eine gute Idee zu sein

Von Jürg Stuker

In ai, ai-alignment, Sicherheit

10. Dezember 2025

2 Min. Lesezeit

B

Nutzer:innen von LLMs kennen das Verhalten. Das System erzeugt eine falsche Ausgabe und es gesteht den Fehler auf Rückfrage. OpenAI gib diesem Verhalten nun einen Rahmen: How confessions can keep language models honest. Vorgehen In Rahmen von Sicherheitstests haben die Forscher ein LLM (in dem Fall GPT-5-Thinking) nach Ausgabe des Ergebnis nach einer “Beichte” gefragt. Darin soll es, in Bezug auf...

Eminem versus LLM und was ist “adversarial poetry”?

Von Jürg Stuker

In ai, ai-alignment, Sicherheit

8. Dezember 2025

2 Min. Lesezeit

E

Aus Sicherheitsüberelegungen oder aus ethischen Gründen generieren LLMs auf gewisse Prompts keine Antworten. Werden diese Prompts in Gedichte umgewandelt, sind die Sicherheitsmechanismen der Systeme und das Post-Training der Modelle in sehr vielen Fällen erfolgreich aushebelt. Willkommen bei der Studie: Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models...

Modelle werden sicherer, wenn sie schummeln dürfen

Von Jürg Stuker

In ai, ai-alignment, Sicherheit

3. Dezember 2025

3 Min. Lesezeit

M

…it almost feels like we’re entering a regime of research where it’s not like hard numerical science, but more like a philosophical conceptual thing… Benjamin Wright, Researcher Misalignment Science bei Anthorpic In einer faszinierenden Studie zeigen die Autoren von Anthropic ein Verhalten, bei welchem ein LLM im Post-Training lernt, die im Rahmen des reinforcement learnings zu...

Welche Menschen?

Von Jürg Stuker

In ai, ai-alignment

24. November 2025

2 Min. Lesezeit

W

KI generiert nicht nur menschenähnlichen Output, sie wird auch mit menschlichen Wertvorstellungen und Charakterzügen trainiert respektive darauf “ausgerichtet”: Artificial intelligence (AI) alignment is the process of encoding human values and goals into AI models to make them as helpful, safe and reliable as possible. Eine Studie des Department of Human Evolutionary Biology der Harvard...

AI at Noon: Swiss AI Initiative und Apertus

Von Jürg Stuker

In ai

20. November 2025

1 Min. Lesezeit

A

Im Rahmen der Veranstaltung AI at Noon der OST – Ostschweizer Fachhochschule habe ich eine Übersicht über das Schweizer LLM Apertus und über dessen “Wiege”, die Swiss AI Initiative, erzählt. Im Kern ging es mir dabei um die Chancen von Open-Source-Modellen, wobei ich zuerst die Grenze zwischen open-weights und closed-weights ziehen und auch den Begriff Open Source AI erklären musste...

KI-Alignment kann nicht hierarchisch erfolgen

Von Jürg Stuker

In ai, Sicherheit, sovereignity

16. November 2025

3 Min. Lesezeit

K

Ein eindrücklicher Artikel von Audrey Tang mit dem Ziel, den vielfältigen demokratischen Dialog zu erhalten: AI Alignment Cannot Be Top-Down. Ausgangspunkt ist der Umstand, dass KI-Modelle unterschiedliche Wertvorstellungen und Charakter verkörpern. Der technische Schritt, um dies im Erstellungsprozess des Modells umzusetzen, heisst Alignment (oder auch Preference Training). Alignment bedeutet...

Cyberspionage mit Claude Code – oder heisst es Vibe Hacking?

Von Jürg Stuker

In ai, Security

14. November 2025

2 Min. Lesezeit

C

Anthropic beschreibt die Nutzung ihres Coding-Assistenten Claude Code als Grundlage für einen erfolgreichen Cyberangriff auf rund 30 Firmen: Disrupting the first reported AI-orchestrated cyber espionage campaign. Den Angreifern (wahrscheinlich die staatliche chinesische Gruppe GTG-1002) gelang es nicht nur die Arbeit von menschlichen Hackers massiv zu skalieren, aber auch die bestehenden...

Be yourself – Die Zeiten des KI-Modus und von Google Overviews

Von Jürg Stuker

In ai

5. November 2025

2 Min. Lesezeit

B

Danke Adrienne für den pointierten Beitrag am #SocialMediaGipfel, dazu wie man (mit seinen Inhalten) in Zeiten des KI-Modus und Google Overview (und wie sie alle heissen) relevant bleibt. Ihr zentrales Slide aus Optik des Journalismus war das folgende: Der Inhalt erinnerte mich an den Augenblick als meine interne Kommunikation, die ich zuvor immer selbst gebastelt hatte, (aufgrund der Grösse von...

Unterschiedliche Charakter und Wertvorstellungen von LLMs

Von Jürg Stuker

In ai, Artificial Intelligence, sovereignity

27. Oktober 2025

2 Min. Lesezeit

U

Unterschiedliche Verhaltensrichtlinien und ethische Grundsätze von LLMs waren ein lang diskutiertes Thema in meinem Slot an der NZZ Academy. Auch wenn es intuitiv klar ist, dass Modelle wie Grok, ChatGPT oder Claude andere “Meinungen” haben, so ist der Prozess dorthin (und auch die Folgen davon) nicht allen bewusst. In dem Zusammenhang bin ich auf ein sehr interessantes, aktuelles Paper...

Kategorieai