Digital sozialisiert, Denker, Macher und Angel Investor.

Kategorieai

Claude Code sicherer nutzen dank Bubblewrap

C

Das Werkzeug Claude Code geht berechtigterweise grad durch die Decke. Marcel Salathé hat dessen Mächtigkeit auf seinem Substack sehr treffend beschrieben hat: AI agents: We’re in for a wild ride. Zwei Aspekte machen das Werkzeug so leistungsfähig: Zugriff zum lokalen Dateisystem Zugriff zu (ausgewählten) Programmen des Betriebssystems und damit auf das gesamte Internet im lokalen...

Agents Skills: das neue Gold für KI-Agenten und für Menschen

A

Je besser der Kontext definiert ist, desto besser sind die von KI erzeugten Ergebnisse. Unter dem Begriff «Context Engineering» etabliert sich deshalb ein Bereich mit dem Ziel, den Perimeter der Lösungsfindung für KI bestmöglich zu definieren. Das geniale Werkzeug Claude Code hat die Definition von Kontext in einen einfachen Rahmen gesetzt, welcher sich als sehr mächtig erweist: markdown-Dateien...

Don’t train on this data or what’s a canary string?

D

There are many reasons why I don’t want data to be fed into the training of large language models (LLMs). In this post, I will focus on hiding benchmark and study content to maintain the quality of LLM analysis results. The challenges If LLMs see the results of benchmark questions (or study results) during pretraining, future benchmarking or analysis results will be affected by this. In the case...

Wie offen sind offene LLMs?

W

Die Begriffe offen und souverän haben Konjunktur. Doch was sind offene LLMs genau? Zuallererst aber zur Frage, weshalb man offene (Sprach)modelle überhaupt haben möchte? Die wichtigsten Beweggründe dafür findet man in der Open Source Bewegung, der Gesetzgebung und in der Geopolitik. Beweggründe für offen Ein mutmasslicher Grund für offene Modelle sind Lizenzkosten und -bedingungen, doch das...

Funktion und Schwächen von KI-Benchmarking

F

Ein KI-Benchmark ist ein standardisierter Test mit den Ziel, Fähigkeiten zu messen und zu vergleichen. Beispielsweise KI-System/Modell A mit B, oder ein KI-System/Modell mit menschlichen Fähigkeiten. Wie bei anderen Benchmarks steckt der Teufel aber im Detail. Am bekanntesten ist wahrscheinlich der Abgas-Skandal des VW-Konzerns. Sobald die Motorsteuerung feststelle auf dem Prüfstand zu sein...

Beichtstuhl für LLMs scheint eine gute Idee zu sein

B

Nutzer:innen von LLMs kennen das Verhalten. Das System erzeugt eine falsche Ausgabe und es gesteht den Fehler auf Rückfrage. OpenAI gib diesem Verhalten nun einen Rahmen: How confessions can keep language models honest. Vorgehen In Rahmen von Sicherheitstests haben die Forscher ein LLM (in dem Fall GPT-5-Thinking) nach Ausgabe des Ergebnis nach einer “Beichte” gefragt. Darin soll es, in Bezug auf...

Eminem versus LLM und was ist “adversarial poetry”?

E

Aus Sicherheitsüberelegungen oder aus ethischen Gründen generieren LLMs auf gewisse Prompts keine Antworten. Werden diese Prompts in Gedichte umgewandelt, sind die Sicherheitsmechanismen der Systeme und das Post-Training der Modelle in sehr vielen Fällen erfolgreich aushebelt. Willkommen bei der Studie: Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models...

Modelle werden sicherer, wenn sie schummeln dürfen

M

…it almost feels like we’re entering a regime of research where it’s not like hard numerical science, but more like a philosophical conceptual thing… Benjamin Wright, Researcher Misalignment Science bei Anthorpic In einer faszinierenden Studie zeigen die Autoren von Anthropic ein Verhalten, bei welchem ein LLM im Post-Training lernt, die im Rahmen des reinforcement learnings zu...

Welche Menschen?

W

KI generiert nicht nur menschenähnlichen Output, sie wird auch mit menschlichen Wertvorstellungen und Charakterzügen trainiert respektive darauf “ausgerichtet”: Artificial intelligence (AI) alignment is the process of encoding human values and goals into AI models to make them as helpful, safe and reliable as possible. Eine Studie des Department of Human Evolutionary Biology der Harvard...

AI at Noon: Swiss AI Initiative und Apertus

A

Im Rahmen der Veranstaltung AI at Noon der OST – Ostschweizer Fachhochschule habe ich eine Übersicht über das Schweizer LLM Apertus und über dessen “Wiege”, die Swiss AI Initiative​, erzählt. Im Kern ging es mir dabei um die Chancen von Open-Source-Modellen, wobei ich zuerst die Grenze zwischen open-weights und closed-weights ziehen und auch den Begriff Open Source AI erklären musste...

Digital sozialisiert, Denker, Macher und Angel Investor.