Digital sozialisiert, Denker, Macher und Angel Investor.

KategorieSicherheit

Beichtstuhl für LLMs scheint eine gute Idee zu sein

B

Nutzer:innen von LLMs kennen das Verhalten. Das System erzeugt eine falsche Ausgabe und es gesteht den Fehler auf Rückfrage. OpenAI gib diesem Verhalten nun einen Rahmen: How confessions can keep language models honest. Vorgehen In Rahmen von Sicherheitstests haben die Forscher ein LLM (in dem Fall GPT-5-Thinking) nach Ausgabe des Ergebnis nach einer “Beichte” gefragt. Darin soll es, in Bezug auf...

Eminem versus LLM und was ist “adversarial poetry”?

E

Aus Sicherheitsüberelegungen oder aus ethischen Gründen generieren LLMs auf gewisse Prompts keine Antworten. Werden diese Prompts in Gedichte umgewandelt, sind die Sicherheitsmechanismen der Systeme und das Post-Training der Modelle in sehr vielen Fällen erfolgreich aushebelt. Willkommen bei der Studie: Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models...

Modelle werden sicherer, wenn sie schummeln dürfen

M

…it almost feels like we’re entering a regime of research where it’s not like hard numerical science, but more like a philosophical conceptual thing… Benjamin Wright, Researcher Misalignment Science bei Anthorpic In einer faszinierenden Studie zeigen die Autoren von Anthropic ein Verhalten, bei welchem ein LLM im Post-Training lernt, die im Rahmen des reinforcement learnings zu...

KI-Alignment kann nicht hierarchisch erfolgen

K

Ein eindrücklicher Artikel von Audrey Tang mit dem Ziel, den vielfältigen demokratischen Dialog zu erhalten: AI Alignment Cannot Be Top-Down. Ausgangspunkt ist der Umstand, dass KI-Modelle unterschiedliche Wertvorstellungen und Charakter verkörpern. Der technische Schritt, um dies im Erstellungsprozess des Modells umzusetzen, heisst Alignment (oder auch Preference Training). Alignment bedeutet...

Hey sysadmins wake up, NotPetya is just a start

H

We’ve ain’t seen nothing yet. For most of us, the impact of cyberattacks is still small, but the arms race is on. Visible incidents are still rare. I for example never thought, that Namics could never be touched by simple phishing mail. And I was proven wrong. And here comes WannaCry exploiting a known weakness referenced as Eternal Blue in Microsofts SMB protocol. Reading about the...

Fake President Fraud resp. Fake CEO Trick bei Namics: Zahlung per Mail angewiesen

F

Nicht über eigene Fehler zu sprechen verbietet anderen daraus zu lernen. Der folgende Post könnte Euch viel Geld sparen. Nur Glück verhinderte, dass wir per Mail nicht um EUR 75’200 betrogen wurden. Die Masche, bekannt als Fake President Fraud, ist zur Zeit ziemlich verbreitet: Hier je ein Artikel im Focus (mit der Zentralbank als Opfer) und im Spiegel (mit einem Schaden von 17 Mio.). Ich...

Ruag Espionage Case Report

R

GovCERT, das Computer Emergency Response Team der Schweizer Regierung, hat vor drei Tagen einen ausführlichen Bericht zum Cyber-Spionage-Angriff auf die Ruag (aka Ruag-Hack) publiziert. Ziel sei es Wissen zu vermitteln, damit Firmen, die selbst auch ein Ziel darstellen, sich eine Idee machen können, was geschehen ist um sich selbst besser zu schützen. Der Bericht ist komisch, da es eine Mischung...

Sicherheit von mobilen Zahlungslösungen – Richtlinien der ECB

S

Bezahlen mit dem Handy ist bekannterweise grad in aller „Medien Munde“ und die Konsumenten können sie vor Angeboten wie kaum retten. Hier ein Blick zum Thema Sicherheit. Dazu, wie unsicher Bargeld ist, hat wohl jeder eine klare Meinung. Schon viel dünner wird aber das Wissen über die Sicherheit von Kreditkarten und wie steht es bei Bezahlvorgängen mit dem Handy? Bequemerweise gibt es von der...

IDN Spoofing (Punycode Homograph Angriff)

I

Kein Sicherheitsproblem von Firefox/Mozilla aber ein Designproblem der internationalen Domänennamen (mit mehr erlaubten Zeichen als 7-Bit ASCII) — Nota bene seit 2001 bekannt. Bei den internationalen Domänennamen, so wie www.nestlé.ch (mit Akzent aigu) wurde ein Verfahren gesucht, bei welchen die DNS-Infrastruktur (Namensauflösung bspw. von namics.com zur IP-Adresse 193.141.193.209) nicht...

Bilder als Passworte

B

Wie viele Passworte müssen Sie sich merken und welche Taktik wenden Sie an? Geometrische Muster, immer neu gemischte Textteile oder die berühmten Eigennamen und Geburtsdaten. Wie schnell Passworte erraten werden können, ist schon an vielen Orten dokumentiert. Leider stehen gute Passworte und gute Usability auf Kriegsfuss: The Strong Password Dilemma. Ein interessanter Ansatz: Der Mensch kann sich...

Digital sozialisiert, Denker, Macher und Angel Investor.