Wir kennen sie alle: die zahlreichen Dateiformate und die damit verbundenen Probleme. Schon immer wurde darüber gestritten und die Episode von 2010, als Steve Jobs mit «Thoughts on Flash» das Format von Adobe begrub, schrieb Geschichte. Aktuell titelt selbst der Economist «The war against PDFs is heating up» und alle hassen DOCX, PPTX und co. wegen deren byzantinischer Komplexität.
Was sind Dateiformate?
Wenn ich Daten speichere, so geschieht das nach bestimmten Regeln, einer Struktur. So müssen bei Bildern beispielsweise der Farbraum oder Art der Kompression mitgespeichert werden, oder bei Textdateien semantische Auszeichnungen wie Titelhierarchie, visuelle Formatierungen oder Referenzen auf eingebettete Objekte. Da solche Formate über Jahrzehnte wachsen, werden sie immer komplizierter…
Auftritt der Sprachmodelle
Als die Trainingsdaten für Sprachmodelle immer umfassender wurden, etablierte sich bei der Aufbereitung und dem Austausch der Daten ein SEHR einfaches Format: Markdown. Und bald wurde fast alles im KI-Bereich in diesem Format codiert. Trainingsdaten, Prompts, Dokumentation, Skills, Metadaten etc.
Was ist Markdown?
Das Format besteht nur aus Text und wurde 2004 von John Gruber und Aaron Swartz als Vereinfachung von HTML für Web-Publishing entwickelt. Es ist für Menschen gut lesbar und enthält nur einen sehr kleinen Umfang an Auszeichnungen/Codes. Hier ein Beispiel, welches sie gleich selbst erklärt.
# Überschrift 1
Das ist ein kurzer Text ohne Auszeichnung.
## Überschrift 2
- ein Aufzählungszeichen
- noch ein Aufzählungszeichen
[und hier der Linktext für einen Link zu stuker.com](https://stuker.com)
### Überschrift 3
Wieder ein Text, diesmal mit einer **fetten** Auszeichnung
Ich bin über Oliver Reichenstein vor fast 15 Jahren auf das sehr elegante Format aufmerksam geworden. Er predigt sein Mantra der Einfachheit und bietet dafür geeignete und sehr gut gemachte Softwareprodukte wie iA / Writer oder iA / Presenter an.
Und weshalb ist Markdown nun wichtig?
KI verändert den Umgang mit Wissen und Transaktionen. Weder das Training der Modelle noch die KI-Agenten haben dabei auf Dateiformate von Microsoft oder Adobe gewartet. In seinem Blogpost “Trapped in MS Office” bringt es Oliver Reichenstein auf den Punkt: obsolete model of work. Im Zeitalter von KI braucht niemand einen A4-Ausdruck auf Papier.
So beschreibt Andrej Karpathy seinen (zeitgemässen) Umgang mit Wissen wie folgt: Alle Daten (Artikel, wissenschaftliche «Paper», Repositories, Datensets, Bilder etc.) kommen unstrukturiert in einen Ordner und diese werden von einer KI als Wiki strukturiert. Das Format dazu? Markdown!
Oder auch ein Text der NZZ zeigt, wie alt und neu aufeinanderprallen. Im Februar dieses Jahres schrieb sie, dass das KI-Tool Claude Legal Tech-Börsenstars auf Talfahrt schickte. Es war aber kein «KI-Tool». In Wahrheit hatte Anthropic auf Github unter dem Titel «Legal Productivity Plugin» nur ein paar Textdateien publiziert. Sogenannte Skills für Claude, geschrieben in Markdown.
Ein methodischer Rahmen bietet der «Agent Readiness score», den der Internetgigant Cloudflare an der Agents Week publiziert hat. Will man für KI-Agenten bereit sein, so braucht es MCP Server Cards, API Kataloge und Inhalte in Markdown (content-type: text/markdown). Hier der Validator dazu: isitagentready.com.
Was hat das für eine Bedeutung?
Einfachheit gewinnt! Mit reStructuredText oder AsciiDoc gibt es zwar vergleichbare Formate, doch da sich die KI-Welt vor 10 Jahren anders entschieden hat, haben die Modelle im Training bereits Milliarden Markdown-Beispiele «gesehen». Alles ist darauf optimiert. Die grosse Menge an bestehenden Dateien und kompatibler Systeme fördert dessen Nutzen selbstverstärkend: Plötzlich spricht alles miteinander.
Plane ich heute ein System resp. die Ablage von Daten, so wähle ich Markdown. Dies, weil ich mich damit perfekt in der KI-Welt integriere und vom Zugriff auf modernste Werkzeuge profitiere. Geht es dabei um Wissen, so ist Markdown bereits Pflicht. Obsidian war hier der Vorreiter.
Und auch bei der Uraltdisziplin CMS (content management system) gibt es Hugo oder Kirby schon sehr mächtige Werkzeuge, die man sich unbedingt anschauen muss. Nicht nur wegen der Datenhaltung in Markdown sondern auch, wie sich Metadaten orchestrieren lassen.
Zugegeben, Markdown ist bei Tabellen schwach, und die Dialekte (CommonMark, GitHub Flavored Markdown, MDX) driften auseinander, aber ich bin dennoch ein Fan!
