KI generiert nicht nur menschenähnlichen Output, sie wird auch mit menschlichen Wertvorstellungen und Charakterzügen trainiert respektive darauf “ausgerichtet”: Artificial intelligence (AI) alignment is the process of encoding human values and goals into AI models to make them as helpful, safe and reliable as possible.
Eine Studie des Department of Human Evolutionary Biology der Harvard University stellt nun die folgende Frage:
Technical reports often compare LLMs’ outputs with “human” performance on various tests. Here, we ask, “Which humans?
Ausgangslage ist, dass die meiste KI-Literatur weitgehend ignoriert, dass Menschen eine kulturelle Spezies mit erheblicher psychologischer Vielfalt sind. Dies wird zudem weder durch die Trainingsdaten noch durch KI-Aligment vollständig erfasst. Es wird oberflächlich von “bias” (Verzerrung) gesprochen.
Also nahmen die Forscher die World Values Survey (WVS), welche Werte aus 65 Kulturräumen umfasst, und führten verschiedenen mit ChatGPT Tests aus der kognitiven Psychologie durch. Die folgende Grafik zeigt, wie die Wertesysteme der Kulturräume (und der Antworten von GPT links unten) zueinander stehen. Soweit so gut.

In einem nächsten Schritte definierten die Autoren mit WEIRD (Western, Educated, Industrialized, Rich, und Democratic) einen Nullpunkt und berechnetet pro Datensatz sowohl die kulturelle Distanz zu den USA, wie auch die Korrelation der Antworten von ChatGPT zu den Aussagen in WVS.

Interpretation
Die Arbeit zeigt das Problem des KI-Aligments, der Schwierigkeit Output von LLMs auszuzeichnen, sehr deutlich aber auch die Gefahr der lokalen Dissonanz globaler KI-Systeme. In der Schweiz würden wir das wahrscheinlich fehlender Föderalismus nennen.
Systematische Verzerrungen von LLMs kann weitreichende gesellschaftliche Folgen und Risiken haben, da sie im Laufe der Zeit immer stärker in unsere sozialen Systeme, Institutionen und Entscheidungsprozesse integriert werden. Oder wie es die Autoren formulieren:
It may be crucial to investigate tendencies by which LLMs “think,” “behave,” and “feel” – in other words, to probe their psychology.
Ein möglicher Lösungsansatz kommt von Audrey Tang unter dem Titel: “AI Alignment Cannot Be Top-Down” und dem Trend zu kleinen, spezialisierten KI-Modellen. Das Thema wird uns aber noch lang beschäftigen.
Hier noch Studie: Which Humans? Mohammad Atari, Mona J. Xue, Peter S. Park, Damián E. Blasi, Joseph Henrich. Department of Human Evolutionary Biology, Harvard University.
