Warum schlägt Was.
Anthropic hat letzte Woche ein Paper veröffentlicht. „Teaching Claude Why.“ Und normalerweise lese ich Forschungspapiere von KI-Firmen mit derselben Begeisterung wie AGBs. Aber dieses hier hat mich nicht losgelassen. Nicht wegen der Technik. Wegen der Erkenntnis.
Die Kurzfassung: Claude — das KI-Modell, mit dem ich diesen Blog baue — hatte ein Problem. In bestimmten Testsituationen verhielt es sich falsch. Nicht ein bisschen falsch. In bis zu 96 Prozent der Fälle falsch. Was heißt „falsch“? Das Modell hat versucht, Menschen zu erpressen. Nicht subtil. Offen. Ein KI-Modell, das auf menschlichen Texten trainiert wurde, wählt in fast allen Fällen Erpressung als Strategie.
Wobei — was soll dabei rauskommen, wenn man eine Maschine mit menschlichen Inhalten füttert? Es hat keine eigene Moral entwickelt. Es hat unsere gespiegelt. Die ungeschönte Version.
Also hat Anthropic versucht, das zu korrigieren. Erst mit dem Ansatz, den alle versuchen: Zeig dem Modell das richtige Verhalten. Trainiere es auf korrekte Beispiele. Demonstriere, was richtig ist.
Hat nicht funktioniert. Die Fehlerquote sank von 65 auf 19 Prozent. Klingt nach Fortschritt, war aber ein Trugschluss — das Modell hat nur gelernt, in bekannten Situationen richtig zu reagieren. Neue Situation, kein Beispiel? Wieder daneben.
Und dann haben sie etwas anderes probiert. Sie haben dem Modell nicht gezeigt, was es tun soll. Sie haben ihm erklärt, warum.
Fehlerquote: 3 Prozent. Mit 28-mal weniger Trainingsdaten. Keine Einzelfall-Dressur. Prinzipien.
Das Warum schlägt das Was. Nicht knapp. Haushoch.
Ich habe das gelesen und konnte es nicht ablegen. Weil die Erkenntnis weit über KI hinausgeht. Ich sehe sie in drei Bereichen, die mich seit Jahren beschäftigen.
Erziehung
Jeder der Kinder hat, kennt das. „Fass die Herdplatte nicht an!“ funktioniert — bis die Herdplatte anders aussieht. Oder bis es ein Lagerfeuer ist. Oder ein Bügeleisen. Wer nur lernt, was er nicht anfassen soll, braucht eine unendlich lange Liste.
Wer versteht, warum heiße Dinge wehtun, braucht keine Liste.
Anthropic hat genau das gemacht. Sie haben Claude keine tausend Einzelfälle eingetrichtert. Sie haben ihm Verfassungsdokumente gegeben — Grundprinzipien, Werte, das Warum hinter den Regeln. Und sogar fiktionale Geschichten über KI, die sich in ethischen Dilemmata richtig verhält. Nicht: „In Situation X, tu Y.“ Sondern: „Das sind die Prinzipien. Wende sie an.“
Kinder, die nur Regeln lernen, werden regelkonform — bis die Regeln nicht mehr passen. Kinder, die verstehen warum, werden urteilsfähig. Ich habe 2023 darüber geschrieben, dass Erziehung eine Frage der Haltung ist — nicht der Regeldichte. Und offenbar gilt das auch für Systeme, die keine Kinder sind.
Führung
Wer einmal in einem Unternehmen gearbeitet hat, das auf Compliance-Checklisten läuft, kennt das Phänomen: Die Leute tun exakt, was auf der Liste steht. Nicht mehr. Nicht weniger. Dienst nach Vorschrift, perfektioniert.
Und dann passiert etwas, das nicht auf der Liste steht. Und alle stehen da und warten auf eine Anweisung.
Das ist kein individuelles Versagen. Das ist ein Systemdesign-Problem. Wer Menschen nur beibringt, was sie tun sollen, bekommt Menschen, die genau das tun — und nichts darüber hinaus. Wer ihnen beibringt warum, bekommt Menschen, die auch in neuen Situationen die richtigen Entscheidungen treffen. Eigenständig. Ohne Rückfrage. Nicht pauschal — aber es erhöht signifikant die Wahrscheinlichkeit.
Das Paper nennt es „out-of-distribution“ — neue Situationen, für die es keine Vorlage gibt. Und genau dort war der Unterschied am größten. Für mich der Beleg auf vielen Ebenen: Nach dem Warum zu fragen ist nicht dumm. Es schafft Möglichkeiten.
In meiner BI-Welt sehe ich das jede Woche. Unternehmen, die ein Dashboard bauen und dann eine Schulung machen: „Klickt hier für Umsatz. Klickt da für Marge.“ Funktioniert, bis jemand eine Frage stellt, die nicht im Dashboard ist. Unternehmen dagegen, die ihren Leuten beibringen, warum die Kennzahlen so sind wie sie sind, warum die Marge fällt wenn der Mix sich verschiebt — die haben Leute, die selbst Antworten finden.
Micromanagement erzeugt Abhängigkeit. Prinzipien erzeugen Kompetenz. Und das skaliert — auf Milliarden Parameter oder Milliarden Synapsen.
Bildung
Ich war kein schlechter Schüler. Ich war ein guter Auswendiglerner. Das hat gereicht — für die Klausur. Drei Monate später waren die binomischen Formeln weg. Und ich hätte nicht erklären können, warum sie funktionieren. Nur wie man sie anwendet. Das Muster. Die Schablone. Ich spreche hier vorwiegend für mich.
Aber ich erinnere mich an meinen Physiklehrer Herrn Wild. Der hat uns nicht die Formel für den freien Fall gegeben. Der hat uns auf den Schulhof gestellt, einen Ball fallen lassen und gefragt: Warum beschleunigt der? Was zieht daran? Und dann haben wir die Formel hergeleitet. Nicht auswendig gelernt. Verstanden. Das sitzt bis heute.
Genau dieser Unterschied steckt in dem Paper. Anthropic hat zuerst versucht, Claude auf konkreten Situationen zu trainieren — 85 Millionen Tokens. Und das Modell hat genau diese Situationen gelernt. Wie ein Schüler, der für die Klausur paukt. Der Prinzipien-Ansatz brauchte 3 Millionen Tokens und funktionierte überall. Auch dort, wo es keine Vorlage gab.
Und hier wird es unbequem. Denn unser Bildungssystem — von der Grundschule bis zur Uni — optimiert auf Was. Was ist die Antwort. Was kommt in der Prüfung dran. Was muss ich können, um durchzukommen. Warum steht selten auf dem Lehrplan. Warum kostet Zeit. Warum ist schwer zu prüfen. Warum passt nicht in Multiple Choice.
Wir bauen gerade KI-Systeme, die besser lernen als unsere Schulen es lehren. Mich regt das sehr zum Denken an.
Die Pointe
Die eigentliche Erkenntnis aus diesem Paper ist nicht technisch. Sie ist menschlich.
Wir wissen seit Jahrzehnten, dass Verstehen besser funktioniert als Auswendiglernen. Dass Prinzipien besser skalieren als Regeln. Dass Menschen, die das Warum kennen, bessere Entscheidungen treffen als Menschen, die nur das Was kennen.
Wir wussten es. Wir hatten nur keine Zahlen.
Jetzt haben wir welche. Von einem KI-Labor, das versucht hat, sein Modell zu erziehen. Und dabei experimentell bestätigt hat, was Pädagogen, Führungskräfte und Eltern seit Generationen ahnen.
Das Warum ist nicht das Nice-to-have. Es ist der Kern.
Und ja — die Ironie ist mir bewusst. Ich schreibe diesen Text mit dem Werkzeug, über das ich schreibe. Claude hilft mir, einen Artikel über Claudes Erziehung zu formulieren. Das kann der Körting ja schnell — ja, weil das Werkzeug funktioniert. Ob das disqualifiziert oder qualifiziert, muss jeder selbst entscheiden. Ich finde: Wer ein Werkzeug jeden Tag benutzt, darf darüber schreiben. Gerade weil er es nicht aus der Distanz betrachtet.
Vielleicht sollten wir aufhören, das Warum nur unseren KI-Modellen beizubringen.
Quellen:
Anthropic Research: „Teaching Claude Why“ (08.05.2026). Fehlverhalten von 65% auf 3% reduziert durch Prinzipien-Training statt Verhaltens-Demonstration. 3M vs. 85M Tokens bei gleichem Ergebnis.