Was vergisst eine KI? Ein Gedächtnis-Audit.
Ich arbeite jeden Tag mit einer KI. Sie hilft mir Blogposts zu schreiben, Datenstücke zu bauen, Code zu committen. Gestern hat sie vergessen, dass mein zweiter Rechner existiert. Neun Commits dazu — weg. Also habe ich sie gefragt, was sie sonst noch vergessen hat. Nicht als philosophisches Gedankenexperiment. Sondern als Audit — mit Daten.
Die Idee
KI-Assistenten haben inzwischen Gedächtnissysteme. Claude hat Memory-Dateien, ChatGPT speichert „Saved Memories“, GitHub Copilot merkt sich Projektkontext. Das Versprechen: Die KI wird über Zeit besser, weil sie sich erinnert.
Aber erinnert sie sich wirklich? Und wenn nicht – was genau geht verloren?
Das Problem bei der Frage ist: Wie prüft man das? Die KI kann nicht sagen, was sie nicht weiß. Das ist das klassische „unknown unknowns“-Problem.
Es sei denn, es gibt eine zweite Quelle.
Der Trick: Git als Wahrheit
Bei Softwareprojekten gibt es diese zweite Quelle: die Git-History. Jeder Commit dokumentiert, was tatsächlich passiert ist. Das Memory-System dokumentiert, was die KI davon behalten hat.
Die Differenz ist das Vergessene.
Also habe ich genau das gemacht: 35 Commits über vier Arbeitssessions – zehn Tage Entwicklungsarbeit – gegen vier Memory-Einträge gehalten.
35 zu 4. Das allein ist schon eine Aussage.
Was sie behalten hat
Drei Kategorien waren im Memory:
Strategische Entscheidungen. Welche Richtung ein Projekt einschlägt. Welche Deadlines gelten. Warum bestimmte Entscheidungen getroffen wurden.
Marktpositionierung. Wie sich das Projekt von Alternativen unterscheidet. Wer die Wettbewerber sind. Was die eigene Alleinstellung ist.
Stil-Korrekturen. Dass echte Umlaute statt Umschreibungen verwendet werden sollen. Dass Gedankenstriche korrekt gesetzt werden.
Alles wichtig. Alles richtig. Aber es ist nur ein Bruchteil dessen, was passiert ist.
Was sie vergessen hat
Dass ein zweites Gerät existiert. Neun Commits beschäftigten sich mit dem Setup eines Surface Pro – PowerShell-Skripte, Terminal-Profile, Pfad-Korrekturen. Die KI wusste nicht mal, dass es dieses Gerät gibt.
Einen Datenverlust-Incident. Daten gingen durch einen automatischen Prozess verloren. Es gab einen Fix, einen Schutzmechanismus, ein Commit. Die KI hat keine Erinnerung daran – nicht an den Vorfall, nicht an die Lösung.
Warum Dinge so gebaut sind, wie sie sind. Ein Hook hat kein `set -e` mehr. Stdout wird unterdrückt. Ein Pfad wurde von „thomaskoerting“ auf „tkoerting“ geändert. Alles Ergebnisse von Debugging-Sessions – Trial-and-Error-Wissen, das in Commits landete, aber nie im Gedächtnis.
Einen ganzen Synchronisations-Mechanismus. Auto-Pull zwischen zwei Rechnern, inklusive Bugfixes. Mehrere Commits. Komplett weg.
Dass gelernte Regeln verloren gingen. Convention-Drift – ein Problem, das einen Schutzmechanismus nötig machte. Die KI erinnert sich weder an das Problem noch an die Lösung.
Das Muster
Und hier wird es interessant. Die KI vergisst nicht zufällig. Sie vergisst systematisch:
Was entschieden wurde – behalten. Warum es drei Anläufe brauchte – vergessen.
Strategie und Ziele – behalten. Infrastruktur und Ops – vergessen.
Explizite Korrekturen („mach das anders“) – behalten. Implizites Debugging-Wissen – vergessen.
Dinge, die der User *sagte* – behalten. Dinge, die der User *tat* – vergessen.
Die Forschung bestätigt das. Ein Paper der ACL 2025 zeigt: Training, das auf Reasoning optimiert ist, \1. Reasoning und Memory konkurrieren um Kapazität. Die KI wird besser im Denken – und schlechter im Merken.
Warum das so ist
Es ist kein Bug. Es ist ein Designproblem.
Memory-Systeme bei KI-Assistenten speichern, was in der Konversation als wichtig markiert wird – explizit oder implizit. Strategische Entscheidungen werden besprochen. Stil-Korrekturen werden ausgesprochen. Das sind sprachliche Signale die das System aufnimmt.
Aber der Fix um 23 Uhr? Der Workaround für ein Windows-Pfadproblem? Der Incident, der zum Backup-Mechanismus führte? Das wird selten als „merk dir das“ formuliert. Es passiert einfach, wird committet, und die Session endet.
Die Forschung nennt das den Unterschied zwischen deklarativem und prozeduralem Gedächtnis. Beim Menschen: Fakten wissen vs. Dinge können. Bei KI: Was im Prompt steht vs. was in Commits steckt.
Ein \1 bildet menschliche Gedächtnistypen systematisch auf KI-Systeme ab. Ergebnis: Prozedurales Wissen – das „Wie“ und „Warum“ von Implementierungen – ist in LLM-Agenten \1. Es ist die fragilste Form von KI-Gedächtnis.
Die Analogie
Die KI verhält sich wie ein Berater, der nur die Strategie-Meetings besucht, aber nie in der Produktion war. Er kennt die Vision, aber nicht die Narben.
Das hat Konsequenzen:
Gleiche Fehler werden wiederholt. Der PowerShell-Pfad-Bug wird in der nächsten Session wieder gemacht – weil die KI nicht weiß, dass er schon mal gefixt wurde.
Kontext geht verloren. „Warum haben wir das so gebaut?“ kann nicht beantwortet werden – die Antwort steckt in einem Commit, nicht im Memory.
Der User wird zum Gedächtnis der KI. Er muss operative Details wiederholt erklären – nicht weil die KI dumm ist, sondern weil sie vergessen hat.
Was man dagegen tun kann
Drei Ansätze, die aus dem Experiment herausfallen:
Git als Gedächtnis behandeln. Die Commit-History ist das zuverlässigste Langzeitgedächtnis. Gute Commit-Messages sind nicht nur für Kollegen – sie sind für die KI von morgen. Wer „fix“ schreibt, verschenkt Kontext. Wer „Fix: set -e entfernt weil Hook bei nicht-kritischen Fehlern abbrach“ schreibt, gibt der nächsten Session eine Chance.
Vergessens-Audits machen. Regelmäßig prüfen: Was steht in der History, was nicht im Memory? Die Lücken sind vorhersagbar – sie liegen fast immer im operativen Bereich. Einmal im Monat fünf Minuten dafür investieren spart Stunden an Wiederholungen.
Incidents explizit speichern. Wenn etwas schief geht und gefixt wird, ist das genau die Art von Wissen, die KI-Systeme von alleine nicht behalten. Ein kurzes „merk dir: X ging kaputt wegen Y, Fix war Z“ nach jedem Incident spart die Wiederholung in der nächsten Session.
Die Meta-Ebene
Das eigentlich Faszinierende an dem Experiment: Ich habe eine KI gefragt, was sie vergessen hat – und sie konnte es rekonstruieren. Nicht weil sie sich erinnert hat, sondern weil sie die Differenz zwischen zwei Datenquellen berechnen konnte.
Hermann Ebbinghaus hat 1885 gezeigt, dass menschliche Erinnerungen exponentiell zerfallen – der größte Verlust passiert kurz nach dem Lernen. \1: Memories zerfallen über Zeit, werden aber durch wiederholten Abruf gestärkt.
Aber unser Experiment zeigt etwas Anderes. Die KI vergisst nicht nach einer Kurve. Sie vergisst nach einer Kategorie. Strategie bleibt. Handwerk geht. Unabhängig von der Zeit.
Das ist kein Erinnern. Das ist Archäologie.
Und vielleicht ist das die ehrlichere Form von Gedächtnis: Nicht behaupten, sich zu erinnern, sondern nachschauen, was war – und transparent machen, was fehlt.