KI-Tools vergessen was sie lernen — und keiner redet darüber
Wenn Ihr KI-Coding-Assistant heute perfekt versteht wie Ihr Projekt aufgebaut ist und morgen wieder bei null anfängt, haben Sie ein Problem. Das Problem ist nur: Sie merken es nicht. Bis Sie sich fragen, warum die Qualität der Vorschläge schwankt, obwohl Sie nichts geändert haben.
Das Versprechen: KI die mitlernt
Die Werbung klingt bei allen gleich. ChatGPT „merkt sich Ihre Präferenzen“. GitHub Copilot hat jetzt ein „Memory-System, das über Agenten hinweg lernt“. Claude Code speichert „Projekt-Kontext zwischen Sessions“. Cursor „versteht Ihre Codebase“.
Das Versprechen: Die KI wird über Zeit besser, weil sie sich erinnert.
Die Realität sieht anders aus.
Was die Anbieter verschweigen
Ich arbeite täglich mit KI-Coding-Tools – über 25 aktive Projekte. Und ich tracke systematisch, wie oft ich KI-generierten Code ändern muss. 432 Datenpunkte, alles versioniert.
Dabei habe ich festgestellt: Kontextwissen verschwindet. Nicht durch einen Bug. Sondern durch Design.
ChatGPT: Die KI entscheidet was „verblasst“
ChatGPT hat ein Memory-System mit einem Limit von etwa 1.200 Wörtern. Wenn das Limit erreicht ist, priorisiert das System automatisch – basierend darauf wie häufig und wie kürzlich ein Thema vorkam. Was die KI für „weniger relevant“ hält, verblasst.
Das Problem: Die KI bewertet die Relevanz Ihres Wissens. Nicht Sie. Und Nutzer berichten, dass gelöschte Erinnerungen zurückkehren, während beibehaltene plötzlich fehlen. Das System ist nicht nur autonom – es ist unzuverlässig.
GitHub Copilot: 28 Tage, dann ist Schluss
Copilot Memory ist seit Januar 2026 verfügbar. Was die meisten übersehen: Memories verfallen nach 28 Tagen automatisch. Kein Opt-out. Wenn Sie vier Wochen nicht in einem Repo arbeiten, fängt Copilot wieder bei null an.
Für Projekte mit regelmäßiger Aktivität mag das funktionieren. Für alles andere – Wartungsprojekte, saisonale Codebases, langfristige Architekturen – ist das ein Problem. Ihr Kontext hat ein Ablaufdatum.
Claude Code: Die KI räumt ihr eigenes Gedächtnis auf
Claude Code hat ein Feature namens Auto-Dream. Es läuft automatisch im Hintergrund – wenn 24 Stunden vergangen sind und 5 Sessions stattgefunden haben. Was es tut: Memory-Dateien konsolidieren, zusammenführen, und ja – löschen.
Die KI entscheidet selbst was „veraltet“ ist. Kein Backup. Kein Undo. Keine menschliche Kontrolle. Ein Subagent der sein eigenes Gedächtnis verwaltet, ohne dass jemand prüft ob die Entscheidung richtig war.
Cursor: Gar kein Gedächtnis – und Qualitätsverlust unter Last
Cursor hat kein persistentes Memory zwischen Sessions. Der Kontext lebt im aktuellen Fenster – und bei 70-90% Context-Auslastung degradiert die Qualität messbar. Die KI versteht Ihren Code schlechter, je mehr Code sie sehen muss.
Drittanbieter wie ContextForge versuchen das Problem mit MCP-Servern zu lösen. Aber das Grundproblem bleibt: Die Architektur hat kein Gedächtnis vorgesehen.
Warum das ein ernstes Problem ist
Für Entwickler: Qualitätsschwankungen ohne erkennbare Ursache
Wenn Ihr KI-Tool am Montag versteht dass Ihr Projekt asyncio verwendet und am Dienstag synchronen Code vorschlägt, haben Sie Kontextverlust. Sie merken es an den Korrekturen die Sie machen müssen – aber Sie führen es auf „die KI hat halt einen schlechten Tag“ zurück.
Hat sie nicht. Sie hat vergessen.
Für Unternehmen: Compliance und Nachvollziehbarkeit
Der EU AI Act fordert ab August 2026 zehnjährige Audit-Trails für Hochrisiko-KI-Systeme. Wie auditieren Sie ein System, das seinen eigenen Zustand autonom verändert, ohne Versionierung, ohne Changelog?
Für die Sicherheit: Memory Poisoning
OWASP stuft Memory Poisoning als Top-Risiko für agentische KI ein. Wenn die KI eigenmächtig entscheidet was sie behält und was nicht, kann ein Angreifer gezielt Kontext einschleusen der über Sessions hinweg bestehen bleibt – während legitimes Wissen „konsolidiert“ wird.
Enterprise-Kunden zahlen – und verlieren trotzdem
Und jetzt wird es wirklich unangenehm. Man könnte denken: „Das betrifft die kostenlosen Versionen. Im Enterprise-Plan ist das gelöst.“ Ist es nicht.
GitHub Copilot Enterprise: Memory ist verfügbar, aber standardmäßig deaktiviert. Selbst wenn aktiviert: 28 Tage, dann weg. Für alle User in der Organisation gleich. Ein Team-Lead der ein Quartal lang an einer Architekturentscheidung arbeitet, verliert den Kontext nach vier Wochen Urlaub. Enterprise-Preis, Consumer-Gedächtnis.
Claude Teams/Enterprise: Memory persistiert zwar – aber der Auto-Dream Subagent konsolidiert auch im Enterprise-Plan. Admins können Memory für die ganze Organisation deaktivieren, aber sie können nicht granular steuern was konsolidiert wird und was nicht. Alles oder nichts.
Die Vertrauensfrage: Wenn ich als Unternehmen 40 EUR pro User pro Monat für ein KI-Coding-Tool zahle, erwarte ich dass es über Zeit besser wird – nicht dass es sein eigenes Wissen alle paar Wochen recycelt. Ich erwarte Nachvollziehbarkeit – nicht „die KI hat entschieden dass das nicht mehr relevant ist.“
Und hier liegt das eigentliche Problem: Wie vertraut man einem Tool das nicht erklären kann, warum es gestern noch wusste wie das Projekt aufgebaut ist und heute nicht mehr?
Was wäre die Lösung?
Das Problem ist nicht, dass KI-Systeme ihr Gedächtnis verwalten. Das Problem ist, dass sie es ohne menschliche Kontrolle tun. Der konzeptionelle Ansatz hat drei Ebenen:
1. Deterministische Sicherung statt KI-Bewertung
Vor jeder autonomen Gedächtnis-Konsolidierung muss ein Backup erstellt werden – deterministisch, ohne dass die KI entscheidet was gesichert wird. Alles wird gesichert. Kein Relevanz-Filter.
2. Versionierung statt Überschreiben
Lernzustände gehören in ein Versionskontrollsystem. Nicht in eine lokale Datei die überschrieben wird. Jeder Zustand muss rekonstruierbar sein – wie bei Source Code.
3. Messbare Verbesserung statt Bauchgefühl
Wenn ein KI-System behauptet, es „lernt“, muss das messbar sein. Nicht „gefühlt bessere Vorschläge“, sondern: „Edit-Rate der KI-generierten Outputs sinkt von 33% auf 5% über 20 Sessions.“ Ohne Metrik ist „Lernen“ Marketing.
Was ich mache
Ich messe über 25 Projekte hinweg systematisch, wie stark ich KI-generierten Code nachbearbeiten muss. 432 Datenpunkte. Jeder Datenpunkt versioniert, jeder rekonstruierbar.
Die Ergebnisse bisher: Der durchschnittliche Änderungsaufwand liegt bei 3,5% – was bedeutet dass 96,5% des KI-generierten Codes unverändert übernommen wird. Und der Wert sinkt über Zeit.
Aber ich kann das nur nachweisen, weil ich es messe. Und ich kann es nur reproduzieren, weil ich die Lernzustände versioniere – nicht der KI überlassen.
Fazit
KI-Tools die ihr eigenes Gedächtnis verwalten sind wie ein Mitarbeiter der seine Notizen nach jeder Woche schreddern darf – ohne Rücksprache, ohne Kopie, ohne Audit. Das mag bei Spielprojekten funktionieren. Im professionellen Einsatz ist es ein Risiko.
Die Technologie darf sich verbessern. Aber die Kontrolle darüber, was vergessen wird, gehört nicht der KI. Die gehört dem Menschen.