Warum Ihre KI-Agenten im Produktivbetrieb immer wieder scheitern

Die Stunde der Wahrheit für agentische KI

Gartner prognostiziert, dass bis Ende 2027 über 40 % aller agentischen KI-Projekte abgebrochen werden. Nicht weil die Modelle versagt hätten. Sondern weil die Organisationen, die sie einsetzen, das Fundament übersprungen haben.

Der Markt für agentische KI soll laut Information Matters von rund 7,3 Mrd. USD im Jahr 2025 auf 52 Mrd. USD bis 2030 wachsen. Jeder Anbieter hat inzwischen seine Agenten-Story. Jedes Beratungshaus hat ein Agentic-AI-Angebot. Die Demos sind beeindruckend. GPT-4o, Claude, Gemini – sie nutzen Reasoning, planen, greifen auf Tools zu und verketten mehrstufige Aufgaben.

Dann trifft der Agent auf ein reales Unternehmen. Fragmentierte Datenpipelines. Entscheidungsrechte, die nie jemand dokumentiert hat. Governance, die als Foliensatz existiert, nicht als System. Der Pilot, der den Lenkungsausschuss beeindruckt hat, bricht unter Produktionslast, veralteten Daten und fehlender Observability zusammen. Ich habe dieses Muster über viele Branchen hinweg gesehen, und die Ursache liegt fast nie am Modell.

Diagnose: Drei Versagensmuster, die nichts mit Modellen zu tun haben

Die Fehler treten in Mustern auf. Nach einem Jahr Beobachtung von Agent-Deployments im Unternehmensumfeld sehe ich immer wieder dieselben drei. Keines davon hat mit Modellfähigkeiten zu tun.

Agent-Wildwuchs. Der Vertrieb bekommt einen CRM-Agenten. Der Support bekommt einen Ticket-Router. Die Finanzabteilung bekommt einen Reconciliation-Bot. Jeder unabhängig gebaut, mit eigenem Tool-Zugriff und eigener Logik. Innerhalb weniger Monate sagt der CRM-Agent Liefertermine zu, die die Logistik nicht halten kann. Der Ticket-Router eskaliert Fälle, die der Finance-Agent längst gelöst hat. Niemand hat einen Gesamtüberblick darüber, was die Agenten gemeinsam tun. Das ist das Microservices-Antipattern, übertragen auf KI: verteilte Komplexität ohne Orchestrierung.

Das Governance-Vakuum. Welche Entscheidungen darf der Agent autonom treffen? Wer ist verantwortlich, wenn er falsch liegt? Welcher Audit-Trail existiert? Die meisten Unternehmen beantworten diese Fragen rückwirkend – nachdem der Agent eine Zahlung freigegeben hat, die er nicht hätte freigeben dürfen, oder eine Kundenkommunikation versendet hat, die gegen die Markenrichtlinien verstößt. Gartner prognostiziert separat, dass 60 % der KI-Initiativen ihre Wertziele bis 2027 verfehlen werden – wegen fragmentierter Governance. Ohne vorab definierte Grenzen ist jedes Agent-Deployment ein unkontrolliertes Experiment im Produktivbetrieb.

Die Architekturlücke. Das ist die grundlegendste Schwachstelle und am schwersten nachträglich zu beheben. Agenten brauchen Echtzeit-Datenzugriff, nicht den Batch-ETL von gestern. Sie brauchen Tool-Integration mit Leitplanken, nicht offene Admin-Credentials. Sie brauchen persistentes State Management über mehrstufige Prozesse hinweg, die sich über Stunden ziehen. Und sie brauchen Observability – wenn etwas schiefläuft, muss die gesamte Entscheidungskette nachvollziehbar sein. Die meisten Unternehmensumgebungen liefern nichts davon.

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#1a2540', 'primaryTextColor': '#ffffff', 'primaryBorderColor': '#ffffff', 'lineColor': '#ffffff', 'background': '#0a0f1e', 'mainBkg': '#1a2540', 'nodeBorder': '#ffffff', 'edgeLabelBackground': '#1a2540'}}}%%
graph TD
    AGENT["KI-Agent im Produktivbetrieb"]
    AGENT --> D{"Echtzeit-Daten?"}
    D -->|"Nein: Batch/veraltet"| F1["Entscheidungen auf\nveralteter Datenbasis"]
    D -->|"Ja"| T{"Tool-Guardrails?"}
    T -->|"Nein: offener Zugriff"| F2["Unkontrollierte Aktionen\nim Produktivbetrieb"]
    T -->|"Ja"| S{"State Management?"}
    S -->|"Nein: zustandslos"| F3["Mehrstufige Prozesse\nnicht handhabbar"]
    S -->|"Ja"| O{"Observability?"}
    O -->|"Nein: Black Box"| F4["Entscheidungen weder\ndebug- noch auditierbar"]
    O -->|"Ja"| OK["Produktionsreif"]
    style F1 fill:#2a1a1a,stroke:#ff6b6b,color:#ff6b6b
    style F2 fill:#2a1a1a,stroke:#ff6b6b,color:#ff6b6b
    style F3 fill:#2a1a1a,stroke:#ff6b6b,color:#ff6b6b
    style F4 fill:#2a1a1a,stroke:#ff6b6b,color:#ff6b6b
    style OK fill:#0a2a1e,stroke:#00ff88,color:#00ff88,stroke-width:2px
    style AGENT fill:#1a2540,stroke:#ffffff,color:#00d4ff,stroke-width:2px

Perspektivwechsel: Agenten sind ein Habitat-Problem, kein KI-Problem

Der Reflex ist, dem Agenten die Schuld zu geben. Das Modell halluziniert. Der Prompt war falsch. Die Tools waren unzuverlässig. Das sind Symptome.

Die eigentliche Ursache: Der Agent wurde in einer Umgebung ausgerollt, die nie darauf ausgelegt war, autonome KI-Akteure zu unterstützen. Derselbe Agent ist auf der richtigen Grundlage erfolgreich – nicht weil sich der Agent ändert, sondern weil die Architektur liefert, was er braucht.

Eine unerwartete Parallele hat meine Sichtweise hier verändert. Ökologen, die die Einführung neuer Arten untersuchen, kennen ein Konzept namens „Habitateignung“. Wenn eine eingeführte Art in einer Umgebung scheitert, geben Biologen nicht dem Organismus die Schuld. Sie prüfen, ob das Habitat die richtigen Bedingungen geboten hat: Nahrungsquellen, Abwesenheit bestimmter Fressfeinde, kompatibles Mikrobiom. Mit dem Organismus ist alles in Ordnung. Das Habitat war falsch.

KI-Agenten im Unternehmen sind eingeführte Arten. Sie haben Fähigkeiten – Reasoning, Tool-Nutzung, Planung – aber diese Fähigkeiten entfalten sich nur im richtigen Habitat. Echtzeit-Daten sind die Nahrungsquelle. Governance ist die Grenze des Ökosystems. Observability ist die Rückkopplung, die entgleisendes Verhalten verhindert. Ohne diese Bedingungen scheitert auch der leistungsfähigste Agent. Nicht weil er nicht funktioniert, sondern weil sein Habitat ihn nicht dauerhaft stützt.

Genau deshalb ist die Erfahrung von Klarna so lehrreich. Klarna hat 700 Kundenservice-Mitarbeiter durch KI ersetzt, verkündet, das System leiste Vergleichbares zu einem Bruchteil der Kosten – und dann still und leise wieder Menschen eingestellt, als die Kundenzufriedenheit einbrach. Die KI war leistungsfähig. Das Habitat – Workflows, Eskalationspfade, Feedbackschleifen zur Qualitätssicherung – war nicht reif für volle Autonomie.

Framework: Das Drei-Stufen-Habitat für agentische KI

Agentische KI im Unternehmen verlangt einen Weg über drei Stufen. Stufen zu überspringen ist die Hauptursache dafür, dass Agenten im Produktivbetrieb scheitern.

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#1a2540', 'primaryTextColor': '#ffffff', 'primaryBorderColor': '#ffffff', 'lineColor': '#ffffff', 'background': '#0a0f1e', 'mainBkg': '#1a2540', 'nodeBorder': '#ffffff', 'edgeLabelBackground': '#1a2540'}}}%%
graph LR
    T1["Stufe 1: Fundament\nDaten + Identität + Audit"]
    T2["Stufe 2: Workflow\nOrchestrierung + HITL + Rollback"]
    T3["Stufe 3: Autonom\nVertrauen + Monitoring + Runtime-Governance"]
    T1 -->|"Bewährt"| T2
    T2 -->|"Bewährt"| T3
    SKIP["Die meisten Unternehmen\nspringen direkt hierher"] -.-> T3
    SKIP -.->|"40 % Abbruchquote"| FAIL["FEHLSCHLAG"]
    style T1 fill:#1a2540,stroke:#ffffff,color:#00d4ff,stroke-width:2px
    style T2 fill:#1a2540,stroke:#ffffff,color:#ffb347,stroke-width:2px
    style T3 fill:#1a2540,stroke:#ffffff,color:#00ff88,stroke-width:2px
    style SKIP fill:#2a1a1a,stroke:#ff6b6b,color:#ff6b6b
    style FAIL fill:#2a1a1a,stroke:#ff6b6b,color:#ff6b6b

Stufe 1: Fundament

Bevor irgendein Agent in den Produktivbetrieb geht: das Habitat bauen.

Datenebene. Echtzeit-Datenzugriff über Streaming oder Change Data Capture, durch Governance abgesichert, katalogisiert und mit nachvollziehbarer Lineage. Wenn Ihren Daten nicht vertraut wird, wird auch Ihren Agenten nicht vertraut. Das heißt: Databricks Unity Catalog oder Snowflake-Governance – kein gemeinsamer Fileserver.

Identität und Zugriff. Feingranulare Berechtigungen, die für Agenten genauso gelten wie für Menschen. Ein Agent bekommt eine Service-Identität mit klar abgegrenztem Zugriff. Keine gemeinsam genutzten Admin-Credentials. Mich überrascht immer noch, wie viele Unternehmen diesen Schritt überspringen.

Audit-Infrastruktur. Jede Agent-Aktion wird mit vollem Kontext protokolliert – nicht nur was der Agent getan hat, sondern warum. Welche Daten er gesehen hat, die Reasoning-Kette, die Alternativen, die er erwogen hat.

Stufe 2: Workflow

Steht das Fundament, kommen Agenten in strukturierte Workflows mit expliziten menschlichen Kontrollpunkten.

Orchestrierung. Ein zentrales System, das mehrere Agenten koordiniert, Konflikte verhindert und Geschäftsregeln durchsetzt. Ohne das ist Agent-Wildwuchs unausweichlich. Das ist nicht optional.

Human-in-the-loop. Der Agent entwirft, der Mensch genehmigt. Der Agent empfiehlt, der Mensch entscheidet. Diese Grenzen müssen architektonisch verankert sein – vom System durchgesetzt, nicht durch gute Absichten in einem Runbook, das niemand liest.

Rollback-Fähigkeit. Wenn ein Agent eine falsche Aktion ausführt, müssen Sie sie rückgängig machen können. Die meisten Agent-Frameworks bieten das nicht von Haus aus. Diese Lücke zu schließen ist schwerer, als die meisten denken.

Stufe 3: Autonom

Erst wenn Stufe 1 und 2 sich bewährt haben, gewähren Sie Agenten gezielt mehr Autonomie – in risikoarmen, gut gesteuerten Domänen.

Vertrauens-Scoring. Eine Antwort im Kundenservice ist risikoärmer als eine Finanztransaktion. Autonomer Betrieb sollte an Domänenrisiko und nachgewiesene Zuverlässigkeit geknüpft sein.

Kontinuierliches Monitoring. Echtzeit-Anomalieerkennung. Sobald ein Agent vom etablierten Muster abweicht, wird automatisch eine menschliche Prüfung ausgelöst.

Runtime-Governance. Policy-Checks sind direkt im Ausführungspfad verankert – jede Entscheidung wird in Echtzeit gegen Regeln geprüft, nicht quartalsweise nachkontrolliert.

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#1a2540', 'primaryTextColor': '#ffffff', 'primaryBorderColor': '#ffffff', 'lineColor': '#ffffff', 'background': '#0a0f1e', 'mainBkg': '#1a2540', 'nodeBorder': '#ffffff', 'edgeLabelBackground': '#1a2540'}}}%%
flowchart TD
    subgraph SPRAWL ["Ohne Orchestrierung"]
        S1["Sales-Agent"] ---|"widersprüchliche Zusagen"| S2["Logistik-Agent"]
        S2 ---|"Doppelarbeit"| S3["Support-Agent"]
        S3 ---|"Widersprüche"| S4["Finance-Agent"]
        S1 ---|"kein gemeinsamer Kontext"| S4
    end
    subgraph ORCHESTRATED ["Mit gemeinsamem Fundament"]
        O1["Orchestrierungsschicht"]
        O1 --> O2["Sales-Agent"]
        O1 --> O3["Logistik-Agent"]
        O1 --> O4["Support-Agent"]
        O1 --> O5["Finance-Agent"]
        O6["Gemeinsame Daten + Policies + Kontext"] --> O1
    end
    style SPRAWL fill:#2a1a1a,stroke:#ff6b6b,color:#ffffff
    style ORCHESTRATED fill:#0a2a1e,stroke:#00ff88,color:#ffffff
    style O1 fill:#1a2540,stroke:#ffffff,color:#00d4ff,stroke-width:2px
    style O6 fill:#1a2540,stroke:#ffffff,color:#00ff88,stroke-width:2px

Anwendung: DHL und Maersk – erst das Habitat, dann die Agenten

DHL und Maersk haben beide KI für Logistik-Routing eingesetzt – volumenstarke, zeitkritische Abläufe, in denen manuelle Entscheidungen Engpässe schaffen. Beide hatten Erfolg, weil sie zuerst das Habitat bauten und erst danach Agenten ausrollten.

Stufe 1: Fundament. Beide Unternehmen haben zuerst in Echtzeit-Datenebenen investiert. DHL hat Lagersysteme, Carrier-APIs und Kundenauftragsdaten im gesamten globalen Netz verbunden. Maersk hat KI-gestütztes Routing für seine Logistik- und Schifffahrtsprozesse aufgebaut und Wetterdaten, Hinweise auf Hafenüberlastung sowie Treibstoffverbrauchsmodelle in einer einheitlichen Entscheidungsebene zusammengeführt. Das war unspektakuläre Infrastrukturarbeit. Keine Demo. Kein Showcase für die Geschäftsführung. Nur die notwendigen Leitungen im Maschinenraum.

Stufe 2: Beaufsichtigter Workflow. KI-Routing-Empfehlungen liefen zunächst parallel zu menschlichen Disponenten. Das System empfahl Routen; Menschen prüften und genehmigten. Jede Empfehlung wurde mit Dateneingaben und Reasoning protokolliert. Die Genehmigungsrate wurde mit der Zeit zum Beleg, der mehr Autonomie rechtfertigte.

Stufe 3: Selektive Autonomie. Routine-Sendungen – Standardrouten, Normalbedingungen, unter Komplexitätsschwellen – werden inzwischen autonom geroutet. Komplexe Sendungen bleiben im Human-in-the-loop-Workflow. Kontinuierliches Monitoring markiert automatisch jede Empfehlung, die vom etablierten Muster abweicht.

Die Ergebnisse sind öffentlich. DHL hat die Transportkosten um 15 % gesenkt und die Lieferzeiten um 30 % reduziert – durch KI-Routenoptimierung. Maersk hat 15 % bei den Treibstoffkosten gespart und Transportzeiten um 20 % verkürzt. Die Agenten waren nicht erfolgreich, weil sie bessere Modelle waren. Sie waren erfolgreich, weil das Habitat passte.

Konsequenz: Architektur vor Agenten

Die 40-%-Abbruchquote ist kein Urteil über agentische KI. Sie ist ein Urteil darüber, wie Unternehmen sie ausrollen. Die McKinsey-Studie „State of AI“ 2025 zeigt: Nicht mehr als 10 % der Befragten skalieren KI-Agenten in irgendeiner Geschäftsfunktion. Die Lücke zwischen Experiment und Produktivbetrieb bleibt riesig.

Die Frage lautet nicht: „Welches Agent-Framework sollen wir nutzen?“ Sie lautet: „Liefert unsere Architektur das Habitat, das diese Agenten zum Überleben brauchen?“ Wenn die ehrliche Antwort Nein ist, ist es verfrüht, Agenten zu bauen. Bauen Sie zuerst das Habitat.

Quellen

Daniel Piatkowski — Data & Analytics-Veteran, der AI-native Unternehmen prägt. elicify.ai