Die Stunde der Wahrheit für agentische KI
Gartner prognostiziert, dass bis Ende 2027 über 40 % aller agentischen KI-Projekte abgebrochen werden. Nicht weil die Modelle versagt hätten. Sondern weil die Organisationen, die sie einsetzen, das Fundament übersprungen haben.
Der Markt für agentische KI soll laut Information Matters von rund 7,3 Mrd. USD im Jahr 2025 auf 52 Mrd. USD bis 2030 wachsen. Jeder Anbieter positioniert sich inzwischen rund um Agenten. Jede Beratung hat ein Agentic-AI-Angebot. Die Demos sind beeindruckend. GPT-4o, Claude, Gemini – sie nutzen Reasoning, planen, greifen auf Tools zu und verketten mehrstufige Aufgaben.
Dann trifft der Agent auf ein reales Unternehmen. Fragmentierte Datenpipelines. Entscheidungsrechte, die nie jemand dokumentiert hat. Governance, die als Foliensatz existiert, nicht als System. Der Pilot, der den Lenkungsausschuss beeindruckt hat, bricht unter Produktionslast, veralteten Daten und fehlender Observability zusammen. Ich habe dieses Muster über viele Branchen hinweg gesehen, und die Ursache liegt fast nie am Modell.
Diagnose: Drei Versagensmuster, die nichts mit Modellen zu tun haben
Die Fehler treten in Mustern auf. Nach einem Jahr Beobachtung von Agent-Deployments im Unternehmensumfeld sehe ich immer wieder dieselben drei. Keines davon hat mit Modellfähigkeiten zu tun.
Agent-Wildwuchs. Der Vertrieb bekommt einen CRM-Agenten. Der Support bekommt einen Ticket-Router. Die Finanzabteilung bekommt einen Reconciliation-Bot. Jeder unabhängig gebaut, mit eigenem Tool-Zugriff und eigener Logik. Innerhalb weniger Monate sagt der CRM-Agent Liefertermine zu, die die Logistik nicht halten kann. Der Ticket-Router eskaliert Fälle, die der Finance-Agent längst gelöst hat. Niemand hat einen Gesamtüberblick darüber, was die Agenten gemeinsam tun. Das ist das Microservices-Antipattern, übertragen auf KI: verteilte Komplexität ohne Orchestrierung.
Das Governance-Vakuum. Welche Entscheidungen darf der Agent autonom treffen? Wer ist verantwortlich, wenn er falsch liegt? Welcher Audit-Trail existiert? Die meisten Unternehmen beantworten diese Fragen rückwirkend – nachdem der Agent eine Zahlung freigegeben hat, die er nicht hätte freigeben dürfen, oder eine Kundenkommunikation versendet hat, die gegen die Markenrichtlinien verstößt. Gartner prognostiziert separat, dass 60 % der KI-Initiativen ihre Wertziele bis 2027 verfehlen werden – wegen fragmentierter Governance. Ohne vorab definierte Grenzen ist jedes Agent-Deployment ein unkontrolliertes Experiment im Produktivbetrieb.
Die Architekturlücke. Das ist die grundlegendste Schwachstelle und am schwersten nachträglich zu beheben. Agenten brauchen Echtzeit-Datenzugriff, nicht den Batch-ETL von gestern. Sie brauchen Tool-Integration mit Leitplanken, nicht offene Admin-Credentials. Sie brauchen persistentes State Management über mehrstufige Prozesse hinweg, die sich über Stunden ziehen. Und sie brauchen Observability – wenn etwas schiefläuft, muss die gesamte Entscheidungskette nachvollziehbar sein. Die meisten Unternehmensumgebungen liefern nichts davon.
%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#1a2540', 'primaryTextColor': '#ffffff', 'primaryBorderColor': '#ffffff', 'lineColor': '#ffffff', 'background': '#0a0f1e', 'mainBkg': '#1a2540', 'nodeBorder': '#ffffff', 'edgeLabelBackground': '#1a2540'}}}%%
graph TD
AGENT["KI-Agent im Produktivbetrieb"]
AGENT --> D{"Echtzeit-Daten?"}
D -->|"Nein: Batch/veraltet"| F1["Entscheidungen auf\nveralteter Datenbasis"]
D -->|"Ja"| T{"Tool-Guardrails?"}
T -->|"Nein: offener Zugriff"| F2["Unkontrollierte Aktionen\nim Produktivbetrieb"]
T -->|"Ja"| S{"State Management?"}
S -->|"Nein: zustandslos"| F3["Mehrstufige Prozesse\nnicht handhabbar"]
S -->|"Ja"| O{"Observability?"}
O -->|"Nein: Black Box"| F4["Entscheidungen weder\ndebug- noch auditierbar"]
O -->|"Ja"| OK["Produktionsreif"]
style F1 fill:#2a1a1a,stroke:#ff6b6b,color:#ff6b6b
style F2 fill:#2a1a1a,stroke:#ff6b6b,color:#ff6b6b
style F3 fill:#2a1a1a,stroke:#ff6b6b,color:#ff6b6b
style F4 fill:#2a1a1a,stroke:#ff6b6b,color:#ff6b6b
style OK fill:#0a2a1e,stroke:#00ff88,color:#00ff88,stroke-width:2px
style AGENT fill:#1a2540,stroke:#ffffff,color:#00d4ff,stroke-width:2px
Perspektivwechsel: Agenten sind ein Habitat-Problem, kein KI-Problem
Der Reflex ist, dem Agenten die Schuld zu geben. Das Modell halluziniert. Der Prompt war falsch. Die Tools waren unzuverlässig. Das sind Symptome.
Die eigentliche Ursache: Der Agent wurde in einer Umgebung ausgerollt, die nie darauf ausgelegt war, autonome KI-Akteure zu unterstützen. Derselbe Agent ist auf der richtigen Grundlage erfolgreich – nicht weil sich der Agent ändert, sondern weil die Architektur liefert, was er braucht.
Eine unerwartete Parallele hat mein Denken hier verschoben. Ökologen, die die Einführung neuer Arten untersuchen, kennen ein Konzept namens „Habitateignung“. Wenn eine eingeführte Art in einer Umgebung scheitert, geben Biologen nicht dem Organismus die Schuld. Sie prüfen, ob das Habitat die richtigen Bedingungen geboten hat: Nahrungsquellen, Abwesenheit bestimmter Fressfeinde, kompatibles Mikrobiom. Mit dem Organismus ist alles in Ordnung. Das Habitat war falsch.
KI-Agenten im Unternehmen sind eingeführte Arten. Sie haben Fähigkeiten – Reasoning, Tool-Nutzung, Planung – aber diese Fähigkeiten entfalten sich nur im richtigen Habitat. Echtzeit-Daten versorgen den Agenten. Governance setzt die Grenzen des Systems. Observability ist der Rückkopplungsmechanismus, der entgleisendes Verhalten verhindert. Ohne diese Bedingungen scheitert auch der leistungsfähigste Agent. Nicht weil er nicht funktioniert, sondern weil sein Habitat ihn nicht dauerhaft stützt.
Genau deshalb ist die Erfahrung von Klarna so lehrreich. Klarna hat 700 Kundenservice-Mitarbeiter durch KI ersetzt, verkündet, das System leiste Vergleichbares zu einem Bruchteil der Kosten – und dann still und leise wieder Menschen eingestellt, als die Kundenzufriedenheit einbrach. Die KI war leistungsfähig. Das Habitat – Workflows, Eskalationspfade, Feedbackschleifen zur Qualitätssicherung – war nicht reif für volle Autonomie.
Framework: Das Drei-Stufen-Habitat für agentische KI
Agentische KI im Unternehmen verlangt einen Weg über drei Stufen. Stufen zu überspringen ist die Hauptursache dafür, dass Agenten im Produktivbetrieb scheitern.
%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#1a2540', 'primaryTextColor': '#ffffff', 'primaryBorderColor': '#ffffff', 'lineColor': '#ffffff', 'background': '#0a0f1e', 'mainBkg': '#1a2540', 'nodeBorder': '#ffffff', 'edgeLabelBackground': '#1a2540'}}}%%
graph LR
T1["Stufe 1: Fundament\nDaten + Identität + Audit"]
T2["Stufe 2: Workflow\nOrchestrierung + HITL + Rollback"]
T3["Stufe 3: Autonom\nVertrauen + Monitoring + Runtime-Governance"]
T1 -->|"Bewährt"| T2
T2 -->|"Bewährt"| T3
SKIP["Die meisten Unternehmen\nspringen direkt hierher"] -.-> T3
SKIP -.->|"40 % Abbruchquote"| FAIL["FEHLSCHLAG"]
style T1 fill:#1a2540,stroke:#ffffff,color:#00d4ff,stroke-width:2px
style T2 fill:#1a2540,stroke:#ffffff,color:#ffb347,stroke-width:2px
style T3 fill:#1a2540,stroke:#ffffff,color:#00ff88,stroke-width:2px
style SKIP fill:#2a1a1a,stroke:#ff6b6b,color:#ff6b6b
style FAIL fill:#2a1a1a,stroke:#ff6b6b,color:#ff6b6b
Stufe 1: Fundament
Bevor irgendein Agent in den Produktivbetrieb geht: das Habitat bauen.
Datenebene. Echtzeit-Datenzugriff über Streaming oder Change Data Capture, durch Governance abgesichert, katalogisiert und mit nachvollziehbarer Lineage. Wenn Ihren Daten nicht vertraut wird, wird auch Ihren Agenten nicht vertraut. Das heißt: Databricks Unity Catalog oder Snowflake-Governance – kein gemeinsamer Fileserver.
Identität und Zugriff. Feingranulare Berechtigungen, die für Agenten genauso gelten wie für Menschen. Ein Agent bekommt eine Service-Identität mit klar abgegrenztem Zugriff. Keine geteilten Admin-Credentials. Mich überrascht immer noch, wie viele Unternehmen diesen Schritt überspringen.
Audit-Infrastruktur. Jede Agent-Aktion wird mit vollem Kontext protokolliert – nicht nur was der Agent getan hat, sondern warum. Welche Daten er gesehen hat, die Reasoning-Kette, die Alternativen, die er erwogen hat.
Stufe 2: Workflow
Steht das Fundament, kommen Agenten in strukturierte Workflows mit expliziten menschlichen Kontrollpunkten.
Orchestrierung. Ein zentrales System, das mehrere Agenten koordiniert, Konflikte verhindert und Geschäftsregeln durchsetzt. Ohne das ist Agent-Wildwuchs unausweichlich. Das ist nicht optional.
Human-in-the-loop. Der Agent entwirft, der Mensch genehmigt. Der Agent empfiehlt, der Mensch entscheidet. Diese Grenzen müssen architektonisch verankert sein – vom System durchgesetzt, nicht durch gute Absichten in einem Runbook, das niemand liest.
Rollback-Fähigkeit. Wenn ein Agent eine falsche Aktion ausführt, müssen Sie sie rückgängig machen können. Die meisten Agent-Frameworks bieten das nicht von Haus aus. Diese Lücke zu schließen ist schwerer, als die meisten denken.
Stufe 3: Autonom
Erst wenn Stufe 1 und 2 sich bewährt haben, gewähren Sie Agenten gezielt mehr Autonomie – in risikoarmen, gut gesteuerten Domänen.
Vertrauens-Scoring. Eine Antwort im Kundenservice ist risikoärmer als eine Finanztransaktion. Autonomer Betrieb sollte an Domänenrisiko und nachgewiesene Zuverlässigkeit geknüpft sein.
Kontinuierliches Monitoring. Echtzeit-Anomalieerkennung. Sobald ein Agent vom etablierten Muster abweicht, wird automatisch eine menschliche Prüfung ausgelöst.
Runtime-Governance. Policy-Checks sind direkt im Ausführungspfad verankert – jede Entscheidung wird in Echtzeit gegen Regeln geprüft, nicht quartalsweise nachkontrolliert.
%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#1a2540', 'primaryTextColor': '#ffffff', 'primaryBorderColor': '#ffffff', 'lineColor': '#ffffff', 'background': '#0a0f1e', 'mainBkg': '#1a2540', 'nodeBorder': '#ffffff', 'edgeLabelBackground': '#1a2540'}}}%%
flowchart TD
subgraph SPRAWL ["Ohne Orchestrierung"]
S1["Sales-Agent"] ---|"widersprüchliche Zusagen"| S2["Logistik-Agent"]
S2 ---|"Doppelarbeit"| S3["Support-Agent"]
S3 ---|"Widersprüche"| S4["Finance-Agent"]
S1 ---|"kein gemeinsamer Kontext"| S4
end
subgraph ORCHESTRATED ["Mit gemeinsamem Fundament"]
O1["Orchestrierungsschicht"]
O1 --> O2["Sales-Agent"]
O1 --> O3["Logistik-Agent"]
O1 --> O4["Support-Agent"]
O1 --> O5["Finance-Agent"]
O6["Gemeinsame Daten + Policies + Kontext"] --> O1
end
style SPRAWL fill:#2a1a1a,stroke:#ff6b6b,color:#ffffff
style ORCHESTRATED fill:#0a2a1e,stroke:#00ff88,color:#ffffff
style O1 fill:#1a2540,stroke:#ffffff,color:#00d4ff,stroke-width:2px
style O6 fill:#1a2540,stroke:#ffffff,color:#00ff88,stroke-width:2px
Anwendung: DHL und Maersk – erst das Habitat, dann die Agenten
DHL und Maersk haben beide KI für Logistik-Routing eingesetzt – volumenstarke, zeitkritische Abläufe, in denen manuelle Entscheidungen Engpässe schaffen. Beide hatten Erfolg, weil sie das Habitat gebaut haben, bevor sie Agenten ausgerollt haben.
Stufe 1: Fundament. Beide Unternehmen haben zuerst in Echtzeit-Datenebenen investiert. DHL hat Lagersysteme, Carrier-APIs und Kundenauftragsdaten quer über das globale Netz verbunden. Maersk hat KI-gestütztes Routing für seine Logistik- und Schifffahrtsprozesse aufgebaut und Wetterdaten, Hinweise auf Hafenüberlastung sowie Treibstoffverbrauchsmodelle in einer einheitlichen Entscheidungsebene zusammengeführt. Das war unspektakuläre Infrastrukturarbeit. Keine Demo. Kein Showcase für die Geschäftsführung. Nur die notwendigen Leitungen im Maschinenraum.
Stufe 2: Beaufsichtigter Workflow. KI-Routing-Empfehlungen liefen zunächst parallel zu menschlichen Disponenten. Das System empfahl Routen; Menschen prüften und genehmigten. Jede Empfehlung wurde mit Dateneingaben und Reasoning protokolliert. Die Genehmigungsrate wurde mit der Zeit zum Beleg, der mehr Autonomie rechtfertigte.
Stufe 3: Selektive Autonomie. Routine-Sendungen – Standardrouten, Normalbedingungen, unter Komplexitätsschwellen – werden inzwischen autonom geroutet. Komplexe Sendungen bleiben im Human-in-the-loop-Workflow. Kontinuierliches Monitoring markiert automatisch jede Empfehlung, die vom etablierten Muster abweicht.
Die Ergebnisse sind öffentlich. DHL hat die Transportkosten um 15 % gesenkt und die Lieferzeiten um 30 % reduziert – durch KI-Routenoptimierung. Maersk hat 15 % bei den Treibstoffkosten gespart und Transportzeiten um 20 % verkürzt. Die Agenten waren nicht erfolgreich, weil sie bessere Modelle waren. Sie waren erfolgreich, weil das Habitat passte.
Konsequenz: Architektur vor Agenten
Die 40-%-Abbruchquote ist kein Urteil über agentische KI. Sie ist ein Urteil darüber, wie Unternehmen sie ausrollen. Die McKinsey-Studie „State of AI“ 2025 zeigt: Nicht mehr als 10 % der Befragten skalieren KI-Agenten in irgendeiner Geschäftsfunktion. Die Lücke zwischen Experiment und Produktivbetrieb bleibt riesig.
Die Frage lautet nicht: „Welches Agent-Framework sollen wir nutzen?“ Sie lautet: „Liefert unsere Architektur das Habitat, das diese Agenten zum Überleben brauchen?“ Wenn die ehrliche Antwort Nein ist, ist es verfrüht, Agenten zu bauen. Bauen Sie zuerst das Habitat.
Quellen
- Gartner: Über 40 % der agentischen KI-Projekte werden bis 2027 abgebrochen
- Information Matters: Globale Marktprognose agentische KI 2025-2030
- Gartner: 60 % der KI-Initiativen verfehlen ihre Wertziele bis 2027 wegen Governance-Lücken
- Fortune: Klarna kehrt seine AI-First-Strategie im Kundenservice um
- McKinsey: The State of AI in 2025 – Agenten, Innovation und Transformation
- DHL: KI in der Logistik
- Maersk: Künstliche Intelligenz in der Logistik
Daniel Piatkowski — Data & Analytics-Veteran, der AI-native Unternehmen prägt. elicify.ai