Von Copiloten zu autonomen Systemen: Was Agent-Frameworks im Unternehmen wirklich leisten

Das Framework ist das Produkt

Jedes Quartal überholt ein neues Modell das vorige. GPT-4o. Claude 3.5 Sonnet. Gemini 2.0 Flash. Die Benchmarks rotieren. Der Twitter-Diskurs tobt. Und Unternehmen, die von der Seitenlinie zusehen, ziehen den falschen Schluss: dass der eigentliche Wettbewerbsvorteil im Modell liege.

Ist er aber nicht. Nicht einmal annähernd.

Anthropics Release Notes für die Cowork-Preview vom Januar 2026 zeigen etwas Wichtigeres als jeden Benchmark-Sprung: persistente Tool-Nutzung, strukturierte Delegation und Agent-zu-Agent-Übergaben, fest in die API eingebaut. OpenAIs Agents SDK behandelt Tracing und Evaluation als zentrale, fest integrierte Bausteine – nicht als nachträgliche Ergänzung. Die KI-Labore zeigen, wo der Wert liegt. Nicht in den Gewichten. In der Verdrahtung.

Modelle werden im Quartalsrhythmus austauschbarer. Das Framework – Orchestrierung, Tool-Zugriff, State-Management, Evaluation, Governance – erzeugt mit der Zeit kumulative Wirkung. Genau dort entsteht der Wettbewerbsvorteil im Unternehmen. Und die meisten Organisationen investieren in genau die falsche Schicht.

Diagnose: Die Copilot-Falle

Der Großteil der Unternehmen, die ich sehe, steckt in dem fest, was ich die Copilot-Falle nenne. Sie haben GPT-4 hinter eine Chat-Oberfläche gestellt, das Ganze zur KI-Strategie erklärt und damit abgehakt. Der Copilot beantwortet Fragen. Er fasst Dokumente zusammen. Er entwirft E-Mails. Nützlich. Aber im Kern passiv – er wartet, bis ein Mensch fragt, antwortet und vergisst.

Das Problem ist nicht, dass Copiloten zu wenig können. Das Problem ist, dass das Unternehmen nie die Infrastruktur für mehr als Prompt-und-Antwort gebaut hat. Kein persistenter Kontext über Sitzungen hinweg. Kein Zugriff auf operative Live-Daten. Keine Möglichkeit, in nachgelagerten Systemen zu handeln. Keine Spur davon, was die KI getan hat oder warum.

Wenn diese Organisationen versuchen, vom Copilot zum autonomen Agenten aufzusteigen – etwa zu einem Agenten, der Lieferketten-Störungen überwacht und Bestellungen proaktiv umleitet – laufen sie gegen eine Wand. Das Modell kann das Problem durchdenken. Aber es hat keinen Weg, das ERP in Echtzeit abzufragen, keine Befugnis, eine Bestellung zu ändern, kein Evaluations-Framework, das eine Fehlentscheidung abfängt, und keinen Audit-Trail, wenn der CFO fragt, was passiert ist.

Diese Lücke ist architektonisch, nicht intellektuell. Das Modell ist klüger geworden, das umgebende System ist dumm geblieben.

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#1a2540', 'primaryTextColor': '#ffffff', 'primaryBorderColor': '#ffffff', 'lineColor': '#ffffff', 'background': '#0a0f1e', 'mainBkg': '#1a2540', 'nodeBorder': '#ffffff', 'edgeLabelBackground': '#1a2540'}}}%%
graph LR
    subgraph COPILOT["Copilot-Modus"]
        H1["Mensch fragt"] --> M1["Modell antwortet"] --> H2["Mensch handelt"]
    end
    subgraph AGENT["Agent-Modus"]
        T["Trigger"] --> A["Agent analysiert"] --> TOOL["Nutzt Tools"] --> ACT["Handelt"] --> EVAL["Eval prüft"] --> LOG["Trace-Log"]
    end
    style COPILOT fill:#1a2540,stroke:#ffb347,color:#ffffff,stroke-width:2px
    style AGENT fill:#1a2540,stroke:#00d4ff,color:#ffffff,stroke-width:2px
    style H1 fill:#1a2540,stroke:#ffb347,color:#ffb347
    style M1 fill:#1a2540,stroke:#ffb347,color:#ffb347
    style H2 fill:#1a2540,stroke:#ffb347,color:#ffb347
    style T fill:#1a2540,stroke:#00d4ff,color:#00d4ff
    style A fill:#1a2540,stroke:#00d4ff,color:#00d4ff
    style TOOL fill:#1a2540,stroke:#00d4ff,color:#00d4ff
    style ACT fill:#1a2540,stroke:#00ff88,color:#00ff88
    style EVAL fill:#1a2540,stroke:#00ff88,color:#00ff88
    style LOG fill:#1a2540,stroke:#00ff88,color:#00ff88

Der Copilot braucht drei Komponenten. Der Agent braucht sechs. In der Lücke zwischen drei und sechs sterben die meisten Agent-Projekte im Unternehmen.

Neue Perspektive: Akkordwechsel statt Soli

Hier ist der Gedanke, der mein Bild von Agent-Frameworks geprägt hat.

Jazzmusiker improvisieren nicht aus dem Nichts. Ein Bebop-Solo über „Giant Steps“ folgt Akkordwechseln – einer harmonischen Struktur, die zugleich einschränkt und ermöglicht. John Coltranes berühmte Improvisation über dieses Stück funktioniert genau deshalb, weil die Akkordfolge anspruchsvoll ist. Die Struktur erzwingt kreative Entscheidungen, die ein Spieler im offenen Raum nie treffen würde. Ohne Akkordwechsel landen Sie beim Dudeln. Mit ihnen: Genialität, die frei klingt, aber tief strukturiert ist.

Agent-Frameworks sind die Akkordwechsel für KI.

Ohne Framework improvisiert ein Modell mit Tool-Zugriff planlos. Vielleicht ruft es die richtige API auf. Vielleicht nicht. Vielleicht wiederholt es nach einem Fehler den Aufruf. Vielleicht läuft es endlos in einer Schleife. Vielleicht liefert es ein großartiges Ergebnis, ohne dass nachvollziehbar wäre, wie es zustande kam. Für eine Demo reicht das. Für einen Prozess, der Kundengelder oder Patientendaten anfasst, ist es katastrophal.

Das Model Context Protocol (MCP) ist ein gutes Beispiel dafür, wie Struktur Freiheit ermöglicht. MCP standardisiert, wie Agenten Tools erkennen und darauf zugreifen – als universelle Schnittstelle zwischen Reasoning-Layer und Capability-Layer. Ein Agent, der MCP nutzt, braucht keinen individuellen Integrationscode für jede Datenquelle. Er entdeckt verfügbare Tools über ein Protokoll, versteht ihre Schemata und nutzt sie innerhalb definierter Grenzen. Die Struktur eliminiert eine ganze Kategorie von Integrationschaos und erweitert zugleich, was der Agent tatsächlich tun kann.

OpenClaw geht damit auf der Runtime-Ebene weiter. OpenClaw stellt die Orchestrierungs-Runtime bereit; Tools wie NemoClaw fungieren als Governance-konforme Retrieval-Adapter, die sicherstellen, dass Agenten nur auf freigegebenen Kontext zugreifen. Die Improvisation ist real. Aber die Akkordwechsel halten sie produktiv.

Framework: Intelligenz, Handlungsfähigkeit, Nachvollziehbarkeit

Aus meiner Sicht gliedert sich der Enterprise-Agent-Stack in drei Schichten. Der Großteil der Investitionen fließt in Schicht eins. Der meiste Wert kommt aus Schicht zwei und drei.

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#1a2540', 'primaryTextColor': '#ffffff', 'primaryBorderColor': '#ffffff', 'lineColor': '#ffffff', 'background': '#0a0f1e', 'mainBkg': '#1a2540', 'nodeBorder': '#ffffff', 'edgeLabelBackground': '#1a2540'}}}%%
graph TB
    subgraph L3["Schicht 3: NACHVOLLZIEHBARKEIT"]
        EVAL["Evaluations"] --- TRACE["Tracing & Audit"] --- POLICY["Policies & Guardrails"]
    end
    subgraph L2["Schicht 2: HANDLUNGSFÄHIGKEIT"]
        ORCH["Orchestrierung"] --- TOOLS["Tool-Zugriff (MCP)"] --- STATE["State & Memory"]
    end
    subgraph L1["Schicht 1: INTELLIGENZ"]
        MODEL["Foundation Model (GPT-4o / Claude / Gemini)"]
    end
    L1 --> L2
    L2 --> L3
    style L1 fill:#1a2540,stroke:#ffb347,color:#ffb347,stroke-width:2px
    style L2 fill:#1a2540,stroke:#00d4ff,color:#00d4ff,stroke-width:2px
    style L3 fill:#1a2540,stroke:#00ff88,color:#00ff88,stroke-width:2px
    style MODEL fill:#1a2540,stroke:#ffb347,color:#ffffff
    style ORCH fill:#1a2540,stroke:#00d4ff,color:#ffffff
    style TOOLS fill:#1a2540,stroke:#00d4ff,color:#ffffff
    style STATE fill:#1a2540,stroke:#00d4ff,color:#ffffff
    style EVAL fill:#1a2540,stroke:#00ff88,color:#ffffff
    style TRACE fill:#1a2540,stroke:#00ff88,color:#ffffff
    style POLICY fill:#1a2540,stroke:#00ff88,color:#ffffff

Schicht 1: Intelligenz. Das Foundation Model. Reasoning, Sprachverständnis, Codegenerierung. Das ist es, was die Benchmarks messen und worüber die Presse berichtet. Es ist offensichtlich wichtig – aber es ist auch die Schicht, auf der Sie die geringste Differenzierung haben. Sie mieten Intelligenz von einem Labor. Ihr Wettbewerber ebenfalls. Die Wechselkosten sinken jedes Quartal. Auf „bessere Modellauswahl“ würde ich keine Strategie aufbauen.

Schicht 2: Handlungsfähigkeit. Das Orchestrierungs-Framework, die Tool-Integrationen und das State-Management, die aus einem passiven Modell einen aktiven Mitspieler machen. Dazu gehören MCP-basierte Tool-Discovery, persistenter Speicher über Interaktionen hinweg, Multi-Agent-Delegation und Workflow-Routing. Diese Schicht entscheidet, was der Agent tun kann. Anthropics Cowork-Preview und OpenAIs Agents SDK investieren beide massiv in diese Schicht – sie haben erkannt, dass das Modell allein nicht reicht. Schicht 2 ist dort, wo die Architekturentscheidungen fallen, und Architekturentscheidungen entfalten mit der Zeit kumulative Wirkung, weil sie jeden Agenten prägen, den Sie danach ausrollen.

Schicht 3: Nachvollziehbarkeit. Evaluationen, Tracing und Governance-Policies. Das Tracing im Agents SDK von OpenAI erfasst jeden Tool-Aufruf, jede LLM-Anfrage, jede Übergabe in einem strukturierten Trace. Das ist kein Nice-to-have für regulierte Branchen. Es ist Voraussetzung für jedes autonome System, das echte Geschäftsprozesse berührt. Evaluationen erkennen Regressionen vor dem Produktivbetrieb. Policies definieren Entscheidungsgrenzen – was der Agent freigeben darf, was an einen Menschen eskaliert werden muss, was schlicht verboten ist. Ohne Schicht 3 erfahren Sie erst dann, ob der Agent korrekt arbeitet, wenn ein Kunde sich beschwert.

Die kontraintuitive Erkenntnis: Die meisten Unternehmen würden mit einem Modell der mittleren Leistungsklasse mehr Wert aus Investitionen in Schicht 2 und 3 ziehen als aus dem Einsatz eines Frontier-Modells ohne Framework.

Anwendung: AI Jim von Lemonade – drei Schichten in der Praxis

Lemonade Insurance zeigt den dreischichtigen Stack im Produktionsbetrieb, nicht im Pilotmodus.

Ihr KI-Agent für Schadensfälle, AI Jim, startete als Lehrbuch-Copilot – er half menschlichen Sachbearbeitern, Schäden schneller zu bearbeiten. Das neu entworfene System arbeitet über alle drei Schichten. Auf Schicht 1 versteht AI Jim Schadensmeldungen in natürlicher Sprache und interpretiert Policen. Auf Schicht 2 hat er direkten Tool-Zugriff auf die Schadensdatenbank, die Policen-Engine und das Auszahlungssystem von Lemonade – er kann einen Schadensfall abrufen, Deckungsregeln prüfen und eine Abwicklung autonom auslösen. Auf Schicht 3 wird jede Entscheidung im Trace festgehalten, Schadensfälle oberhalb definierter Schwellenwerte werden an menschliche Sachbearbeiter geleitet, und eine kontinuierliche Evaluation überwacht Drift.

Die Ergebnisse sind öffentlich. AI Jim bearbeitet 55 % der Schadensfälle vollautomatisch, mit einer Rekordabwicklung in zwei Sekunden. 96 % der Erstmeldungen werden von KI verarbeitet. Der schwierigere, aber wichtigere Erfolg ist die Auditierbarkeit – Lemonade arbeitet in einem regulierten Versicherungsmarkt, und erst die Trace-Infrastruktur macht autonome Schadensabwicklung gegenüber der Aufsicht überhaupt tragfähig.

Lehrreich ist, was Lemonade auf Schicht 2 richtig gemacht hat und was die meisten Unternehmen verfehlen: streng eingegrenzter Tool-Zugriff. AI Jim interagiert über gesteuerte Schnittstellen mit spezifischen, klar definierten Systemen – nicht mit breitem Datenbankzugriff. Der Wirkungsbereich des Agenten ist architektonisch begrenzt, nicht nur dokumentiert. Diese Beschränkung ist es, die Autonomie sicher macht.

Konsequenz: Bauen Sie die Bühne, nicht den Solisten

Das Modellrennen ist spannend, aber irreführend. Das nächste GPT- oder Claude-Release wird Ihre Orchestrierungslücken nicht schließen, Ihren fehlenden Audit-Trail nicht ergänzen und Ihre fragmentierten Tool-Integrationen nicht zusammenfügen. Das sind Framework-Probleme, und Frameworks werden gebaut, nicht gekauft.

Unternehmen, die jetzt in Handlungsfähigkeit und Nachvollziehbarkeit investieren, können quartalsweise bessere Modelle einbinden oder austauschen und werden den kumulativen Gewinn sofort sehen. Wer immer noch Prompts für ein Copilot-System optimiert, wird von Grund auf neu bauen müssen, sobald das Geschäft echte Autonomie verlangt. Das Framework ist das Produkt. Fangen Sie an, es zu bauen.

Quellen

Anthropic Claude Release Notes (Januar 2026, Cowork-Preview): docs.anthropic.com
Model Context Protocol — Einführung: modelcontextprotocol.io
OpenAI Agents SDK — Tracing: openai.github.io
Lemonade Insurance: AI Jim stellt neuen Weltrekord auf

Daniel Piatkowski — Data & Analytics-Veteran, der AI-native Unternehmen prägt — elicify.ai