Der KI-Umbruch ist gerade nicht technisch

Die Technologie ist besser geworden. Das Verhalten nicht.

GPT-4o, Claude 3.5, Gemini 2.0, längere Kontextfenster, Tool-Nutzung, multimodales Reasoning – die letzten achtzehn Monate haben mehr technische KI-Leistungsfähigkeit gebracht als die fünf Jahre davor zusammen. Und trotzdem zeigt McKinseys aktuelle State-of-AI-Studie: Nur 39 % der Unternehmen melden einen EBIT-Effekt aus KI auf Unternehmensebene – bei nahezu flächendeckender Nutzung auf irgendeiner Ebene.

Die technologische Geschichte steht im Mittelpunkt: stärkere Modelle, klügere Agenten, bessere Tools. Sie ist offensichtlich und leicht zu erzählen.

Die weniger offensichtliche Geschichte handelt vom Verhalten. Wie ändern Unternehmen tatsächlich ihre Arbeitsweise, wenn KI im Spiel ist? Nicht die Tool-Frage. Die menschliche Frage. Denn aktuell haben die meisten Unternehmen ihren Mitarbeitenden mächtige KI-Tools zur Verfügung gestellt – und absolut kein gemeinsames Verständnis darüber, wie, wann oder ob sie diese einsetzen sollen. Das Ergebnis: tausend einzelne Experimente ohne kollektives Lernen. Das ist keine echte Einführung. Das ist Chaos mit guten Absichten.

Diagnose: individuelle Hacks, keine Unternehmensnormen

Was ich immer wieder sehe: Ein Data Engineer nutzt Claude, um dbt-Modellvorlagen zu generieren. Eine Marketing-Analystin entwirft mit GPT-4 Kampagnen-Briefings. Ein Finanzteam fügt Quartalszahlen in ChatGPT ein und lässt sich Zusammenfassungen schreiben. Jedes dieser Beispiele ist für sich rational. Keines ist koordiniert.

Das Problem ist nicht, dass Menschen KI nutzen. Das Problem ist, dass niemand gemeinsame Normen dafür etabliert hat, wie KI in Unternehmens-Workflows passt. Es gibt keine vereinbarten Standards dafür, welche Outputs eine menschliche Prüfung erfordern. Kein gemeinsames Vokabular, um KI-unterstützte von KI-generierter Arbeit zu unterscheiden. Keinen Eskalationspfad, wenn ein KI-Output plausibel aussieht, sich aber falsch anfühlt.

Daraus entstehen drei konkrete Versagensmuster:

Datenqualität verschlechtert sich lautlos. Wenn Analysten KI nutzen, um Daten ohne Verifikationsschritt zu transformieren oder zusammenzufassen, summieren sich die Fehler. Eine halluzinierte Kennzahl in einer Vorstandsunterlage kündigt sich nicht an. Sie sieht genauso aus wie eine echte. Den dbt Semantic Layer gibt es genau deshalb – um konsistente Kennzahlendefinitionen über Tools hinweg durchzusetzen. Aber er funktioniert nur, wenn Menschen ihre Abfragen tatsächlich darüber laufen lassen, statt ein LLM improvisieren zu lassen.

Governance wird reaktiv. Ohne Verhaltensnormen entdecken Governance-Teams den Missbrauch von KI erst nachträglich. Eine Compliance-Verantwortliche erfährt drei Wochen später aus einem Vorfallbericht, dass Kundendaten in ein externes LLM eingefügt wurden. Bis dahin ist der Schaden angerichtet.

Der ROI der Einführung bleibt hinter den Erwartungen zurück. Individuelle Produktivitätsgewinne sind real, aber klein. Die sich verstärkenden Effekte entstehen aus neu gestalteten Prozessen – und einen Prozess kann man nicht neu gestalten, bevor man die neuen Verhaltensmuster verstanden hat, die er erfordert.

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#1a2540', 'primaryTextColor': '#ffffff', 'primaryBorderColor': '#00d4ff', 'lineColor': '#ffffff', 'background': '#0a0f1e', 'mainBkg': '#1a2540', 'nodeBorder': '#00d4ff', 'edgeLabelBackground': '#0a0f1e'}}}%%
flowchart TD
    A["KI-Tools ausgerollt"] --> B{"Verhaltensnormen\netabliert?"}
    B -->|"Nein"| C["Individuelle Experimente"]
    C --> D["Keine gemeinsamen Muster"]
    D --> E["Lautlose Datenqualitätsprobleme"]
    D --> F["Reaktive Governance"]
    D --> G["Marginaler ROI"]
    B -->|"Ja"| H["Koordinierte Einführung"]
    H --> I["Gemeinsame Prüfstandards"]
    I --> J["Proaktive Governance"]
    J --> K["Sich verstärkende Erträge"]

    style A fill:#1a2540,stroke:#00d4ff,color:#ffffff
    style B fill:#1a2540,stroke:#ffb347,color:#ffffff
    style C fill:#1a2540,stroke:#ff6b6b,color:#ffffff
    style D fill:#1a2540,stroke:#ff6b6b,color:#ffffff
    style E fill:#1a2540,stroke:#ff6b6b,color:#ffffff
    style F fill:#1a2540,stroke:#ff6b6b,color:#ffffff
    style G fill:#1a2540,stroke:#ff6b6b,color:#ffffff
    style H fill:#1a2540,stroke:#00ff88,color:#ffffff
    style I fill:#1a2540,stroke:#00ff88,color:#ffffff
    style J fill:#1a2540,stroke:#00ff88,color:#ffffff
    style K fill:#1a2540,stroke:#00ff88,color:#ffffff

Perspektivwechsel: Händewaschen und die Semmelweis-Lücke

Ich kenne den wirkungsvollsten Perspektivwechsel zu diesem Problem — und er kommt nicht aus der Tech-Welt. Er kommt aus dem Gesundheitswesen.

1847 zeigte Ignaz Semmelweis, dass Händewaschen zwischen Patientenkontakten die Müttersterblichkeit im Wiener Allgemeinen Krankenhaus von 18 % auf unter 2 % senkte. Die Belege waren überwältigend. Seine Kollegen lehnten ihn ab. Krankenhäuser brauchten Jahrzehnte, um die Praxis zu übernehmen. Semmelweis starb 1865 in einer Anstalt – seine Erkenntnis bestätigt, seine Karriere zerstört.

Händewaschen war kein technologischer Durchbruch. Seife gab es. Wasser gab es. Die Intervention war rein verhaltensbezogen – eine Veränderung der Praxis zwischen einer Tätigkeit und der nächsten. Der Widerstand entstand nicht, weil die Belege schwach waren, sondern weil Verhalten zu ändern schwerer ist als Tools zu wechseln.

Die KI-Einführung steht vor derselben Lücke. Ich nenne sie die Semmelweis-Lücke: der Abstand zwischen verfügbarer Fähigkeit und der tatsächlichen Verhaltensänderung in der Organisation, die nötig ist, um sie auch gut zu nutzen.

Die Parallele ist konkret. Semmelweis brauchte keine neue Erfindung. Er brauchte Ärzte, die sich zwischen der Leichenhalle und der Geburtsstation die Hände wuschen. Unternehmen brauchen keine besseren Modelle. Sie brauchen Menschen, die KI-Outputs verifizieren, bevor diese in einen Bericht wandern, die Metrik-Abfragen über den Semantic Layer leiten, statt zu improvisieren, die Unsicherheit kennzeichnen, statt sie zu glätten.

Die Technologie ist da. Das Verhalten nicht. Und das Verhalten ist der schwierige Teil.

Das ist kein Schulungsproblem. Schulungen vermitteln, was KI kann. Verhaltensbasierte KI-Befähigung vermittelt, was Menschen tun sollten – und baut die organisatorischen Systeme, die das richtige Verhalten leichter machen als das falsche.

Framework: Das NRL-Modell für verhaltensbasierte KI-Befähigung

Verhaltensbasierte KI-Befähigung braucht drei ineinandergreifende Komponenten. Ich nutze dafür das NRL-Framework: Normen, Rituale, Literacy (KI-Kompetenz). Jede Komponente adressiert ein anderes Versagensmuster, und keine funktioniert für sich allein.

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#1a2540', 'primaryTextColor': '#ffffff', 'primaryBorderColor': '#00d4ff', 'lineColor': '#ffffff', 'background': '#0a0f1e', 'mainBkg': '#1a2540', 'nodeBorder': '#00d4ff', 'edgeLabelBackground': '#0a0f1e'}}}%%
flowchart LR
    N["NORMEN\nWas automatisieren?\n\nAutomatisierungsgrenzen\nNutzungsrichtlinien\nOutput-Klassifikation"]
    R["RITUALE\nPrüfmuster\n\nHITL-Gates\nPrüfrhythmus\nEskalationsprotokolle"]
    L["LITERACY\nFragen, prüfen, eskalieren\n\nPrompt-Design je Rolle\nVerifikationstechniken\nKonfidenz-Kalibrierung"]

    N --> R --> L
    L -.->|"Feedback"| N

    style N fill:#1a2540,stroke:#00d4ff,color:#ffffff,stroke-width:2px
    style R fill:#1a2540,stroke:#ffb347,color:#ffffff,stroke-width:2px
    style L fill:#1a2540,stroke:#00ff88,color:#ffffff,stroke-width:2px

Normen beantworten: „Was sollten wir automatisieren – und was nicht?“ Das ist keine pauschale Richtlinie. Sie muss je Workflow konkretisiert werden. Eine Norm könnte lauten: KI darf Kundenkommunikation entwerfen, aber ein Mensch muss das Ergebnis vor dem Versand prüfen. KI darf SQL-Abfragen über den Semantic Layer generieren, aber keine Produktionstabellen verändern. KI darf Besprechungsnotizen zusammenfassen, aber keine Zusagen im Namen des Unternehmens machen.

Normen müssen so konkret sein, dass jemand ihnen ohne Interpretation folgen kann. „KI verantwortungsvoll nutzen“ ist keine Norm. „Alle KI-generierten Finanzkennzahlen müssen vor der Aufnahme in ein kundenseitiges Dokument anhand des Quellsystems verifiziert werden“ ist eine Norm.

Rituale beantworten: „Wie prüfen wir KI-Arbeit?“ Das sind die wiederkehrenden Muster, die Normen operativ machen. Ein wöchentlicher KI-Output-Review, in dem ein Team die KI-generierte Arbeit des vergangenen Sprints durchgeht. Ein Pre-Publish-Check für jeden Inhalt, der KI-unterstützte Analyse enthält. Ein monatlicher Governance-Review der KI-Nutzungsmuster, der gezielt nach Drift sucht.

Rituale sind wichtig, weil Normen ohne sie verfallen. Unternehmen schreiben im Januar exzellente KI-Nutzungsrichtlinien – und stellen im März fest, dass diese komplett ignoriert werden. Nicht aus böser Absicht. Menschen optimieren nach Geschwindigkeit, und ohne Prüfrhythmus gewinnt der Weg des geringsten Widerstands.

Literacy beantwortet: „Wie arbeite ich tatsächlich gut mit KI?“ Das ist kein generisches Prompt-Engineering. Es ist rollenspezifischer Kompetenzaufbau. Eine Analystin muss wissen, wie sie eine KI-generierte Erkenntnis mit den Quelldaten abgeglichen. Ein Process Owner muss bewerten können, ob ein KI-Vorschlag einen Workflow tatsächlich verbessert oder nur einen schlechten beschleunigt. Ein:e Data Engineer muss verstehen, wann KI-generierter Code zusätzliche Tests braucht und wann man ihm vertrauen kann.

Die entscheidende Erkenntnis: Diese drei Komponenten tragen die technische Architektur, nicht nur die Organisationskultur. Normen bestimmen Ihre Datenqualitätsanforderungen – wenn KI Kennzahlen generieren darf, brauchen Sie einen Semantic Layer, der Definitionen durchsetzt. Rituale bestimmen Ihre Governance-Infrastruktur – Prüfrhythmen brauchen Audit-Logs, Output-Versionierung, Lineage-Tracking. Literacy (KI-Kompetenz) bestimmt den ROI der Einführung – schlecht geprompte KI verschwendet Rechenressourcen und liefert unbrauchbare Ergebnisse.

Verhaltensbasierte KI-Befähigung ist kein Soft-Thema. Sie ist eine technische Kernanforderung.

Anwendung: Lemonades Verhaltensinfrastruktur für KI-gestützte Schadenbearbeitung

Lemonade Insurance zeigt das NRL-Modell in der Praxis – auch wenn das Unternehmen es selbst nicht so nennen würde. AI Jim bearbeitet 55 % der Schadensfälle vollautomatisch, einschließlich einer Rekord-Schadensregulierung in 2 Sekunden. Doch die beeindruckende Geschwindigkeit verdeckt die Verhaltensinfrastruktur, die das überhaupt möglich macht.

Normen. Lemonade definiert ausdrücklich, welche Schäden die KI End-to-End bearbeitet und welche eine menschliche Prüfung erfordern. KI bearbeitet eindeutige Fälle – klarer Schaden, übereinstimmende Dokumentation, innerhalb der Deckungsgrenzen. Komplexe Fälle, strittige Haftung und Großschäden werden an menschliche Sachbearbeiter weitergeleitet. Diese Grenzen sind im System verankert, nicht in einem Richtlinien-Dokument, das niemand liest.

Rituale. Das Schaden-Team prüft KI-Entscheidungen kontinuierlich und sucht gezielt nach Musterfehlern und Edge Cases, die das Modell falsch behandelt. Betrugserkennung läuft als parallele Prüfschicht – die KI markiert verdächtige Muster, Menschen ermitteln. Das ist nicht ad hoc. Es ist ein strukturierter Prüfrhythmus, der Drift abfängt, bevor daraus ein Datenqualitätsvorfall wird.

Literacy. Das Schaden-Team von Lemonade „nutzt“ nicht einfach KI-Tools. Die Mitarbeitenden verstehen die Entscheidungslogik der KI gut genug, um zu wissen, wann sie ihr vertrauen können und wann sie die KI überstimmen müssen. Das ist rollenspezifischer Kompetenzaufbau, kein generisches Prompt-Engineering-Training.

Der Kontrast zu Klarna ist lehrreich. Klarna ersetzte 700 Kundendienst-Mitarbeitende durch KI – ohne klare Verhaltensnormen zu etablieren: keine ausdrücklichen Grenzen dafür, was KI bearbeiten sollte und was nicht, keine Prüfrituale, keine rollenspezifische KI-Kompetenz für das verbleibende Team. Die Kundenzufriedenheit fiel. CEO Sebastian Siemiatkowski räumte ein, sie hätten sich „zu sehr auf Effizienz fokussiert“. Klarna hatte die Technologie. Was fehlte, war die Verhaltensschicht.

Das Microsoft Power BI März 2026 Update brachte Funktionen für natürliche Sprachabfragen und macht das Thema noch dringender. Wenn jeder im Unternehmen Daten in natürlicher Sprache befragen kann, wird die Verhaltensschicht – welche Fragen angemessen sind, wie Antworten zu verifizieren sind, wann zu eskalieren ist – zur zentralen Steuerungsfläche. Die Technologie hat das Verhaltensproblem nur drängender gemacht.

%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#1a2540', 'primaryTextColor': '#ffffff', 'primaryBorderColor': '#00d4ff', 'lineColor': '#ffffff', 'background': '#0a0f1e', 'mainBkg': '#1a2540', 'nodeBorder': '#00d4ff', 'edgeLabelBackground': '#0a0f1e'}}}%%
flowchart TD
    subgraph BEFORE["VOR NRL"]
        B1["4 % Produktivitätsgewinn"]
        B2["2 Qualitätsvorfälle"]
        B3["Compliance blockiert"]
    end

    BEFORE -->|"NRL anwenden"| AFTER

    subgraph AFTER["NACH NRL — 2 Quartale"]
        A1["19 % Produktivitätsgewinn"]
        A2["Null Qualitätsvorfälle"]
        A3["Compliance unterstützt aktiv"]
    end

    style B1 fill:#1a2540,stroke:#ff6b6b,color:#ffffff
    style B2 fill:#1a2540,stroke:#ff6b6b,color:#ffffff
    style B3 fill:#1a2540,stroke:#ff6b6b,color:#ffffff
    style A1 fill:#1a2540,stroke:#00ff88,color:#ffffff
    style A2 fill:#1a2540,stroke:#00ff88,color:#ffffff
    style A3 fill:#1a2540,stroke:#00ff88,color:#ffffff

Konsequenz: Der Engpass hat sich verschoben

Der Engpass im Unternehmens-KI-Einsatz ist nicht mehr die Modellfähigkeit. Er ist nicht einmal die Dateninfrastruktur, so wichtig sie bleibt. Der Engpass liegt im Verhalten. Unternehmen, die KI-Befähigung als Schulungsthema behandeln, werden weiterhin marginale Erträge sehen. Unternehmen, die es als Aufgabe der Verhaltensgestaltung begreifen – Normen etablieren, Rituale verankern, rollenspezifische KI-Kompetenz aufbauen – werden die sich verstärkenden Effekte einfahren, während andere sich fragen, warum sie diese Wirkung nicht erreichen.

Semmelweis hatte die Belege. Ihm fehlte die Verhaltensinfrastruktur. Wiederholen Sie seinen Fehler nicht mit besserer Technologie.

Quellen

McKinsey - The State of AI – Daten zu Unternehmens-KI-Einführung und EBIT-Effekt
dbt Semantic Layer YAML Specification – Schicht für Kennzahlendefinitionen und Governance
Microsoft Power BI März 2026 Update – Funktionen für natürliche Sprachabfragen
Lemonade Sets New World Record – Lemonade-Blog; AI Jim bearbeitet 55 % der Schadensfälle
Klarna AI Humans Return on Investment – Fortune, Mai 2025
Semmelweis, I. (1861). Die Aetiologie, der Begriff und die Prophylaxis des Kindbettfiebers – Originalforschung zum Händewaschen

Daniel Piatkowski — Data & Analytics-Veteran, der AI-native Unternehmen prägt.