Die Empfehlung, die ich beinahe ausgesprochen hätte
Hätte mich ein CEO vor drei Wochen gefragt, wie er sein Unternehmen schnell zu einem AI-nativen Unternehmen macht, hätte meine Antwort auf eine einzige Folie gepasst:
- Claude Cowork für alle Wissensarbeitenden — Vertrieb, Finanzen, HR, Operations, Marketing — damit die KI direkt am Arbeitsplatz verfügbar ist, Dateien liest und Arbeit tatsächlich von Anfang bis Ende erledigt
- Claude Code für alle Engineers, damit sie schneller umsetzen und aufhören, Boilerplate neu zu erfinden
- Das Software-Lizenzbudget, das anderswo geflossen wäre, in intensives Enablement stecken — keine Schulungsvideos, sondern Arbeit an realen Problemen
- Dann zur Seite treten und die eigenen Leute bauen lassen, was sie brauchen
Ich hätte es ernst gemeint. Was ein Unternehmen heute begrenzt, ist nicht die Technik. Es ist die Kreativität. Anthropic hatte bis vor Kurzem den ausgereiftesten Frontier-Stack, mit dem ich je gearbeitet habe. Dann begann das Unternehmen das zu tun, was jede dominante Plattform irgendwann tut. Es schöpft Wert von genau den Nutzern ab, die seinen Netzwerkeffekt überhaupt erst aufgebaut haben.
Wer die Anthropic-Produktänderungen der letzten neun Monate nacheinander liest, sieht ein klares Signal. Wöchentliche Rate-Limits. Drosselung zu Spitzenzeiten. Ein durchgesetztes Verbot von Drittanbieter-Clients, die der Hauptgrund waren, weshalb Entwickler überhaupt für Max bezahlt haben. Keine dieser Änderungen ist für sich genommen tödlich. Zusammen verändern sie die Wirtschaftlichkeitsrechnung für jeden, der einen rein Claude-basierter Enterprise-Rollout in Erwägung zieht.
Diagnose: Was Anthropic tatsächlich geändert hat
Die Verschärfung ist keine Spekulation. Sie ist in Anthropics eigenen Bedingungen und in öffentlichen Aussagen ihrer Engineers dokumentiert.
Wöchentliche Rate-Limits. Anthropic kündigte im Juli 2025 wöchentliche Obergrenzen für Claude Pro und Max an, gültig ab dem 28. August. Das Briefing von TechCrunch machte die konkreten Zahlen öffentlich, die Anthropic auf der Preisseite nicht ausweist. Max 20x für 200 USD pro Monat liefert grob 240 bis 480 Stunden Sonnet pro Woche, aber nur 24 bis 40 Stunden Opus. Opus ist für Abonnenten faktisch bereits rationiert.
Drosselung zu Spitzenzeiten. Am 26. März 2026 verschärfte Anthropic das rollierende 5-Stunden-Fenster während der globalen Spitzenzeiten. Ein Anthropic-Engineer sagte gegenüber The Register, „etwa 7 Prozent der Nutzer werden Session-Limits erreichen, die sie zuvor nicht erreicht hätten“. Die Wochenquote blieb unverändert. Verschoben hat sich die stündliche Verteilung.
Verbot von Drittanbieter-Clients. Am 20. Februar 2026 aktualisierte Anthropic das Legal-and-Compliance-Dokument für Claude Code und machte die Regeln explizit. OAuth-Credentials aus Pro-, Max-, Team- und Enterprise-Abonnements dürfen nicht von Drittanbieter-Entwicklern genutzt werden. OpenCode entfernte am selben Tag die Unterstützung für Claude-Abonnements und verwies auf „rechtliche Aufforderungen von Anthropic“. Crush folgte. Die Wrapper, mit denen Entwickler mehr Wert aus ihren Max-Plänen herausholten, sind Geschichte.
Entkoppelte Enterprise-Abrechnung. Anthropics Enterprise-Plan rechnet Sitzplätze und Nutzung jetzt getrennt ab. Sitzplatz für rund 20 USD, sämtliche Tokens werden zu API-Tarifen verbrauchsabhängig abgerechnet. Das All-in-one-Abomodell verschwindet genau dort, wo es Anthropic Marge kosten würde.
%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#1a2540', 'primaryTextColor': '#ffffff', 'primaryBorderColor': '#00d4ff', 'lineColor': '#00d4ff', 'background': '#0a0f1e', 'mainBkg': '#1a2540', 'nodeBorder': '#00d4ff', 'edgeLabelBackground': '#0a0f1e'}}}%%
graph LR
A["Juli 2025
Wöchentliche Rate-Limits
angekündigt"] --> B["Aug. 2025
Wöchentliche Limits
wirksam"]
B --> C["Jan. 2026
Sperren für Nutzer
von Drittanbieter-Wrappern"]
C --> D["Feb. 2026
Rechtsdokument verbietet OAuth
in Drittanbieter-Clients"]
D --> E["Feb. 2026
OpenCode und Crush
verlieren Claude Max"]
E --> F["März 2026
Drosselung der Sessions
zu Spitzenzeiten"]
classDef brand fill:#1a2540,stroke:#00d4ff,stroke-width:2px,color:#ffffff;
class A,B,C,D,E,F brand;
Neueinordnung: Das Vielflieger-Playbook hält in der KI Einzug
Das ist kein neues Konzernverhalten. Fluggesellschaften fahren dieses Playbook seit vierzig Jahren.
Schritt eins: großzügig Punkte verteilen, um Loyalität aufzubauen. Schritt zwei: Statusvorteile so lange anwachsen lassen, bis ein Wechsel der Fluglinie psychologisch teuer wird. Schritt drei: Sobald der Netzwerkeffekt greift, die Punkte abwerten. Einlöseschwellen anheben. Sperrtermine einführen. Partnerbuchungen einschränken. Die Meilen sind noch da. Sie sind nur weniger wert.
Anthropic ist bei Schritt drei. Das Produkt ist weiterhin exzellent. Pro Dollar bekommen Kunden heute weniger Kapazität als noch im letzten Quartal, und die Tools, mit denen Power-User mehr Wert herausziehen konnten, werden jetzt offiziell nicht mehr unterstützt. Die öffentliche Begründung lautet Kapazitätsmanagement und Missbrauchsprävention. Beides ist real. Aber das Muster bleibt das Muster, und die Bewegungsrichtung der Enterprise-Preise ist dieselbe, in die sich der Vielflieger-Status seit einer Generation bewegt. Mehr Stufen. Härtere Schwellen. Verbrauchsbasierte Add-ons für das, was früher inklusive war.
Der unangenehme Teil für Enterprise-Käufer: Verbraucher und Entwickler sind der Kanarienvogel in der Kohlemine. Anthropic verschärft zuerst die Konditionen der Consumer-Pläne, weil dort die Wechselkosten am niedrigsten und der Margendruck am höchsten sind. Die Unternehmen kommen als Nächstes — sobald die eingeschliffenen Routinen, die Codebases, die MCPs, die internen Claude-spezifischen Prompts und die eingebetteten Claude-Code-Workflows ein Niveau erreicht haben, auf dem eine Migration ehrlich teuer aussieht. Dieser Punkt kommt schneller, als die meisten CIOs erwarten.
Framework: Die Diversifizierungsentscheidung
Die Frage ist nicht, ob Claude das beste Modell ist. Für viele Workloads ist es das nach wie vor. Die Frage ist, ob Ihre Architektur Ihnen den Wechsel erlaubt, wenn die Regeln das nächste Mal geändert werden.
Drei Zahlen sind dafür entscheidend. gewichtete Kosten pro Million Token, Wechselkosten pro Anwendung und Souveränitätsrisiko.
%%{init: {'theme': 'base', 'themeVariables': {'primaryColor': '#1a2540', 'primaryTextColor': '#ffffff', 'primaryBorderColor': '#00d4ff', 'lineColor': '#00d4ff', 'background': '#0a0f1e', 'mainBkg': '#1a2540', 'nodeBorder': '#00d4ff', 'edgeLabelBackground': '#0a0f1e'}}}%%
graph LR
A["Monatliches Token-Volumen"] --> B{"Unter 300 Mio.?"}
B -->|"Ja"| C["Bei Claude API bleiben
oder Max-Abonnement
Lock-in-Risiko ist umkehrbar"]
B -->|"Nein"| D{"Reguliert oder EU-souverän?"}
D -->|"Ja"| E["Mistral oder Qwen3 auf
AWS Sovereign Bedrock
oder Private Cloud"]
D -->|"Nein"| F{"Über 2 Mrd. Tokens/Monat?"}
F -->|"Nein"| G["Managed-Open-Source-Modelle:
Kimi K2.5, GLM-5.1,
MiniMax M2.7"]
F -->|"Ja"| H["Self-Hosting auf 8xH200
mit MLOps-Team
oder Enterprise-Deal verhandeln"]
classDef brand fill:#1a2540,stroke:#00d4ff,stroke-width:2px,color:#ffffff;
classDef decision fill:#0a0f1e,stroke:#ffb347,stroke-width:2px,color:#ffffff;
class A,C,E,G,H brand;
class B,D,F decision;
Kosten. Die Preislücke zwischen Claude und den führenden Open-Source-Alternativen — Modelle, die Sie entweder über eine API mieten oder herunterladen und auf eigener Hardware betreiben können — ist nicht mehr marginal. Alle Zahlen wurden am 15. April 2026 gegen die Preisseiten der Anbieter abgeglichen. Die Spalte „Mix 3:1“ unterstellt ein Verhältnis von 3:1 Input zu Output, typisch für Code-Assist- und Retrieval-Workloads.
| Modell | Input USD/M | Output USD/M | Mix 3:1 | Selbst betreiben? |
|---|---|---|---|---|
| Claude Opus 4.6 | 5,00 | 25,00 | 10,00 | Nein |
| Claude Sonnet 4.6 | 3,00 | 15,00 | 6,00 | Nein |
| GPT-5.4 | 2,50 | 15,00 | 5,63 | Nein |
| GLM-5.1 (Z.ai) | 1,40 | 4,40 | 2,15 | Ja (MIT) |
| Qwen 3.6 Plus (Alibaba) | 0,50 | 3,00 | 1,13 | Nein (nur API) |
| Kimi K2.5 (Moonshot) | 0,60 | 3,00 | 1,20 | Ja (modifiziert MIT) |
| GLM-4.6 (Legacy-Tier) | 0,60 | 2,20 | 1,00 | Ja (MIT) |
| MiniMax M2.7 | 0,30 | 1,20 | 0,53 | Ja (modifiziert MIT) |
| DeepSeek V3.2 | 0,28 | 0,42 | 0,32 | Ja (MIT) |
Die Qualität auf coding-lastigen Benchmarks erzählt dieselbe Geschichte. Anthropic steht an der Spitze nicht mehr allein.
| Modell | SWE-Bench Verified | Besondere Stärke |
|---|---|---|
| Claude Opus 4.6 | 80,9 % | Coding-Spitze, stärkster Produktions-Track-Record |
| MiniMax M2.5 M2.7 ist aktuelles Flaggschiff; meldet stattdessen SWE-Pro 56,2 | 80,2 %* | Beim Coding gleichauf mit Opus zu rund 5% des Preises (Anbieterangabe) |
| Qwen 3.6 Plus | 78,8 %* | Laut Alibaba: schlägt Opus auf Terminal-Bench 2.0 (61,6 vs. 59,3) & OmniDocBench (91,2), ~1,7× schneller |
| GLM-5.1 | 77,8 % | AIME 2026 95,3, GPQA-Diamond 86,2 — Reasoning-Spitze im Open-Source-Bereich |
| Kimi K2.5 | 76,8 % | Stärkstes Modell auf LiveCodeBench, Cache-Hit-Input bei 0,10 USD/M |
| DeepSeek V3.2 | ~73 % | Günstigstes Modell im Set, IMO-2025-Goldmedaille |
Die Erkenntnisse aus diesen beiden Tabellen, klar gesagt:
- Sie wählen nicht mehr zwischen Qualität und Preis. Nach Anbieterangaben liegt MiniMax M2.5 auf SWE-Bench Verified faktisch gleichauf mit Claude Opus 4.6 (80,2 vs. 80,9) — zu rund 5 % der Kosten. Qwen 3.6 Plus reklamiert für sich, Opus auf Terminal-Bench 2.0 und beim Dokumentenverständnis zu schlagen. Selbst nach Abzug der typischen 2–5-Punkte-Lücke aus unabhängigen Replikationen ist das Feld zusammengerückt.
- Die chinesischen Open-Source-Labore liefern schneller als Anthropic. Qwen 3.6 Plus am 2. April, GLM-5.1 am 7. April, MiniMax-M2.7-Gewichte am 12. April. Drei große Releases allein im April, alle aus Laboren, die vor achtzehn Monaten als ernsthafte Modellanbieter noch gar nicht existierten.
- Die Lizenzspalte verdient genaues Hinsehen. GLM-5.1 (MIT) und MiniMax M2.7 (modifiziert MIT) können Sie herunterladen und selbst betreiben. Qwen 3.6 Plus ist nur über die Alibaba-Cloud-API verfügbar — schließt also die Fähigkeitslücke, nicht die Souveränitätslücke. Die modifizierte MIT-Lizenz von Kimi K2.5 enthält eine Attributionsklausel, die sehr große Konsumprodukte trifft.
- Claude bleibt für bestimmte Workloads die richtige Antwort. Produktionsstabilität, Reife des MCP-Ökosystems und konstante Coding-Leistung halten Sonnet 4.6 und Opus 4.6 im Spiel. Sie sind nur nicht mehr die einzige Antwort.
Quellen: Claude-Preise, Z.ai-Preise, GLM-5.1-Doku, MiniMax M2.7, Qwen-3.6-Plus-Ankündigung, Alibaba-Cloud-Preise, Kimi K2.5, DeepSeek V3.2, OpenAI-API-Preise.
Wechselkosten. Hier beißen die Restriktionen von Anthropic wirklich. Jeder Claude-spezifische Prompt, jeder MCP-Server, der auf Anthropics Tool-Use-Schema ausgelegt ist, jedes interne Fine-Tuning auf Anthropics Evals und jede eingeschliffene Claude-Code-Routine erzeugen Migrationskosten. Die Lösung ist architektonisch: Leiten Sie von Anfang an jeden LLM-Aufruf über eine Abstraktionsschicht. LiteLLM, Portkey, ein eigenes Gateway — egal welches. Entscheidend ist, dass kein Anwendungscode weiß, mit welchem Anbieter er gerade spricht.
Souveränität. Der EU AI Act gilt vollumfänglich ab August 2026, mit Strafen von bis zu 7 Prozent des weltweiten Umsatzes. AWS Sovereign Cloud ist im Januar 2026 gestartet, Bedrock inklusive. Für regulierte EU-Käufer ist Claude im Einkauf häufig schon ausgeschlossen, und die Frage lautet nicht Claude gegenüber Alternativen, sondern welches Open-Source-Modell innerhalb der souveränen Grenze läuft. Mistral, die kleineren Qwen3-Varianten und GLM-5.1 sind die praktischen Optionen.
Anwendung: Das 100-Engineer-Szenario
Die Strategie aus dem Anfang — Claude an jedem Arbeitsplatz plus starkes Enablement — würde Claude Pro oder Max bei 100 Engineers für rund 100 USD pro Sitzplatz pro Monat bedeuten. Unter den neuen Wochenobergrenzen treffen Heavy-User die Limits genau in den Sessions, in denen sie das Tool am dringendsten brauchen. Der naheliegende Workaround, Drittanbieter-Wrapper, ist juristisch geschlossen worden. Die Stufe darüber, Anthropic Enterprise, entkoppelt Sitzplatzgebühren von der Nutzung und rechnet jedes Token zu API-Tarifen ab.
Die Alternative ist kein einzelner Modellwechsel. Es ist ein Gateway vor drei Modellen. Claude Sonnet 4.6 für die 20 Prozent der Aufgaben, bei denen die Qualitätslücke noch zählt. Kimi K2.5 über Moonshots eigene API für die 60 Prozent der täglichen Coding-Arbeit, in denen die SWE-Bench-Parität real ist. GLM-5.1 über den GLM Coding Plan Lite-Tier, abgerechnet quartalsweise zu 30 USD pro Sitzplatz (rund 10 USD pro Entwickler pro Monat), für den Long Tail. Dieselben 100 Engineers, dieselben 4 Milliarden Tokens pro Monat, am Ende eine sehr andere Rechnung.
| Claude-only (Enterprise) | Multi-Vendor-Gateway | |
|---|---|---|
| Modell-Routing | 100 % Claude Sonnet 4.6 | 20 % Sonnet 4.6 60 % Kimi K2.5 20 % GLM-5.1 |
| Sitzplatz / Abonnement | ~20 USD/Sitzplatz × 100 × 12 24.000 USD Enterprise-Preis ist verhandelbar |
GLM Coding Plan Lite 30 USD/Quartal × 100 × 4 12.000 USD |
| Token-Kosten 4 Mrd./Monat, 3:1 I:O |
4 Mrd. × 6 USD × 12 288.000 USD |
Sonnet 20%: 57.600 USD Kimi 60%: 34.600 USD GLM-5.1 20%: im Coding Plan 92.000 USD |
| Gateway-Engineering amortisiert Jahr 1 |
— | 10.000 USD |
| Gesamt jährlich | 312.000 USD | 114.000 USD |
| Delta | — | −198.000 USD/Jahr |
| Lock-in | Einzelner Anbieter, hohe Wechselkosten | Zur Laufzeit austauschbar |
| Souveränität | Keine | Bei Bedarf zu EU-souveränem Anbieter routen |
Bei den eingesparten 198.000 USD geht es nicht primär um Kostensenkung. Das ist das Enablement-Programm, bei dem ich sonst Abstriche machen müsste, plus das Gateway-Engineering, das die Architektur portabel hält, plus eine Reserve für den nächsten Moment, in dem ein Frontier-Labor seine Abo- und Nutzungspreise neu festlegt.
Was ist mit dem Eigenbetrieb der KI im eigenen Haus?
Diese Frage bekomme ich, sobald jemand das Wort „Open Source“ hört. Warum überhaupt noch einen Anbieter bezahlen? Einfach Kimi K2.5 oder GLM-5.1 herunterladen und auf den eigenen GPUs betreiben.
Die Antwort lautete früher: Hardware. Frontier-Modelle brauchten 64-GPU-Cluster, die sich nur Hyperscaler leisten konnten. Heutige MoE-Designs aktivieren nur einen Bruchteil ihrer Parameter pro Token — MiniMax M2.7 aktiviert 10 Milliarden von 230 Milliarden, GLM-5.1 aktiviert 40 Milliarden von 744 Milliarden — sodass ein 8-GPU-Knoten ausreicht, um ein Frontier-Modell mit Produktionsgeschwindigkeit zu bedienen. Hardware ist nicht mehr der Engpass.
Der neue Engpass sind Menschen — und die Rechnung zeigt das nüchtern.
| Ansatz | Inference USD/M | Jährlicher Betriebs-Overhead | Rechnet sich für |
|---|---|---|---|
| Claude Sonnet 4.6 (Anthropic API) | 6,00 USD | 0 USD | Qualitätskritische Workloads |
| Managed Open Source Kimi K2.5, GLM-5.1, MiniMax M2.7 | 0,50–2,15 USD | ~10.000 USD (Gateway) | Die meisten Unternehmen, jede Größenordnung |
| Self-Hosting auf gemieteten GPUs 8×H200 à 28–70 USD/h, auslastungsabhängig | 5–19 USD | 300.000–500.000 USD | Fast niemanden — das Schlechteste aus beiden Welten |
| Self-Hosting auf eigener Hardware 8×H200 DGX, ~400.000–500.000 USD Capex, über 3 Jahre amortisiert | 0,80–3,00 USD je nach Auslastung | 500.000–700.000 USD | Nur sehr starke Nutzer (siehe unten) |
Die Zahl, die zuerst ins Auge fällt, sind die Inference-Kosten. Entscheidend ist aber der jährliche Betriebs-Overhead. Eine produktive KI-Inference-Plattform zu betreiben erfordert zwei bis drei senior MLOps- oder SRE-Engineers zu rund 250.000 USD pro Person auf Vollkostenbasis, plus Monitoring, Evaluations-Tooling, Modellwechsel, On-Call. Die Kostenrechner der Anbieter lassen das weg. Praxisnahe TCO-Studien setzen das auf 500.000 bis 700.000 USD pro Jahr an, bevor ein einziges Token bedient wird.
Der Break-even-Punkt hängt stark davon ab, was Sie annehmen. Veröffentlichte Analysen spannen fast drei Größenordnungen:
- Das 36-Monats-Modell von AIPricingMaster und SitePoint setzt ihn auf bis zu ~50–100 Mio. Tokens pro Monat gegenüber günstigen kommerziellen APIs.
- Meine eigene Herleitung — On-Prem zu 0,80 USD/M Tokens vs. Managed Kimi K2.5 zu 1,20 USD/M, 500.000 USD MLOps-Kosten zu amortisieren — landet bei rund 100 Mrd. Tokens/Monat im Dauerbetrieb.
- Bei 30% Auslastung (näher an einer typischen, stoßweisen internen Workload, nicht an einem 24/7-Produkt) steigen die On-Prem-Inference-Kosten auf ~2 USD/M, der Abstand kehrt sich um, und Self-Hosting erreicht allein über den Preis nie den Break-even.
Die ehrliche Lesart: Die Antwort liegt in einer breiten Spanne, und Ihre Zahl hängt davon ab, ob Ihre Workload aussieht wie ein 24/7-Konsumprodukt (hohe Auslastung, Self-Hosting gewinnt früh) oder wie ein typischer Bürotag (stoßweise, Self-Hosting verliert deutlich). Im obigen 100-Engineer-Szenario ist es Letzteres. Self-Hosting kostet hier Hunderttausende Dollar pro Jahr mehr, bevor Sie eine einzige Eval geschrieben oder eine einzige On-Call-Schicht bezahlt haben.
Es gibt einen zweiten, nicht-finanziellen Grund für Self-Hosting, den die Tabelle nicht abbildet: Souveränität. Wenn Ihre Daten Ihren Perimeter nicht verlassen dürfen — Finanzaufsicht, Verteidigungslieferant, Healthcare-Betreiber unter spezifischen Datenresidenz-Regeln — dann ist der Vergleich kein Preisvergleich. Es geht darum, ob Sie überhaupt ein nutzbares Modell haben. In diesem Fall sind GLM-5.1 oder Mistral auf eigener Hardware kein Kostenoptimierungshebel, sondern die einzige legale Option.
Konsequenz
Anbieterauswahl ist keine Einkaufsentscheidung. Sie ist eine Architekturentscheidung, und sie entscheidet Ihr Operating Model. Wer sein Unternehmen auf ein einzelnes Frontier-Labor setzt, macht Enablement-Strategie, Entwickler-Tooling, Agent-Designs und Souveränitätsstrategie von der nächsten Preisentscheidung dieses Labors abhängig. Die Vielflieger-Abwertung kommt am Ende für jeden Frontier-Anbieter. Die Unternehmen, die das früh bemerken, werden diejenigen sein, die das Modell von Anfang an als austauschbare Komponente behandelt haben.
Ich werde für bestimmte Workloads weiterhin zu Claude greifen. Ich mache Claude aber nicht mehr zum Standard. Den Unterschied macht das Gateway davor.
Quellen
- Anthropic, Claude Code Legal and Compliance, Februar 2026
- Anthropic, Claude-Preise
- TechCrunch, Anthropic unveils new rate limits to curb Claude Code power users, Juli 2025
- The Register, Anthropic tweaks usage limits, März 2026
- The Register, Anthropic clarifies ban on third-party Claude access, Februar 2026
- MiniMax, M2.7-Ankündigung (12. April 2026) und Plattform-Release-Notes
- Z.ai, GLM-5.1-Dokumentation (7. April 2026), Preisseite und GLM Coding Plan
- Moonshot AI, Kimi-K2.5-Preise und Hugging-Face-Modellkarte
- Alibaba Cloud, Qwen-3.6-Plus-Ankündigung (2. April 2026) und Model-Studio-Preise
- DeepSeek, V3.2-API-Preise
- OpenAI, API-Preise
- IntuitionLabs, Inference unit economics: true cost per million tokens
- TechPlusTrends, EU sovereign AI infrastructure stack 2026
Daniel Piatkowski — Data & Analytics-Veteran, der AI-native Unternehmen prägt. elicify.ai