Auf dem Papier wirkt die Claude-Opus-4.7-API-Preisfrage einfach: Anthropic nennt als Modell-ID claude-opus-4-7, nutzbar über die Claude API.[9] Die eigentliche Kostenrechnung wird aber erst sauber, wenn Input, Output, Prompt Cache und Tokenizer getrennt betrachtet werden.
Die folgenden Werte beziehen sich auf die Anthropic API. Drittanbieter-Indizes führen denselben Einstiegspunkt von 5 US-Dollar pro Mio. Input-Tokens und 25 US-Dollar pro Mio. Output-Tokens auf; wer Claude über eine andere Plattform oder einen Reseller nutzt, sollte trotzdem die dortige Endabrechnung prüfen.[7][
19][
21]
Preisüberblick: mehr als nur 5 und 25 US-Dollar
Im Folgenden steht MTok für 1.000.000 Tokens. Anthropic trennt in der Preislogik zwischen Base Input Tokens, Cache Writes, Cache Hits und Output Tokens. Genau so sollte auch die interne Kostenrechnung aufgebaut sein.[19]
| Kostenposten | Preis | Bedeutung |
|---|---|---|
| Base input tokens | 5 US-Dollar / MTok | Normale Eingabe-Tokens, die nicht als Cache Write oder Cache Read abgerechnet werden.[ |
| Output tokens | 25 US-Dollar / MTok | Tokens, die Claude in der Antwort generiert.[ |
| Prompt cache write, 5-Minuten-TTL | 6,25 US-Dollar / MTok | Kosten für das erstmalige Schreiben wiederverwendbarer Prompt-Inhalte in den Cache bei 5 Minuten TTL.[ |
| Prompt cache write, 1-Stunden-TTL | 10 US-Dollar / MTok | Kosten für Cache Writes mit 1 Stunde TTL.[ |
| Cache read / hit | 0,50 US-Dollar / MTok | Kosten, wenn bereits gecachte Inhalte wieder gelesen werden.[ |
Die wichtigste Regel: Nicht einfach alle Tokens addieren und mit einem Durchschnittspreis multiplizieren. Sobald Prompt Caching im Spiel ist, haben verschiedene Tokenarten unterschiedliche Preise.[19]
Kostenformel ohne Prompt Caching
Ohne Cache ist die Rechnung überschaubar:
Kosten = input_tokens / 1_000_000 × 5 + output_tokens / 1_000_000 × 25
Beispiel: Ein Request mit 200.000 Input-Tokens und 20.000 Output-Tokens kostet nach den Anthropic-API-Listenpreisen 1,00 US-Dollar für Input plus 0,50 US-Dollar für Output, also 1,50 US-Dollar. Plattformaufschläge oder abweichende Anbieterabrechnungen sind darin nicht enthalten.[19]
Kostenformel mit Prompt Caching
Mit Prompt Caching sollte die Rechnung aufgeschlüsselt werden:
Kosten = base_input_tokens / 1_000_000 × 5 + output_tokens / 1_000_000 × 25 + cache_write_5m_tokens / 1_000_000 × 6.25 + cache_write_1h_tokens / 1_000_000 × 10 + cache_read_input_tokens / 1_000_000 × 0.50
Wenn nur eine Cache-TTL verwendet wird, bleibt nur die passende Cache-Write-Zeile in der Formel. Anthropic zeigt in den API-Usage-Beispielen Felder wie input_tokens, output_tokens, cache_creation_input_tokens und cache_read_input_tokens; die Pricing-Dokumentation trennt Cache Writes und Cache Hits ebenfalls als eigene Kostenposten.[15][
19]
Tokens zählen: nicht nach Zeichen oder Wörtern schätzen
Für verlässliche Kostenschätzungen sollte nicht mit Zeichenanzahl, Wortzahl oder einer groben Faustregel gearbeitet werden. Anthropic stellt dafür den Endpoint /v1/messages/count_tokens bereit. Er kann vor dem eigentlichen Modellaufruf genutzt werden, akzeptiert eine ähnliche strukturierte Eingabe wie die Messages API und unterstützt unter anderem System Prompts, Tools, Bilder und PDFs. Die Antwort enthält die Gesamtzahl der Input-Tokens; laut Dokumentation unterstützen alle aktiven Modelle Token Counting.[18]
Praktisch heißt das: Den Payload, der später wirklich an die Messages API geht, möglichst unverändert an count_tokens senden. So lassen sich Budgets, Warnschwellen und Limits im Produkt deutlich belastbarer setzen.[18]
Nach dem Request: usage als Grundlage für die echte Abrechnung
Nach einem abgeschlossenen Request sollte die Anwendung die usage-Daten aus der API-Antwort speichern, statt die Länge des Antworttexts nachträglich zu schätzen. Die Messages-API-Beispiele zeigen input_tokens und output_tokens; die Streaming-Dokumentation zeigt zusätzlich Cache-bezogene Felder wie cache_creation_input_tokens und cache_read_input_tokens.[15][
17]
Besonders wichtig bei Streaming: Die usage-Tokenwerte in message_delta sind kumulativ. Sie zeigen also den bis dahin aufsummierten Stand, nicht den Zuwachs dieses einzelnen Events. Wer jeden Delta-Wert einfach addiert, zählt Tokens doppelt oder mehrfach.[15]
Monatsabschluss und Team-Abrechnung
Für Live-Limits im Produkt reichen Request-Logs oft aus. Für Monatsabschluss, Workspace-Verteilung oder FinOps-Auswertungen ist die Usage & Cost Admin API der robustere Weg. Anthropic beschreibt sie als programmatischen, granularen Zugriff auf historische API-Nutzungs- und Kostendaten; Reports lassen sich unter anderem nach Modell, Workspace und Service Tier aufschlüsseln.[16]
Die sinnvolle Rollenverteilung ist daher: App-seitig usage pro Request speichern, um Nutzerlimits und Warnungen zu steuern. Für die offizielle Kostenanalyse und nachträgliche Abstimmung die historischen Usage- und Cost-Daten der Admin API heranziehen.[16]
Beim Upgrade auf Opus 4.7 Token-Budgets neu messen
Claude Opus 4.7 bringt einen neuen Tokenizer mit. Anthropic schreibt, dass dieser bei Text ungefähr 1x bis 1,35x so viele Tokens wie frühere Modelle verwenden kann, also je nach Inhalt bis zu rund 35 Prozent mehr. Außerdem kann /v1/messages/count_tokens für denselben Inhalt bei Opus 4.7 andere Tokenzahlen liefern als bei Opus 4.6.[20]
Der Listenpreis von 5 US-Dollar pro MTok Input und 25 US-Dollar pro MTok Output bedeutet deshalb nicht automatisch, dass die Rechnung beim Wechsel von Opus 4.6 oder älteren Modellen gleich bleibt. Vor einer Migration sollten besonders häufige Prompts, lange Kontexte, Payloads mit Tool-Definitionen und teure Workflows erneut über /v1/messages/count_tokens geprüft werden.[18][
20]
Checkliste für die Kostenkontrolle
- Modell-ID in der API auf
claude-opus-4-7prüfen.[9]
- Vor größeren Releases repräsentative Payloads mit
/v1/messages/count_tokensmessen.[18]
input_tokens,output_tokens, Cache Writes und Cache Reads getrennt speichern, nicht nur eine Gesamtsumme.[15][
19]
- Bei Streaming beachten:
message_delta.usageist kumulativ und darf nicht eventweise aufsummiert werden.[15]
- Für Monatsberichte, Workspace-Splits und historische Analysen die Usage & Cost Admin API verwenden.[
16]
- Beim Wechsel von älteren Claude-Modellen zu Opus 4.7 die Auswirkungen des neuen Tokenizers neu testen.[
20]
Kurz gesagt: Die Basispreise von Claude Opus 4.7 sind leicht zu merken. Richtig belastbar wird die Kalkulation aber erst, wenn vor dem Request gezählt, nach dem Request usage protokolliert und Prompt Caching sowie der neue Tokenizer separat modelliert werden.[18][
19][
20]




