Wer Claude Opus 4.7 in ein Produkt einbaut, sollte die API-Rechnung nicht nur als Preis pro Anfrage betrachten. Der eigentliche Kostentreiber bei langen Dokumenten und langen Chats ist oft, dass derselbe Kontext in jeder Runde erneut an das Modell gesendet wird. Wenn sich Kontext wiederverwenden lässt, wird Prompt Caching schnell zum entscheidenden Hebel.
Anthropic schreibt, dass Entwickler claude-opus-4-7 über die Claude API nutzen können.[11] Die folgenden Beispielrechnungen verwenden ausschließlich die öffentlich dokumentierten Claude-API-Preise. Nicht enthalten sind Enterprise-Verträge, Cloud-Plattform-Endpunkte, Drittanbieter-Router, Steuern oder Wechselkurse.[
2]
1. Erst die MTok-Preise richtig umrechnen
MTok steht hier für eine Million Token. Die Claude-API-Dokumentation nennt für Claude Opus 4.7 folgende öffentliche Preise:[2]
| Abrechnungsposten | Öffentlicher Preis für Claude Opus 4.7 |
|---|---|
| Base Input Tokens | $5 / 1 Mio. Token |
| Output Tokens | $25 / 1 Mio. Token |
| 5-Minuten-Cache-Write | $6.25 / 1 Mio. Token |
| 1-Stunden-Cache-Write | $10 / 1 Mio. Token |
| Cache-Hit / Refresh | $0.50 / 1 Mio. Token |
Ohne Cache lautet die Grundformel:[2]
Kosten = input_tokens / 1.000.000 × 5
+ output_tokens / 1.000.000 × 25Mit Prompt Caching müssen Sie den wiederverwendbaren Kontext getrennt rechnen: Der erste Write in den 5-Minuten-Cache kostet $6.25/MTok, der erste Write in den 1-Stunden-Cache $10/MTok, spätere Cache-Hits oder Refreshes $0.50/MTok. Neue, nicht gecachte Fragen oder Nachrichten bleiben normaler Input; die Modellantwort bleibt Output.[2]
2. Einmalige Analyse langer Dokumente
Wenn ein Dokument nur einmal analysiert wird und keine Anschlussfragen folgen, ist die Kalkulation überschaubar: Dokument, System-Prompt und Frage zählen als Input; die Antwort des Modells zählt als Output. Die folgenden Werte basieren auf den öffentlichen Claude-API-Preisen.[2]
| Szenario | Input | Output | Geschätzte Kosten |
|---|---|---|---|
| Kürzere Langdokument-Zusammenfassung | 100.000 | 5.000 | ca. 0,625 US-Dollar |
| Mittelgroße Dokumentanalyse | 300.000 | 8.000 | ca. 1,70 US-Dollar |
| Sehr große Dokumentanalyse | 1 Mio. | 10.000 | ca. 5,25 US-Dollar |
Beispiel für 300.000 Input-Token und 8.000 Output-Token:
300.000 / 1.000.000 × 5 = 1,50
8.000 / 1.000.000 × 25 = 0,20
Summe = 1,70 US-DollarBei einer Migration auf Opus 4.7 sollten Sie alte Token-Schätzungen nicht ungeprüft übernehmen. Anthropic weist darauf hin, dass Opus 4.7 einen neuen Tokenizer nutzt und dieselbe feste Textmenge dadurch um bis zu 35 % mehr Token ergeben kann.[2]
Aus ursprünglich geschätzten 300.000 Input-Token können in einer konservativen Rechnung also 405.000 Input-Token werden. Mit 8.000 Output-Token ergibt sich:
405.000 / 1.000.000 × 5 = 2,025
8.000 / 1.000.000 × 25 = 0,20
Summe ≈ 2,23 US-Dollar3. Dieselbe Langdatei mehrfach befragen: Cache ist der Hebel
Bei Produkten rund um lange Dokumente wird häufig nicht die einzelne Antwort unterschätzt, sondern das wiederholte Mitsenden des gesamten Dokuments. Wird dieselbe Datei mehrfach befragt, sollte Prompt Caching von Anfang an in die Budgetrechnung.[2]
Angenommen:
- Dokument: 300.000 Token
- Neue Frage je Runde: 2.000 Token
- Antwort je Runde: 2.000 Output-Token
- Genutzt wird der 5-Minuten-Prompt-Cache
| Vorgehen | Kostenbestandteile | Geschätzte Kosten |
|---|---|---|
| Erste Runde: 5-Minuten-Cache aufbauen | 300k × $6.25/MTok + 2k × $5/MTok + 2k × $25/MTok | ca. 1,935 US-Dollar |
| Folgerunde mit Cache-Hit | 300k × $0.50/MTok + 2k × $5/MTok + 2k × $25/MTok | ca. 0,21 US-Dollar |
| Ohne Cache: Volltext jedes Mal mitsenden | 302k × $5/MTok + 2k × $25/MTok | ca. 1,56 US-Dollar |
Die erste Cache-Runde ist in diesem Beispiel teurer als ein einzelner Aufruf ohne Cache. Ab der zweiten Runde kippt die Rechnung aber deutlich:
Ohne Cache, 2 Runden: ca. 1,56 × 2 = 3,12 US-Dollar
Mit 5-Minuten-Cache, 2 Runden: ca. 1,935 + 0,21 = 2,145 US-DollarDer wichtigste Wert in Ihrer Planung ist deshalb die Cache-Hit-Rate: Wird dasselbe Dokument wirklich mehrfach genutzt? Fallen Anschlussfragen innerhalb der Cache-Laufzeit an? Und wie viel neuer, nicht gecachter Kontext kommt pro Runde hinzu?[2]
4. Lange Chats: Verlauf nicht blind jede Runde neu berechnen
Bei langen Dialogen gilt dieselbe Logik. Wenn eine Anwendung bei jeder Nutzerantwort die komplette Historie erneut an das Modell schickt, steigen die Input-Kosten schnell. Stabile, wiederverwendbare Verlaufsteile sollten daher auf Prompt Caching geprüft werden.[2]
Angenommen:
- Bisheriger Chatverlauf: 200.000 Token
- Neue Nachricht je Runde: 1.000 Token
- Antwort je Runde: 2.000 Output-Token
| Vorgehen | Geschätzte Kosten |
|---|---|
| Ohne Cache: jede Runde 200k Verlauf + 1k neue Nachricht + 2k Output | ca. 1,055 US-Dollar pro Runde |
| 200k Verlauf zuerst in 5-Minuten-Cache schreiben: erste Runde | ca. 1,305 US-Dollar |
| Danach 5-Minuten-Cache-Hit: je Runde | ca. 0,155 US-Dollar |
| 200k Verlauf zuerst in 1-Stunden-Cache schreiben: erste Runde | ca. 2,055 US-Dollar |
| Danach 1-Stunden-Cache-Hit: je Runde | ca. 0,155 US-Dollar |
Ob 5 Minuten oder 1 Stunde besser sind, hängt weniger von der Preistabelle als vom Nutzerverhalten ab:
- Wenn Nutzer meist direkt weiterfragen, ist der 5-Minuten-Cache der naheliegende Startpunkt.
- Wenn Nutzer häufig nach mehr als 5 Minuten, aber innerhalb einer Stunde zurückkommen, kann der teurere 1-Stunden-Write trotzdem sinnvoll sein.
- Wenn die Abstände unvorhersehbar sind, sollten Sie mit echten Traffic-Stichproben messen, wie oft der Cache tatsächlich trifft.
5. Batch-Jobs: erst konservativ mit Listenpreis planen
Batch-Aufgaben tauchen typischerweise bei Offline-Analysen, Datenlabeling, Massenzusammenfassungen oder Klassifikation in größerem Umfang auf. Solange Sie nicht bestätigt haben, welche Batch-Preise für Ihr Konto, Ihren Vertrag oder Ihren Plattformendpunkt gelten, sollten Sie keine ungeprüften Rabatte in ein Freigabebudget schreiben.
Die konservative Rechnung nutzt zunächst die synchronen öffentlichen Claude-API-Preise:[2]
Gesamtkosten = gesamte input_tokens / 1.000.000 × 5
+ gesamte output_tokens / 1.000.000 × 25Beispiel: 10.000 Aufgaben, jeweils 2.000 Input-Token und 500 Output-Token.
Gesamter Input = 10.000 × 2.000 = 20.000.000 Token
Gesamter Output = 10.000 × 500 = 5.000.000 Token
Input-Kosten = 20 × 5 = 100 US-Dollar
Output-Kosten = 5 × 25 = 125 US-Dollar
Summe = 225 US-DollarDiese 225 US-Dollar sind eine konservative Schätzung ohne Batch-Rabatt. Wenn Sie später einen tatsächlich gültigen Batch-Preis, Plattformpreis oder Vertragspreis bestätigt haben, ersetzen Sie einfach die Einheitenpreise.
Wichtig: Wer nicht direkt die Anthropic Claude API nutzt, sondern über Cloud-Plattformen oder Modellrouter geht, kann andere Rechnungsbeträge sehen. Die Drittanbieterübersicht CloudPrice führt Opus 4.7 für Anthropic beziehungsweise global mit $5 Input und $25 Output pro MTok, nennt aber für einige regionale AWS-Bedrock-Codes $5.50 Input und $27.50 Output pro MTok. Solche Übersichten sind nützlich als Warnsignal; verbindlich bleiben Ihre Plattformabrechnung, Ihr Vertrag und die offiziellen Dokumente.[12]
6. Sicherheitsaufschlag: Theorie ist selten die echte Rechnung
Wenn noch keine Produktionsdaten vorliegen, ist eine reine Modellrechnung meist zu optimistisch. Mindestens drei Punkte gehören in den Puffer:
- Tokenizer-Risiko: Opus 4.7 kann für denselben festen Text bis zu 35 % mehr Token erzeugen.[
2]
- Unsichere Cache-Hit-Rate: Prompt Caching spart nur dann deutlich, wenn derselbe Kontext wirklich wiederverwendet wird und noch gültig ist.[
2]
- Nutzerverhalten: Nutzer fordern längere Antworten an, starten Versuche neu, laden größere Dokumente hoch oder lassen Chatverläufe länger wachsen als geplant.
Als nicht-offizieller Budgetpuffer ist folgende Daumenregel praktikabel:
| Phase | Möglicher Budgetfaktor |
|---|---|
| PoC / Testlauf | Theorie × 1,2 bis 1,5 |
| Produktivbetrieb mit stabiler Nutzung | Theorie × 1,35 bis 1,6 |
| Migration von älteren Modellen zu Opus 4.7 mit viel Langkontext | Theorie × 1,5 bis 1,8 |
Diese Faktoren sind keine Anthropic-Preise, sondern konservative Budgetwerte. Nach dem Go-live sollten reale Token-Logs, Cache-Hit-Raten und Rechnungsdaten in das Modell zurückfließen.
7. Schnellvorlage für Ihr Monatsbudget
Ohne Cache können Sie zunächst so rechnen:
Monatskosten ≈ Anfragen pro Tag × 30
× (durchschnittliche input_tokens / 1.000.000 × 5
+ durchschnittliche output_tokens / 1.000.000 × 25)Mit Cache muss die Rechnung getrennt werden:
Monatskosten ≈ normale Input-Kosten
+ Cache-Write-Kosten
+ Cache-Hit-/Refresh-Kosten
+ Output-KostenVor der Implementierung sollten mindestens diese Variablen befüllt werden:
| Variable | Beispielwert |
|---|---|
| Durchschnittliche Input-Token je Anfrage | 300.000 |
| Durchschnittliche Output-Token je Anfrage | 8.000 |
| Anfragen pro Tag | 1.000 |
| Cache-Write-Token | 300.000 je Dokument |
| Cache-Hit-Token | 300.000 je Treffer |
| Cache-Hit-Rate | 60 % |
| Tokenizer-Migrationspuffer | zunächst bis zu × 1,35 |
| Operativer Puffer | z. B. × 1,35 bis 1,6 |
Fazit: So greifen Sie das Budget sauber an
Für eine einmalige Langdokument-Analyse reicht die Standardrechnung mit $5/MTok Input und $25/MTok Output.[2]
Sobald dasselbe lange Dokument mehrfach befragt wird oder ein Chat in jeder Runde viel Historie mitschleppt, sollte Prompt Caching Teil der Architektur sein. Im Beispiel mit 300.000 Dokument-Token, 2.000 Frage-Token und 2.000 Output-Token kostet eine zweite Runde mit 5-Minuten-Cache rund 0,21 US-Dollar statt rund 1,56 US-Dollar beim erneuten Senden des Volltexts.[2]
Batch-Jobs planen Sie zunächst konservativ mit den synchronen öffentlichen API-Preisen, bis echte Batch-, Plattform- oder Vertragspreise bestätigt sind. Bei einer Migration zu Opus 4.7 ist es sinnvoll, Input-Schätzungen zuerst um bis zu 35 % zu erhöhen und danach einen operativen Puffer aufzuschlagen.[2]




