| Claude Opus 4.7 | Anthropic | $5,00 | $0,50 | $25,00 | 1M Tokens | 128K Tokens |
| GPT-5.5 | OpenAI | $5,00 | $0,50 | $30,00 | Kurzer-Kontext-Stufe; Aufpreis für langen Kontext ab ca. 272K Tokens | 128K Tokens |
| GPT-5.5 Pro | OpenAI | $30,00 | — | $180,00 | Kurzer-Kontext-Stufe; Aufpreis für langen Kontext ab ca. 272K Tokens | 128K Tokens |
| Gemini 3.5 Flash | $1,50 | $0,15 | $9,00 | 1.048.576 Tokens | 65.536 Tokens |
| Grok 4.3 | xAI | $1,25 | $0,20 | $2,50 | 1M Tokens | — |
| DeepSeek V4 Flash | DeepSeek | $0,14 | $0,028 | $0,28 | 1M Tokens | 384K Tokens |
| DeepSeek V4 Pro | DeepSeek | $1,74 | $0,145 | $3,48 | 1M Tokens | 384K Tokens |
Claude Opus 4.8 und 4.7 teilen sich die gleichen Standardkonditionen wie Opus 4.6 – ein Muster, das Anthropic seit der Opus-4.5-Generation beibehält . Allerdings führte Opus 4.7 einen neuen Tokenizer ein, der für denselben Eingabetext bis zu 35 % mehr Tokens produzieren kann. Das verteuert effektiv identische Prompts, auch wenn der Preis pro Token gleich bleibt
. GPT-5.5 wiederum verdoppelt den Input-Preis und erhöht den Output-Preis um das 1,5-Fache, sobald eine Anfrage rund 272.000 Tokens überschreitet – eine gestaffelte Struktur, die Nutzer ohne genaues Prompt-Monitoring schnell überraschen kann
. Grok 4.3 verfolgt einen ähnlichen Ansatz: Standardpreise gelten bis 200.000 Tokens, danach verdoppeln sich die Preise
.
DeepSeek V4 Flash sticht in diesem Feld als das mit Abstand günstigste Modell hervor. Mit $0,14 für Input und $0,28 für Output pro Million Tokens ist es bei den Ausgaben etwa 97 % günstiger als GPT-5.5 und beim Input nahezu 70 % günstiger als Grok 4.3 – ein entscheidender Faktor für hochvolumige, agentenbasierte Workloads .
Prompt-Caching ist die wirksamste Methode, um die Kosten pro Anfrage bei allen Anbietern zu senken. Wenn Prompts einen gemeinsamen Präfix teilen – etwa Systemanweisungen oder lange Chat-Verläufe –, werden gecachte Input-Tokens zu einem Bruchteil des Standardtarifs abgerechnet.
Anthropic, OpenAI und Google bieten einheitlich rund 90 % Rabatt auf gecachte Eingaben. DeepSeek gibt den Cache-Hit-Tarif für V4 Flash mit $0,028 an – eine Reduktion um 80 % gegenüber dem Cache-Miss-Preis von $0,14 . Der gecachte Tarif von Grok 4.3 wurde mit $0,20 pro Million Tokens für Anfragen unter 200.000 Tokens eingeführt
. Bei Workloads mit wiederkehrenden Prompts lassen sich mit diesen Caching-Stufen die monatlichen API-Rechnungen leicht halbieren oder noch stärker senken.
Batch-APIs bieten einen weiteren großen Kostenhebel und halbieren in der Regel die Standard-Token-Preise – im Gegenzug für langsamere Bearbeitungszeiten.
Die Größe des Kontextfensters und die maximale Ausgabelänge beeinflussen sowohl die Leistungsfähigkeit als auch die Kosten. Ein größeres Kontextfenster bedeutet mehr Input-Tokens pro Anfrage – und das vervielfacht direkt die Rechnung.
Comments
0 comments