Wer ein KI-Modell aktualisiert, schaut oft zuerst auf den Preis pro Million Tokens. Das reicht aber nicht immer. Ein Tokenizer legt fest, wie Text vor der Verarbeitung durch das Modell zerlegt wird. Ändert sich diese Zerlegung, kann derselbe Prompt plötzlich mehr oder weniger Tokens ergeben – und Tokens sind in mehreren LLM-API-Preismodellen eine zentrale Abrechnungseinheit.[20][
12][
32][
2]
Claude Opus 4.7 ist dafür ein konkretes Beispiel: Anthropic schreibt in der Dokumentation, dass der neue Tokenizer bei Textverarbeitung ungefähr 1x bis 1,35x so viele Tokens wie frühere Modelle verwenden kann – also bis zu etwa 35 % mehr, abhängig vom Inhalt. Außerdem liefert /v1/messages/count_tokens für Claude Opus 4.7 andere Token-Zahlen als für Claude Opus 4.6.[34]
Kurzantwort: Ja, möglich – aber nicht pauschal 35 %
Die präziseste Antwort lautet: Ein neuer Tokenizer kann die Zahl der Input-Tokens für denselben Prompt erhöhen. Wenn der Preis pro Input-Token gleich bleibt, steigen damit die Input-Kosten.
Das ist aber keine automatische 35-%-Erhöhung für jeden Prompt. Anthropic nennt eine Spanne von ungefähr 1x bis 1,35x und weist ausdrücklich darauf hin, dass der Effekt vom Inhalt abhängt.[34]
Außerdem ist die Token-Zahl des Inputs nur ein Teil der Rechnung. In der Claude-Preisübersicht werden Base Input TokensCache WritesCache HitsOutput Tokens12][
32][
2] Anders gesagt: Mehr Input-Tokens können teurer werden, aber die Gesamtkosten hängen zusätzlich von Output, Cache-Nutzung, Modellpreis und Request-Struktur ab.[
12]
Warum zählt derselbe Text plötzlich anders?
Tokens sind nicht dasselbe wie Wörter oder Zeichen. OpenAI zeigt in der tiktoken-Anleitung, dass man die passende Encoding-Regel verwenden muss, um zu berechnen, in wie viele Tokens ein Text zerlegt wird.[20] Die Gemini-Dokumentation beschreibt ebenfalls, dass Input und Output der Gemini API tokenisiert werden, einschließlich Text und Bildern.[
1]
Darum sind Wortzählungen, Zeichenlängen oder pauschale Faustregeln nur grobe Schätzungen. Für belastbare Kostenvergleiche zählt, welche Token-Zahl das Zielmodell tatsächlich zurückgibt. Dass Claude Opus 4.7 und Claude Opus 4.6 bei /v1/messages/count_tokens unterschiedliche Werte liefern können, zeigt genau diesen Punkt.[34]
Was die 35 % wirklich bedeuten
| Aussage | Bessere Einordnung |
|---|---|
| Claude Opus 4.7 macht jeden Prompt 35 % teurer | Zu grob. Anthropic nennt etwa 1x bis 1,35x so viele Tokens, abhängig vom Inhalt.[ |
| Derselbe Text kann in mehr Tokens zerlegt werden | Ja. Anthropic sagt, der neue Tokenizer könne bei Texten mehr Tokens verwenden und andere Counts als Opus 4.6 liefern.[ |
| Tokenizer-Änderungen betreffen nur das Kontextlimit, nicht die Kosten | Unvollständig. API-Preise berücksichtigen Token-Nutzung für Input, Output und teils Cache-Felder.[ |
| Man sollte mit offiziellen Countern testen | Richtig. OpenAI dokumentiert Token Counting, Gemini bietet count_tokens, und Anthropic verweist für Opus 4.7 auf /v1/messages/count_tokens.[ |
Wie Sie den Kosteneffekt überschlagen
Wenn Sie nur auf Input-Tokens schauen und der Preis pro Input-Token unverändert bleibt, lässt sich der Effekt vereinfacht so abschätzen:
zusätzliche Input-Kosten ≈ (Input-Tokens neu − Input-Tokens alt) × Preis pro Input-Token
Diese Formel deckt aber nur den Input-Anteil ab. Die reale Rechnung kann auch Output-Tokens, Cache Writes, Cache Hits oder weitere Produktbestandteile enthalten. Genau deshalb sollten die offiziellen Pricing-Dokumente des jeweiligen Anbieters die Grundlage der Kalkulation bleiben.[12][
32][
2]
Sinnvoller Prüfprozess vor dem Upgrade
1. Vollständige Payloads ziehen, nicht nur die User-Nachricht
In echten Produkten besteht ein Request oft nicht nur aus der sichtbaren Nutzereingabe. Dazu können System-Anweisungen, langer Kontext, Tool-Daten, Dateien, Bilder oder andere Inputs kommen. Gemini dokumentiert, dass Input und Output tokenisiert werden; OpenAIs Token-Counting-Beispiel zeigt ebenfalls Eingaben mit Text und Bild.[1][
33]
2. Den offiziellen Token-Zähler des Zielmodells verwenden
Für OpenAI gibt es eine Dokumentation zu responses.input_tokens.count sowie tiktoken-Hinweise; Gemini dokumentiert count_tokens; Anthropic nennt für Claude Opus 4.7 /v1/messages/count_tokens und weist darauf hin, dass Opus 4.7 andere Token-Zahlen als Opus 4.6 zurückgibt.[33][
20][
1][
34]
3. Nach Inhaltstypen statt nach Bauchgefühl testen
Ein kurzer Beispielprompt reicht nicht. Weil Anthropic den Token-Anstieg bei Opus 4.7 ausdrücklich als inhaltsabhängig beschreibt, sollten Sie die Payloads testen, die im Alltag wirklich ins Gewicht fallen: häufige Requests, lange Kontexte, besonders teure Workflows oder typische Standardfälle.[34]
4. Token-Deltas in das offizielle Pricing einsetzen
Vergleichen Sie zuerst die Input-Token-Zahlen der alten und neuen Modellvariante. Danach rechnen Sie die Differenz mit dem jeweiligen Modellpreis um und ergänzen Output, Cache-Felder und weitere Kostenbestandteile. Für Claude, OpenAI und Gemini gibt es dafür offizielle Pricing-Dokumente.[12][
32][
2]
5. Erst dann optimieren
Wenn der Unterschied klein ist, reichen möglicherweise ein aktualisiertes Budget und besseres Monitoring. Wenn stark genutzte Payloads deutlich mehr Tokens erzeugen, können Prompt-Komprimierung, kürzerer Kontext, eine andere Cache-Strategie oder eine neue Kostenrechnung pro Request sinnvoll sein. Der Punkt ist nicht, bei der Zahl 35 % in Panik zu geraten, sondern den Effekt mit offiziellen Countern und offiziellen Preisen zu quantifizieren.[12][
34]
Fazit
Ein neuer Tokenizer kann denselben Prompt tatsächlich in mehr Tokens zerlegen. Bei Claude Opus 4.7 bestätigt Anthropic, dass die Textverarbeitung im Vergleich zu früheren Modellen ungefähr 1x bis 1,35x so viele Tokens verwenden kann – bis zu etwa 35 % mehr, je nach Inhalt.[34]
Ob Ihr Prompt dadurch spürbar teurer wird, hängt aber von Ihren konkreten Payloads ab: Wie viele zusätzliche Input-Tokens entstehen? Ändert sich das Output-Verhalten? Welche Rolle spielen Cache Writes und Cache Hits? Und welches Pricing gilt für das gewählte Modell? Die belastbare Antwort bekommen Sie nicht aus einer Überschrift, sondern aus einem Vorher-nachher-Test mit offiziellen Token-Zählern und der anschließenden Kalkulation anhand der offiziellen Preislisten.[33][
1][
34][
12][
32][
2]




