Die verfügbaren Benchmarks liefern keinen Champion, den man blind in jedes Projekt setzen sollte. Sie zeichnen eher vier Profile: Claude Opus 4.7, wenn Qualität mehr zählt als Tokenkosten; GPT-5.5, wenn Terminal-Aufgaben, Agenten und der OpenAI-Stack wichtig sind; Kimi K2.6, wenn Coding-Leistung günstig sein soll; und DeepSeek V4, wenn viele API-Aufrufe mit großem Kontextfenster möglichst preiswert laufen müssen [3][
4][
7][
16].
Wichtig ist die Einordnung: Die Zahlen mischen teils Varianten, Tool-Nutzung, Tool-freie Läufe sowie Effort- oder Thinking-Modi. Sie sind also gute Signale, aber keine endgültige Rangliste für jeden produktiven Workflow [3][
6][
14][
16].
Kurzfazit: erst den Engpass klären
| Wenn Ihr Engpass ist ... | Zuerst testen | Warum |
|---|---|---|
| Maximale Qualität bei schwierigen Aufgaben | Claude Opus 4.7 | In den vergleichbaren HLE-Zahlen von VentureBeat liegt es vor GPT-5.5 und DeepSeek; CodeRouter nennt 64,3 % in SWE-Bench Pro [ |
| Terminal, Agenten und OpenAI-Nähe | GPT-5.5 | VentureBeat meldet 82,7 % in Terminal-Bench 2.0, deutlich vor Claude Opus 4.7 und DeepSeek V4; eine Praxisanalyse sieht es als naheliegende Route für ChatGPT/Codex-Workflows [ |
| Coding bei knappem Budget | Kimi K2.6 | CodeRouter listet 58,6 % in SWE-Bench Pro, gleichauf mit GPT-5.5, bei 0,60/4,00 US-Dollar je 1 Mio. Eingabe-/Ausgabe-Token [ |
| Sehr viele Aufrufe und langer Kontext | DeepSeek V4-Pro oder V4 Flash | V4-Pro wird mit 1,74/3,48 US-Dollar je 1 Mio. Token und 1 Mio. Kontext geführt; V4 Flash mit 0,14/0,28 US-Dollar und ebenfalls 1 Mio. Kontext, aber als eigene Variante [ |
| Self-hosting mit dokumentiertem Pfad | Kimi K2.6 | Verdent berichtet, dass die Gewichte auf Hugging Face liegen und mit vLLM, SGLang oder KTransformers laufen [ |
Was die Benchmarks wirklich sagen
Humanity’s Last Exam, kurz HLE, ist ein multimodaler akademischer Benchmark mit 2.500 Fragen aus Mathematik, Geisteswissenschaften und Naturwissenschaften. Er soll Frontier-Fähigkeiten anhand überprüfbarer Antworten testen [15]. SWE-Bench Pro bewertet Software-Engineering über mehrsprachige Aufgaben auf Basis realer GitHub-Issues, wie DocsBot es beschreibt [
18]. Terminal-Bench 2.0 taucht bei VentureBeat im Umfeld agentischer Software-Engineering-Ergebnisse auf [
3].
| Benchmark | Einordnung | Vorliegende Werte |
|---|---|---|
| HLE ohne Tools | Claude Opus 4.7 führt in der vergleichbaren VentureBeat-Tabelle. | Claude Opus 4.7: 46,9 %; GPT-5.5: 41,4 %; DeepSeek V4: 37,7 %. Kimi K2.6 erscheint in diesem Auszug nicht als direkt vergleichbarer Wert [ |
| HLE mit Tools | Claude bleibt in VentureBeat vor GPT-5.5 und DeepSeek; Kimi hat eine starke Zahl aus einer anderen Quelle. | Claude Opus 4.7: 54,7 %; GPT-5.5: 52,2 %; DeepSeek V4: 48,2 % bei VentureBeat. CodeRouter führt Kimi K2.6 mit 54,0 bei HLE mit Tools, aber nicht in derselben Vergleichstabelle [ |
| SWE-Bench Pro | Claude liegt vorn; GPT-5.5 und Kimi bilden die zweite Gruppe; DeepSeek liegt nahe dahinter. | CodeRouter berichtet Claude Opus 4.7 mit 64,3 %, GPT-5.5 und Kimi K2.6 mit je 58,6 % sowie DeepSeek V4-Pro bei etwa 55 %. VentureBeat nennt für DeepSeek 55,4 % [ |
| Terminal-Bench 2.0 | Das ist das stärkste konkrete Benchmark-Argument für GPT-5.5. | GPT-5.5: 82,7 %; Claude Opus 4.7: 69,4 %; DeepSeek V4: 67,9 %. Für Kimi K2.6 liegt im genannten Auszug kein Wert vor [ |
Praktisch heißt das: Claude Opus 4.7 hat in den vergleichbaren Daten die stärkste Qualitätsspur, GPT-5.5 hat den klarsten Terminal-Vorsprung, Kimi K2.6 sieht beim Verhältnis aus Coding-Leistung und Preis besonders interessant aus, und DeepSeek V4 wird vor allem dann attraktiv, wenn Kosten und Kontextfenster dominieren [3][
4][
16].
Preis und Kontext: Benchmarks bezahlen nicht die Rechnung
Bei Agenten, die in Schleifen planen, Dateien lesen, Tests starten und mehrfach nachfragen, kann der Tokenpreis wichtiger werden als ein kleiner Benchmark-Abstand. Die vorliegenden Quellen stellen Kimi K2.6 und DeepSeek V4 in die aggressivere Preiszone, während GPT-5.5 und Claude Opus 4.7 eher Premium-Modelle bleiben [4][
16][
19].
| Modell oder Variante | Gemeldeter Preis | Gemeldeter Kontext | Einordnung |
|---|---|---|---|
| Claude Opus 4.7 | 5/25 US-Dollar je 1 Mio. Eingabe-/Ausgabe-Token bei Artificial Analysis [ | 1 Mio. Token Kontext und maximal 128.000 Output-Token [ | Artificial Analysis ordnet Opus 4.7 unter den führenden Intelligenzmodellen ein, beschreibt es aber als teuer, langsamer als der Durchschnitt und sehr ausführlich [ |
| GPT-5.5 | 5/30 US-Dollar je 1 Mio. Eingabe-/Ausgabe-Token bei CodeRouter [ | 1 Mio. Token [ | Besonders naheliegend, wenn ChatGPT/Codex bereits Teil des Workflows ist oder das Terminal-Bench-Signal zählt [ |
| Kimi K2.6 | 0,60/4,00 US-Dollar je 1 Mio. Eingabe-/Ausgabe-Token bei CodeRouter [ | 256.000 Token [ | Artificial Analysis zeigt in einer direkten Gegenüberstellung ebenfalls 256.000 Token Kontext für Kimi gegenüber 1.000.000 Token bei Claude Opus 4.7 [ |
| DeepSeek V4-Pro | 1,74/3,48 US-Dollar je 1 Mio. Eingabe-/Ausgabe-Token bei CodeRouter [ | 1 Mio. Token [ | Interessant für günstiges Volumen mit langem Kontext, aber in den verfügbaren HLE- und SWE-Bench-Pro-Zahlen nicht an der Spitze [ |
| DeepSeek V4 Flash | 0,14/0,28 US-Dollar je 1 Mio. Eingabe-/Ausgabe-Token bei CodeRouter [ | 1 Mio. Token [ | Eine andere Variante: Benchmarks von V4-Pro oder V4-Pro-Max sollte man nicht automatisch auf Flash übertragen [ |
Auffällig ist eine Abweichung bei Claude: Artificial Analysis nennt für Opus 4.7 5/25 US-Dollar und 1 Mio. Kontext, während die von CodeRouter genutzte Kimi-Tabelle für Claude andere Werte führt [16][
19]. Für eine produktive Budgetfreigabe zählt daher immer das aktuelle Angebot des jeweiligen Providers.
Entscheidung nach Einsatzfall
Claude Opus 4.7: wenn ein Fehler teuer wäre
Claude Opus 4.7 ist die naheliegende erste Probe für komplexe Code-Reviews, lange Analysen und Aufgaben, bei denen versteckte Fehler teurer sind als zusätzliche Token. Es liegt in VentureBeats HLE-Auszug vor GPT-5.5 und DeepSeek, führt bei CodeRouter in SWE-Bench Pro mit 64,3 %, und Artificial Analysis ordnet es unter den führenden Intelligenzmodellen ein, warnt aber vor Kosten, Tempo und Verbosität [3][
14][
16]. Für die Anbindung nennt Artificial Analysis die Anthropic-API sowie Amazon Bedrock, Microsoft Azure und Google Vertex; das Kontextfenster wird dort mit 1 Mio. Token angegeben [
19].
GPT-5.5: wenn der Workflow in OpenAI lebt oder das Terminal zählt
GPT-5.5 schlägt Claude Opus 4.7 in den HLE-Zahlen von VentureBeat nicht. Sein stärkstes Signal ist Terminal-Bench 2.0: 82,7 % gegenüber 69,4 % für Claude Opus 4.7 und 67,9 % für DeepSeek V4 [3]. Wenn ein Team bereits mit ChatGPT oder Codex arbeitet, beschreibt eine Praxisanalyse GPT-5.5 als naheliegende Route, bevor man vollständig zu einem anderen Anbieter wechselt [
7].
Kimi K2.6: wenn Coding-Leistung günstiger werden soll
Kimi K2.6 ist in den vorliegenden Quellen der klarste Preis-Leistungs-Kandidat für Coding. CodeRouter sieht es in SWE-Bench Pro mit 58,6 % gleichauf mit GPT-5.5 und listet den Preis mit 0,60/4,00 US-Dollar je 1 Mio. Token [16]. Das Kontextfenster von 256.000 Token ist kleiner als die 1 Mio. Token, die CodeRouter für GPT-5.5 und DeepSeek V4-Pro nennt; wenn der relevante Code aber in dieses Fenster passt, kann der Kostenvorteil entscheidend sein [
16]. Wer eigene Gewichte betreiben muss, bekommt bei Kimi zusätzlich einen dokumentierten Pfad: Verdent berichtet, dass K2.6 auf Hugging Face liegt, mit vLLM, SGLang oder KTransformers läuft und für die INT4-Variante bei reduziertem Kontext mindestens 4× H100 als praktikable Hardware nennt [
5].
DeepSeek V4: wenn Volumen und langer Kontext wichtiger sind als die Spitze
DeepSeek V4-Pro beziehungsweise Pro-Max ist in den genannten Benchmarkauszügen nicht der Spitzenreiter: VentureBeat sieht DeepSeek hinter Claude Opus 4.7 und GPT-5.5 bei HLE, Terminal-Bench 2.0 und SWE-Bench Pro [3]. Der Reiz liegt eher in Preis und Kontext. CodeRouter führt V4-Pro mit 1,74/3,48 US-Dollar je 1 Mio. Token und 1 Mio. Kontext; V4 Flash ist mit 0,14/0,28 US-Dollar nochmals günstiger, sollte aber als eigene Variante geprüft werden [
4][
16].
Vier Stolperfallen vor der Migration
- Nicht jede Zahl beschreibt dieselbe Konfiguration. HLE erscheint mit und ohne Tools; andere Quellen arbeiten mit Modi wie high effort, max effort oder thinking [
3][
6][
14][
16].
- Varianten dürfen nicht vermischt werden. GPT-5.5 ist nicht GPT-5.5 Pro. Ebenso sind DeepSeek V4-Pro, V4-Pro-Max und V4 Flash nicht automatisch austauschbar [
3][
4][
16].
- Preise und Leaderboards altern schnell. Verdent weist darauf hin, dass solche Zahlen in einem Umfeld ständiger Modellstarts rasch veralten können [
5].
- Der eigene Workflow schlägt die lauteste Launch-Woche. Eine Praxisanalyse empfiehlt, dieselbe Aufgabe selbst laufen zu lassen, bevor man die Route wechselt [
7].
Fazit
Wenn nur Qualität zählt, startet der Test sinnvollerweise mit Claude Opus 4.7. Wenn Terminal-Aufgaben, Agenten oder die OpenAI-Umgebung im Vordergrund stehen, ist GPT-5.5 der erste Kandidat. Wenn Coding-Leistung möglichst günstig sein soll, verdient Kimi K2.6 die erste Evaluation. Und wenn der Engpass viele günstige Aufrufe mit langem Kontext sind, lohnt die Prüfung von DeepSeek V4-Pro oder V4 Flash, allerdings mit der Einschränkung, dass DeepSeek in den härtesten verfügbaren Vergleichszahlen nicht führt [3][
4][
7][
16][
19].




