Benchmark-Grafiken machen aus GPT-5.5, Claude Opus 4.7, Kimi K2.6 und DeepSeek V4 gern ein Pferderennen. Für die Praxis ist das zu kurz gedacht. Der engste gemeinsame Vergleich in den zitierten Quellen umfasst GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 und DeepSeek-V4-Pro-Max; Kimi K2.6 taucht dagegen in separaten Kimi-Quellen, einer Modellkarte und Leaderboards auf [1][
6][
24]. Die bessere Frage lautet daher nicht: Wer gewinnt alles? Sondern: Welches Modell gehört für meinen Workload zuerst in den Test?
Eine Namensfrage vorab: Dieser Artikel verwendet für DeepSeek V4 die Variante DeepSeek-V4-Pro-Max, weil genau diese Version in den zitierten Benchmark- und Kostenzeilen auftaucht [18][
24]. Außerdem bleibt GPT-5.5 Pro von der Basisversion GPT-5.5 getrennt, wo die Quelle unterschiedliche Werte ausweist [
24].
Kurzfazit: welches Modell für welchen Job?
- Terminal-lastige Coding-Agenten: GPT-5.5 hat mit 82,7 % den stärksten zitierten Terminal-Bench-2.0-Wert im gemeinsamen Vergleich [
24].
- Software-Reparatur und GitHub-nahe Aufgaben: Claude Opus 4.7 führt bei SWE-Bench Pro mit 64,3 % und bei SWE-Bench Verified mit 87,6 % [
18][
24].
- Schweres Reasoning ohne Tools: Claude Opus 4.7 liegt in den gemeinsamen Zeilen zu GPQA Diamond und Humanity’s Last Exam ohne Tools vorn [
24].
- Tool-gestütztes Reasoning und Browsing: GPT-5.5 Pro führt bei Humanity’s Last Exam mit Tools mit 57,2 % und bei BrowseComp mit 90,1 %, sofern die Pro-Variante separat berichtet wird [
24].
- Open-Weight-Deployment: Kimi K2.6 ist in den Quellen der naheliegendste Kandidat: beschrieben als Open-Weight-MoE-Modell mit 1 Billion Parametern, 32 Milliarden aktiven Parametern und 256K-Kontextfenster [
1].
- Kostensensitives Hosted Inference: DeepSeek-V4-Pro-Max ist der Wert-Kandidat zum Gegenprüfen; LLM Stats listet 1 Mio. Kontext, 80,6 % bei SWE-Bench Verified und $1,74/$3,48 in den Kostenzeilen [
18].
Benchmarks im Überblick
Ein Gedankenstrich bedeutet: Für dieses Modell wurde in den zitierten Quellen kein Wert gefunden, nicht dass das Modell null Punkte erzielt hätte. Die Reihen zu GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 und DeepSeek-V4-Pro-Max stammen überwiegend aus einem gemeinsamen Vergleich; die Kimi-K2.6-Werte kommen aus separaten Kimi-Quellen [1][
6][
24].
| Benchmark | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Kimi K2.6 | DeepSeek-V4-Pro-Max |
|---|---|---|---|---|---|
| GPQA Diamond | 93,6 % [ | — | 94,2 % [ | ≈91 % [ | 90,1 % [ |
| Humanity’s Last Exam, ohne Tools | 41,4 % [ | 43,1 % [ | 46,9 % [ | — | 37,7 % [ |
| Humanity’s Last Exam, mit Tools | 52,2 % [ | 57,2 % [ | 54,7 % [ | 54,0 % [ | 48,2 % [ |
| Terminal-Bench 2.0 | 82,7 % [ | — | 69,4 % [ | 66,7 % [ | 67,9 % [ |
| SWE-Bench Pro | 58,6 % [ | — | 64,3 % [ | 58,6 % [ | 55,4 % [ |
| BrowseComp | 84,4 % [ | 90,1 % [ | 79,3 % [ | 83,2 % [ | 83,4 % [ |
| MCP Atlas / MCPAtlas Public | 75,3 % [ | — | 79,1 % [ | — | 73,6 % [ |
| SWE-Bench Verified | — | — | 87,6 % [ | 80,2 % [ | 80,6 % [ |
Wenn Sie nur eine Shortlist bauen wollen
| Priorität | Zuerst testen | Warum |
|---|---|---|
| Terminal-lastige Coding-Agenten | GPT-5.5 | Höchster Terminal-Bench-2.0-Wert im gemeinsamen Vergleich: 82,7 % [ |
| Software-Reparatur | Claude Opus 4.7 | Führt in den zitierten SWE-Bench-Pro- und SWE-Bench-Verified-Zeilen [ |
| Schweres Reasoning ohne Werkzeuge | Claude Opus 4.7 | Führt bei GPQA Diamond und Humanity’s Last Exam ohne Tools im gemeinsamen Vergleich [ |
| Tool-gestütztes Reasoning oder Browsing | GPT-5.5 Pro | Führt dort, wo GPT-5.5 Pro separat berichtet wird, bei Humanity’s Last Exam mit Tools und BrowseComp [ |
| Open Weights / Self-Hosting | Kimi K2.6 | Wird als Open-Weight-MoE-Modell mit 1 Billion Parametern beschrieben; die Hugging-Face-Karte meldet starke Coding-Werte [ |
| Kostensensitives Hosted Inference | DeepSeek-V4-Pro-Max | LLM Stats listet 1 Mio. Kontext, 80,6 % bei SWE-Bench Verified und niedrigere Kostenzeilen als Claude Opus 4.7 im selben Leaderboard [ |
| Long-Context-Anwendungen | GPT-5.5, Claude Opus 4.7 oder DeepSeek-V4-Pro-Max | Die Quellen nennen 1 Mio. Kontext für GPT-5.5, Claude Opus 4.7 und DeepSeek-V4-Pro-Max; Kimi K2.6 liegt je nach Quelle bei rund 256K bis 262K [ |
Die Modelle im Detail
GPT-5.5
OpenAI beschreibt GPT-5.5 als Modell für komplexe Aufgaben wie Coding, Recherche und Datenanalyse [38]. Im gemeinsamen Vergleich erzielt GPT-5.5 82,7 % bei Terminal-Bench 2.0 und liegt damit vor Claude Opus 4.7 mit 69,4 % sowie DeepSeek-V4-Pro-Max mit 67,9 % [
24]. In derselben Tabelle stehen außerdem 93,6 % bei GPQA Diamond, 58,6 % bei SWE-Bench Pro und 84,4 % bei BrowseComp [
24].
Wichtig ist die Trennung zur Pro-Variante. GPT-5.5 Pro erreicht im selben Vergleich 90,1 % bei BrowseComp und 57,2 % bei Humanity’s Last Exam mit Tools; diese Werte sollten aber nicht einfach mit der Basisversion GPT-5.5 vermischt werden, wenn Kosten, Latenz oder Modellsettings verglichen werden [24].
Für die Beschaffung nennt BenchLM ein Kontextfenster von 1 Mio. Token für GPT-5.5, während ein Preisbericht $5 pro Million Input-Token und $30 pro Million Output-Token aufführt [27][
36]. Diese Preisangabe ist eher ein Signal für die Budgetplanung als ein Ersatz für die aktuelle Preisseite des Anbieters.
Claude Opus 4.7
Claude Opus 4.7 zeigt in diesen Quellen die stärksten Signale für Software-Reparatur. LLM Stats listet 87,6 % bei SWE-Bench Verified, der gemeinsame Vergleich 64,3 % bei SWE-Bench Pro [18][
24]. Dazu kommen führende Werte in der gemeinsamen Tabelle bei GPQA Diamond mit 94,2 %, Humanity’s Last Exam ohne Tools mit 46,9 % und MCP Atlas mit 79,1 % [
24].
LLM Stats meldet für Claude Opus 4.7 ein Kontextfenster von 1 Mio. Token sowie $5/$25 pro Million Token in den Preiszeilen [16]. Bei Benchmark-Vergleichen ist allerdings Vorsicht angebracht: Anthropic weist darauf hin, dass einige Ergebnisse interne Implementierungen oder aktualisierte Harness-Parameter nutzten und deshalb nicht direkt mit öffentlichen Leaderboards vergleichbar sind [
17].
Kimi K2.6
Kimi K2.6 ist der stärkste Open-Weight-Kandidat im zitierten Material. Die Release-Berichterstattung beschreibt es als Open-Weight-MoE-Modell mit 1 Billion Parametern, 32 Milliarden aktiven Parametern, 384 Experten, nativer Multimodalität, INT4-Quantisierung und 256K-Kontextfenster [1]. Die Hugging-Face-Modellkarte meldet 80,2 % bei SWE-Bench Verified, 58,6 % bei SWE-Bench Pro, 66,7 % bei Terminal-Bench 2.0 und 89,6 bei LiveCodeBench v6 [
6].
Weitere berichtete Werte sind 54,0 bei Humanity’s Last Exam mit Tools und 83,2 bei BrowseComp [1]. LLM Stats führt Kimi K2.6 mit 262K Kontext, $0,95/$4,00 in den Preiszeilen und einem Open-Source-Label [
11]. Die Einschränkung: Kimi wird nicht in derselben gemeinsamen Vergleichstabelle geführt wie GPT-5.5, Claude Opus 4.7 und DeepSeek-V4-Pro-Max. Kleine Unterschiede sollten deshalb eher als Anlass für eigene Tests verstanden werden, nicht als endgültiges Urteil [
1][
6][
24].
DeepSeek-V4-Pro-Max
DeepSeek-V4-Pro-Max wirkt weniger wie der eindeutige Benchmark-Gesamtsieger, aber stark wie ein Wert-Kandidat. LLM Stats listet 1,6 Billionen Größe, 1 Mio. Kontext, 80,6 % bei SWE-Bench Verified und $1,74/$3,48 in den Kostenzeilen [18]. Im gemeinsamen Vergleich erreicht es 90,1 % bei GPQA Diamond, 37,7 % bei Humanity’s Last Exam ohne Tools, 48,2 % bei Humanity’s Last Exam mit Tools, 67,9 % bei Terminal-Bench 2.0, 55,4 % bei SWE-Bench Pro, 83,4 % bei BrowseComp und 73,6 % bei MCP Atlas [
24].
Damit gehört DeepSeek-V4-Pro-Max auf die Testliste, wenn Kosten eine harte Grenze sind. Die gleiche Vergleichstabelle zeigt aber auch, dass GPT-5.5, GPT-5.5 Pro oder Claude Opus 4.7 die meisten berichteten Benchmark-Zeilen anführen. Für den Produktivbetrieb sollte DeepSeek daher am eigenen Workload validiert werden, bevor es ein Premium-Modell ersetzt [24].
Kontextfenster und Preisindikationen
Kontextfenster und Preise stammen nicht immer aus derselben Quelle und können sich je nach Anbieter, Region, Modus und Vertrag ändern. Für eine echte Budgetentscheidung sollten sie deshalb gegen aktuelle Anbieterpreise geprüft werden.
| Modell | Zitiertes Signal | Praktische Lesart |
|---|---|---|
| GPT-5.5 | BenchLM listet 1 Mio. Kontext; ein Preisbericht nennt $5 Input und $30 Output pro Million Token [ | Premium-Option für Hosted Inference; Live-Preise prüfen. |
| Claude Opus 4.7 | LLM Stats meldet 1 Mio. Kontext und $5/$25 pro Million Token [ | Premium-Option für Coding, Reasoning und Long-Context-Aufgaben. |
| Kimi K2.6 | Release-Berichte nennen 256K Kontext; LLM Stats listet 262K Kontext und $0,95/$4,00 [ | Starker Open-Weight-Kandidat; Hosted-Preise können je nach Provider variieren. |
| DeepSeek-V4-Pro-Max | LLM Stats listet 1 Mio. Kontext, 1,6 Billionen Größe, 80,6 % bei SWE-Bench Verified und $1,74/$3,48 [ | Interessanter Preis-Leistungs-Kandidat, wenn die Qualität im eigenen Test hält. |
Warum ein einziges Ranking in die Irre führen kann
Die Benchmarks messen unterschiedliche Fähigkeiten. GPQA Diamond und Humanity’s Last Exam stehen für schweres Reasoning, Terminal-Bench 2.0 und SWE-Bench-Varianten für Coding und agentische Softwarearbeit, BrowseComp für browsingartige Rechercheleistung im gemeinsamen Vergleich [24]. Ein Modell kann deshalb in einer Zeile führen und in der nächsten zurückfallen, ohne dass sich daraus ein allgemeiner Sieg ableiten lässt.
Selbst gleich benannte Benchmarks können je nach Setup variieren. LLM Stats führt Claude Opus 4.7 bei SWE-Bench Verified mit 87,6 %, während LMCouncil unter eigenem Setup 83,5 % ± 1,7 nennt [18][
30]. Anthropic weist außerdem darauf hin, dass einige Ergebnisse interne Implementierungen oder aktualisierte Harness-Parameter nutzten und nicht direkt mit öffentlichen Leaderboards vergleichbar sind [
17].
Die Konsequenz: Ein oder zwei Prozentpunkte Abstand sollten keine Produktionsentscheidung allein tragen. Öffentliche Benchmarks sind gut, um eine Shortlist zu bauen. Den Zuschlag sollte Ihr eigener Test geben.
So testen Sie die Favoriten im eigenen Stack
- Nutzen Sie echte Prompts, Dateien und Repositories. Benchmark-Aufgaben bilden selten Ihre Codebasis, Dokumente, Richtlinien oder Nutzeranfragen ab.
- Spiegeln Sie die Tool-Umgebung. Ergebnisse können sich ändern, wenn ein Modell Terminalzugriff, Browser, Retrieval, Repository-Kontext oder interne APIs erhält.
- Messen Sie Kosten und Latenz mit denselben Einstellungen. Pro-Modi und höhere Reasoning-Stufen können Qualität, Tokenverbrauch und Antwortzeit stark verändern.
- Prüfen Sie Fehler manuell. Bei Coding-Aufgaben zählen nicht nur bestandene Tests, sondern auch Diff-Qualität, Wartbarkeit, Sicherheitsrisiken und erfundene Abhängigkeiten.
- Nehmen Sie mindestens einen günstigeren Herausforderer auf. Kimi K2.6 und DeepSeek-V4-Pro-Max verdienen einen Platz im Test, wenn Open Weights oder Inferenzkosten wichtig sind [
1][
18].
Fazit
Für eine High-End-Shortlist sollten GPT-5.5 und Claude Opus 4.7 nebeneinander getestet werden: GPT-5.5 hat den stärksten zitierten Terminal-Bench-2.0-Wert, Claude Opus 4.7 die stärksten zitierten SWE-Bench-Pro- und SWE-Bench-Verified-Werte [18][
24]. Wenn Open Weights entscheidend sind, startet die Evaluation sinnvollerweise mit Kimi K2.6 [
1][
6]. Wenn Kosten der Engpass sind, gehört DeepSeek-V4-Pro-Max in den Vergleich — aber erst der eigene Workload zeigt, ob es ein Premium-Modell wirklich ersetzen kann [
18][
24].




