Ein Gedankenstrich bedeutet: Für dieses Modell wurde in den zitierten Quellen kein Wert gefunden, nicht dass das Modell null Punkte erzielt hätte. Die Reihen zu GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 und DeepSeek-V4-Pro-Max stammen überwiegend aus einem gemeinsamen Vergleich; die Kimi-K2.6-Werte kommen aus separaten Kimi-Quellen .
OpenAI beschreibt GPT-5.5 als Modell für komplexe Aufgaben wie Coding, Recherche und Datenanalyse . Im gemeinsamen Vergleich erzielt GPT-5.5 82,7 % bei Terminal-Bench 2.0 und liegt damit vor Claude Opus 4.7 mit 69,4 % sowie DeepSeek-V4-Pro-Max mit 67,9 %
. In derselben Tabelle stehen außerdem 93,6 % bei GPQA Diamond, 58,6 % bei SWE-Bench Pro und 84,4 % bei BrowseComp
.
Wichtig ist die Trennung zur Pro-Variante. GPT-5.5 Pro erreicht im selben Vergleich 90,1 % bei BrowseComp und 57,2 % bei Humanity’s Last Exam mit Tools; diese Werte sollten aber nicht einfach mit der Basisversion GPT-5.5 vermischt werden, wenn Kosten, Latenz oder Modellsettings verglichen werden .
Für die Beschaffung nennt BenchLM ein Kontextfenster von 1 Mio. Token für GPT-5.5, während ein Preisbericht $5 pro Million Input-Token und $30 pro Million Output-Token aufführt . Diese Preisangabe ist eher ein Signal für die Budgetplanung als ein Ersatz für die aktuelle Preisseite des Anbieters.
Claude Opus 4.7 zeigt in diesen Quellen die stärksten Signale für Software-Reparatur. LLM Stats listet 87,6 % bei SWE-Bench Verified, der gemeinsame Vergleich 64,3 % bei SWE-Bench Pro . Dazu kommen führende Werte in der gemeinsamen Tabelle bei GPQA Diamond mit 94,2 %, Humanity’s Last Exam ohne Tools mit 46,9 % und MCP Atlas mit 79,1 %
.
LLM Stats meldet für Claude Opus 4.7 ein Kontextfenster von 1 Mio. Token sowie $5/$25 pro Million Token in den Preiszeilen . Bei Benchmark-Vergleichen ist allerdings Vorsicht angebracht: Anthropic weist darauf hin, dass einige Ergebnisse interne Implementierungen oder aktualisierte Harness-Parameter nutzten und deshalb nicht direkt mit öffentlichen Leaderboards vergleichbar sind
.
Kimi K2.6 ist der stärkste Open-Weight-Kandidat im zitierten Material. Die Release-Berichterstattung beschreibt es als Open-Weight-MoE-Modell mit 1 Billion Parametern, 32 Milliarden aktiven Parametern, 384 Experten, nativer Multimodalität, INT4-Quantisierung und 256K-Kontextfenster . Die Hugging-Face-Modellkarte meldet 80,2 % bei SWE-Bench Verified, 58,6 % bei SWE-Bench Pro, 66,7 % bei Terminal-Bench 2.0 und 89,6 bei LiveCodeBench v6
.
Weitere berichtete Werte sind 54,0 bei Humanity’s Last Exam mit Tools und 83,2 bei BrowseComp . LLM Stats führt Kimi K2.6 mit 262K Kontext, $0,95/$4,00 in den Preiszeilen und einem Open-Source-Label
. Die Einschränkung: Kimi wird nicht in derselben gemeinsamen Vergleichstabelle geführt wie GPT-5.5, Claude Opus 4.7 und DeepSeek-V4-Pro-Max. Kleine Unterschiede sollten deshalb eher als Anlass für eigene Tests verstanden werden, nicht als endgültiges Urteil
.
DeepSeek-V4-Pro-Max wirkt weniger wie der eindeutige Benchmark-Gesamtsieger, aber stark wie ein Wert-Kandidat. LLM Stats listet 1,6 Billionen Größe, 1 Mio. Kontext, 80,6 % bei SWE-Bench Verified und $1,74/$3,48 in den Kostenzeilen . Im gemeinsamen Vergleich erreicht es 90,1 % bei GPQA Diamond, 37,7 % bei Humanity’s Last Exam ohne Tools, 48,2 % bei Humanity’s Last Exam mit Tools, 67,9 % bei Terminal-Bench 2.0, 55,4 % bei SWE-Bench Pro, 83,4 % bei BrowseComp und 73,6 % bei MCP Atlas
.
Damit gehört DeepSeek-V4-Pro-Max auf die Testliste, wenn Kosten eine harte Grenze sind. Die gleiche Vergleichstabelle zeigt aber auch, dass GPT-5.5, GPT-5.5 Pro oder Claude Opus 4.7 die meisten berichteten Benchmark-Zeilen anführen. Für den Produktivbetrieb sollte DeepSeek daher am eigenen Workload validiert werden, bevor es ein Premium-Modell ersetzt .
Kontextfenster und Preise stammen nicht immer aus derselben Quelle und können sich je nach Anbieter, Region, Modus und Vertrag ändern. Für eine echte Budgetentscheidung sollten sie deshalb gegen aktuelle Anbieterpreise geprüft werden.
Die Benchmarks messen unterschiedliche Fähigkeiten. GPQA Diamond und Humanity’s Last Exam stehen für schweres Reasoning, Terminal-Bench 2.0 und SWE-Bench-Varianten für Coding und agentische Softwarearbeit, BrowseComp für browsingartige Rechercheleistung im gemeinsamen Vergleich . Ein Modell kann deshalb in einer Zeile führen und in der nächsten zurückfallen, ohne dass sich daraus ein allgemeiner Sieg ableiten lässt.
Selbst gleich benannte Benchmarks können je nach Setup variieren. LLM Stats führt Claude Opus 4.7 bei SWE-Bench Verified mit 87,6 %, während LMCouncil unter eigenem Setup 83,5 % ± 1,7 nennt . Anthropic weist außerdem darauf hin, dass einige Ergebnisse interne Implementierungen oder aktualisierte Harness-Parameter nutzten und nicht direkt mit öffentlichen Leaderboards vergleichbar sind
.
Die Konsequenz: Ein oder zwei Prozentpunkte Abstand sollten keine Produktionsentscheidung allein tragen. Öffentliche Benchmarks sind gut, um eine Shortlist zu bauen. Den Zuschlag sollte Ihr eigener Test geben.
Für eine High-End-Shortlist sollten GPT-5.5 und Claude Opus 4.7 nebeneinander getestet werden: GPT-5.5 hat den stärksten zitierten Terminal-Bench-2.0-Wert, Claude Opus 4.7 die stärksten zitierten SWE-Bench-Pro- und SWE-Bench-Verified-Werte . Wenn Open Weights entscheidend sind, startet die Evaluation sinnvollerweise mit Kimi K2.6
. Wenn Kosten der Engpass sind, gehört DeepSeek-V4-Pro-Max in den Vergleich — aber erst der eigene Workload zeigt, ob es ein Premium-Modell wirklich ersetzen kann
.
Comments
0 comments