studioglobal
Trendthemen auf Entdecken
BerichteVeröffentlicht12 Quellen

GPT-5.5 vs. Claude Opus 4.7 vs. Kimi K2.6 vs. DeepSeek V4

GPT 5.5 führt in den zitierten Daten bei Terminal Bench 2.0 mit 82,7 %, während Claude Opus 4.7 bei SWE Bench Pro und SWE Bench Verified vorn liegt [18][24]. GPT 5.5 Pro sollte getrennt von GPT 5.5 betrachtet werden: In den Quellen führt die Pro Variante bei BrowseComp mit 90,1 % und bei Humanity’s Last Exam mit Too...

16K0
Abstract benchmark dashboard comparing GPT-5.5, Claude Opus 4.7, Kimi K2.6 and DeepSeek V4
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: Benchmarks ComparedAI-generated editorial illustration for a benchmark comparison of GPT-5.5, Claude Opus 4.7, Kimi K2.6 and DeepSeek V4.
KI-Prompt

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: Benchmarks Compared. Article summary: There is no single apples to apples leaderboard in the cited sources. The clearest signals are GPT 5.5 at 82.7% on Terminal Bench 2.0, Claude Opus 4.7 at 87.6% on SWE Bench Verified, Kimi K2.6 as the open weight pick,.... Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hp

openai.com

Benchmark-Grafiken machen aus GPT-5.5, Claude Opus 4.7, Kimi K2.6 und DeepSeek V4 gern ein Pferderennen. Für die Praxis ist das zu kurz gedacht. Der engste gemeinsame Vergleich in den zitierten Quellen umfasst GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 und DeepSeek-V4-Pro-Max; Kimi K2.6 taucht dagegen in separaten Kimi-Quellen, einer Modellkarte und Leaderboards auf [1][6][24]. Die bessere Frage lautet daher nicht: Wer gewinnt alles? Sondern: Welches Modell gehört für meinen Workload zuerst in den Test?

Eine Namensfrage vorab: Dieser Artikel verwendet für DeepSeek V4 die Variante DeepSeek-V4-Pro-Max, weil genau diese Version in den zitierten Benchmark- und Kostenzeilen auftaucht [18][24]. Außerdem bleibt GPT-5.5 Pro von der Basisversion GPT-5.5 getrennt, wo die Quelle unterschiedliche Werte ausweist [24].

Kurzfazit: welches Modell für welchen Job?

  • Terminal-lastige Coding-Agenten: GPT-5.5 hat mit 82,7 % den stärksten zitierten Terminal-Bench-2.0-Wert im gemeinsamen Vergleich [24].
  • Software-Reparatur und GitHub-nahe Aufgaben: Claude Opus 4.7 führt bei SWE-Bench Pro mit 64,3 % und bei SWE-Bench Verified mit 87,6 % [18][24].
  • Schweres Reasoning ohne Tools: Claude Opus 4.7 liegt in den gemeinsamen Zeilen zu GPQA Diamond und Humanity’s Last Exam ohne Tools vorn [24].
  • Tool-gestütztes Reasoning und Browsing: GPT-5.5 Pro führt bei Humanity’s Last Exam mit Tools mit 57,2 % und bei BrowseComp mit 90,1 %, sofern die Pro-Variante separat berichtet wird [24].
  • Open-Weight-Deployment: Kimi K2.6 ist in den Quellen der naheliegendste Kandidat: beschrieben als Open-Weight-MoE-Modell mit 1 Billion Parametern, 32 Milliarden aktiven Parametern und 256K-Kontextfenster [1].
  • Kostensensitives Hosted Inference: DeepSeek-V4-Pro-Max ist der Wert-Kandidat zum Gegenprüfen; LLM Stats listet 1 Mio. Kontext, 80,6 % bei SWE-Bench Verified und $1,74/$3,48 in den Kostenzeilen [18].

Benchmarks im Überblick

Ein Gedankenstrich bedeutet: Für dieses Modell wurde in den zitierten Quellen kein Wert gefunden, nicht dass das Modell null Punkte erzielt hätte. Die Reihen zu GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 und DeepSeek-V4-Pro-Max stammen überwiegend aus einem gemeinsamen Vergleich; die Kimi-K2.6-Werte kommen aus separaten Kimi-Quellen [1][6][24].

BenchmarkGPT-5.5GPT-5.5 ProClaude Opus 4.7Kimi K2.6DeepSeek-V4-Pro-Max
GPQA Diamond93,6 % [24]94,2 % [24]≈91 % [28]90,1 % [24]
Humanity’s Last Exam, ohne Tools41,4 % [24]43,1 % [24]46,9 % [24]37,7 % [24]
Humanity’s Last Exam, mit Tools52,2 % [24]57,2 % [24]54,7 % [24]54,0 % [1]48,2 % [24]
Terminal-Bench 2.082,7 % [24]69,4 % [24]66,7 % [6]67,9 % [24]
SWE-Bench Pro58,6 % [24]64,3 % [24]58,6 % [6]55,4 % [24]
BrowseComp84,4 % [24]90,1 % [24]79,3 % [24]83,2 % [1]83,4 % [24]
MCP Atlas / MCPAtlas Public75,3 % [24]79,1 % [24]73,6 % [24]
SWE-Bench Verified87,6 % [18]80,2 % [6]80,6 % [18]

Wenn Sie nur eine Shortlist bauen wollen

PrioritätZuerst testenWarum
Terminal-lastige Coding-AgentenGPT-5.5Höchster Terminal-Bench-2.0-Wert im gemeinsamen Vergleich: 82,7 % [24].
Software-ReparaturClaude Opus 4.7Führt in den zitierten SWE-Bench-Pro- und SWE-Bench-Verified-Zeilen [18][24].
Schweres Reasoning ohne WerkzeugeClaude Opus 4.7Führt bei GPQA Diamond und Humanity’s Last Exam ohne Tools im gemeinsamen Vergleich [24].
Tool-gestütztes Reasoning oder BrowsingGPT-5.5 ProFührt dort, wo GPT-5.5 Pro separat berichtet wird, bei Humanity’s Last Exam mit Tools und BrowseComp [24].
Open Weights / Self-HostingKimi K2.6Wird als Open-Weight-MoE-Modell mit 1 Billion Parametern beschrieben; die Hugging-Face-Karte meldet starke Coding-Werte [1][6].
Kostensensitives Hosted InferenceDeepSeek-V4-Pro-MaxLLM Stats listet 1 Mio. Kontext, 80,6 % bei SWE-Bench Verified und niedrigere Kostenzeilen als Claude Opus 4.7 im selben Leaderboard [18].
Long-Context-AnwendungenGPT-5.5, Claude Opus 4.7 oder DeepSeek-V4-Pro-MaxDie Quellen nennen 1 Mio. Kontext für GPT-5.5, Claude Opus 4.7 und DeepSeek-V4-Pro-Max; Kimi K2.6 liegt je nach Quelle bei rund 256K bis 262K [1][11][16][18][27].

Die Modelle im Detail

GPT-5.5

OpenAI beschreibt GPT-5.5 als Modell für komplexe Aufgaben wie Coding, Recherche und Datenanalyse [38]. Im gemeinsamen Vergleich erzielt GPT-5.5 82,7 % bei Terminal-Bench 2.0 und liegt damit vor Claude Opus 4.7 mit 69,4 % sowie DeepSeek-V4-Pro-Max mit 67,9 % [24]. In derselben Tabelle stehen außerdem 93,6 % bei GPQA Diamond, 58,6 % bei SWE-Bench Pro und 84,4 % bei BrowseComp [24].

Wichtig ist die Trennung zur Pro-Variante. GPT-5.5 Pro erreicht im selben Vergleich 90,1 % bei BrowseComp und 57,2 % bei Humanity’s Last Exam mit Tools; diese Werte sollten aber nicht einfach mit der Basisversion GPT-5.5 vermischt werden, wenn Kosten, Latenz oder Modellsettings verglichen werden [24].

Für die Beschaffung nennt BenchLM ein Kontextfenster von 1 Mio. Token für GPT-5.5, während ein Preisbericht $5 pro Million Input-Token und $30 pro Million Output-Token aufführt [27][36]. Diese Preisangabe ist eher ein Signal für die Budgetplanung als ein Ersatz für die aktuelle Preisseite des Anbieters.

Claude Opus 4.7

Claude Opus 4.7 zeigt in diesen Quellen die stärksten Signale für Software-Reparatur. LLM Stats listet 87,6 % bei SWE-Bench Verified, der gemeinsame Vergleich 64,3 % bei SWE-Bench Pro [18][24]. Dazu kommen führende Werte in der gemeinsamen Tabelle bei GPQA Diamond mit 94,2 %, Humanity’s Last Exam ohne Tools mit 46,9 % und MCP Atlas mit 79,1 % [24].

LLM Stats meldet für Claude Opus 4.7 ein Kontextfenster von 1 Mio. Token sowie $5/$25 pro Million Token in den Preiszeilen [16]. Bei Benchmark-Vergleichen ist allerdings Vorsicht angebracht: Anthropic weist darauf hin, dass einige Ergebnisse interne Implementierungen oder aktualisierte Harness-Parameter nutzten und deshalb nicht direkt mit öffentlichen Leaderboards vergleichbar sind [17].

Kimi K2.6

Kimi K2.6 ist der stärkste Open-Weight-Kandidat im zitierten Material. Die Release-Berichterstattung beschreibt es als Open-Weight-MoE-Modell mit 1 Billion Parametern, 32 Milliarden aktiven Parametern, 384 Experten, nativer Multimodalität, INT4-Quantisierung und 256K-Kontextfenster [1]. Die Hugging-Face-Modellkarte meldet 80,2 % bei SWE-Bench Verified, 58,6 % bei SWE-Bench Pro, 66,7 % bei Terminal-Bench 2.0 und 89,6 bei LiveCodeBench v6 [6].

Weitere berichtete Werte sind 54,0 bei Humanity’s Last Exam mit Tools und 83,2 bei BrowseComp [1]. LLM Stats führt Kimi K2.6 mit 262K Kontext, $0,95/$4,00 in den Preiszeilen und einem Open-Source-Label [11]. Die Einschränkung: Kimi wird nicht in derselben gemeinsamen Vergleichstabelle geführt wie GPT-5.5, Claude Opus 4.7 und DeepSeek-V4-Pro-Max. Kleine Unterschiede sollten deshalb eher als Anlass für eigene Tests verstanden werden, nicht als endgültiges Urteil [1][6][24].

DeepSeek-V4-Pro-Max

DeepSeek-V4-Pro-Max wirkt weniger wie der eindeutige Benchmark-Gesamtsieger, aber stark wie ein Wert-Kandidat. LLM Stats listet 1,6 Billionen Größe, 1 Mio. Kontext, 80,6 % bei SWE-Bench Verified und $1,74/$3,48 in den Kostenzeilen [18]. Im gemeinsamen Vergleich erreicht es 90,1 % bei GPQA Diamond, 37,7 % bei Humanity’s Last Exam ohne Tools, 48,2 % bei Humanity’s Last Exam mit Tools, 67,9 % bei Terminal-Bench 2.0, 55,4 % bei SWE-Bench Pro, 83,4 % bei BrowseComp und 73,6 % bei MCP Atlas [24].

Damit gehört DeepSeek-V4-Pro-Max auf die Testliste, wenn Kosten eine harte Grenze sind. Die gleiche Vergleichstabelle zeigt aber auch, dass GPT-5.5, GPT-5.5 Pro oder Claude Opus 4.7 die meisten berichteten Benchmark-Zeilen anführen. Für den Produktivbetrieb sollte DeepSeek daher am eigenen Workload validiert werden, bevor es ein Premium-Modell ersetzt [24].

Kontextfenster und Preisindikationen

Kontextfenster und Preise stammen nicht immer aus derselben Quelle und können sich je nach Anbieter, Region, Modus und Vertrag ändern. Für eine echte Budgetentscheidung sollten sie deshalb gegen aktuelle Anbieterpreise geprüft werden.

ModellZitiertes SignalPraktische Lesart
GPT-5.5BenchLM listet 1 Mio. Kontext; ein Preisbericht nennt $5 Input und $30 Output pro Million Token [27][36].Premium-Option für Hosted Inference; Live-Preise prüfen.
Claude Opus 4.7LLM Stats meldet 1 Mio. Kontext und $5/$25 pro Million Token [16].Premium-Option für Coding, Reasoning und Long-Context-Aufgaben.
Kimi K2.6Release-Berichte nennen 256K Kontext; LLM Stats listet 262K Kontext und $0,95/$4,00 [1][11].Starker Open-Weight-Kandidat; Hosted-Preise können je nach Provider variieren.
DeepSeek-V4-Pro-MaxLLM Stats listet 1 Mio. Kontext, 1,6 Billionen Größe, 80,6 % bei SWE-Bench Verified und $1,74/$3,48 [18].Interessanter Preis-Leistungs-Kandidat, wenn die Qualität im eigenen Test hält.

Warum ein einziges Ranking in die Irre führen kann

Die Benchmarks messen unterschiedliche Fähigkeiten. GPQA Diamond und Humanity’s Last Exam stehen für schweres Reasoning, Terminal-Bench 2.0 und SWE-Bench-Varianten für Coding und agentische Softwarearbeit, BrowseComp für browsingartige Rechercheleistung im gemeinsamen Vergleich [24]. Ein Modell kann deshalb in einer Zeile führen und in der nächsten zurückfallen, ohne dass sich daraus ein allgemeiner Sieg ableiten lässt.

Selbst gleich benannte Benchmarks können je nach Setup variieren. LLM Stats führt Claude Opus 4.7 bei SWE-Bench Verified mit 87,6 %, während LMCouncil unter eigenem Setup 83,5 % ± 1,7 nennt [18][30]. Anthropic weist außerdem darauf hin, dass einige Ergebnisse interne Implementierungen oder aktualisierte Harness-Parameter nutzten und nicht direkt mit öffentlichen Leaderboards vergleichbar sind [17].

Die Konsequenz: Ein oder zwei Prozentpunkte Abstand sollten keine Produktionsentscheidung allein tragen. Öffentliche Benchmarks sind gut, um eine Shortlist zu bauen. Den Zuschlag sollte Ihr eigener Test geben.

So testen Sie die Favoriten im eigenen Stack

  1. Nutzen Sie echte Prompts, Dateien und Repositories. Benchmark-Aufgaben bilden selten Ihre Codebasis, Dokumente, Richtlinien oder Nutzeranfragen ab.
  2. Spiegeln Sie die Tool-Umgebung. Ergebnisse können sich ändern, wenn ein Modell Terminalzugriff, Browser, Retrieval, Repository-Kontext oder interne APIs erhält.
  3. Messen Sie Kosten und Latenz mit denselben Einstellungen. Pro-Modi und höhere Reasoning-Stufen können Qualität, Tokenverbrauch und Antwortzeit stark verändern.
  4. Prüfen Sie Fehler manuell. Bei Coding-Aufgaben zählen nicht nur bestandene Tests, sondern auch Diff-Qualität, Wartbarkeit, Sicherheitsrisiken und erfundene Abhängigkeiten.
  5. Nehmen Sie mindestens einen günstigeren Herausforderer auf. Kimi K2.6 und DeepSeek-V4-Pro-Max verdienen einen Platz im Test, wenn Open Weights oder Inferenzkosten wichtig sind [1][18].

Fazit

Für eine High-End-Shortlist sollten GPT-5.5 und Claude Opus 4.7 nebeneinander getestet werden: GPT-5.5 hat den stärksten zitierten Terminal-Bench-2.0-Wert, Claude Opus 4.7 die stärksten zitierten SWE-Bench-Pro- und SWE-Bench-Verified-Werte [18][24]. Wenn Open Weights entscheidend sind, startet die Evaluation sinnvollerweise mit Kimi K2.6 [1][6]. Wenn Kosten der Engpass sind, gehört DeepSeek-V4-Pro-Max in den Vergleich — aber erst der eigene Workload zeigt, ob es ein Premium-Modell wirklich ersetzen kann [18][24].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

  • GPT 5.5 führt in den zitierten Daten bei Terminal Bench 2.0 mit 82,7 %, während Claude Opus 4.7 bei SWE Bench Pro und SWE Bench Verified vorn liegt [18][24].
  • GPT 5.5 Pro sollte getrennt von GPT 5.5 betrachtet werden: In den Quellen führt die Pro Variante bei BrowseComp mit 90,1 % und bei Humanity’s Last Exam mit Tools mit 57,2 % [24].
  • Kimi K2.6 ist der klarste Open Weight Kandidat, DeepSeek V4 Pro Max der auffälligste Kostentest mit 1 Mio.

Die Leute fragen auch

Wie lautet die kurze Antwort auf „GPT-5.5 vs. Claude Opus 4.7 vs. Kimi K2.6 vs. DeepSeek V4“?

GPT 5.5 führt in den zitierten Daten bei Terminal Bench 2.0 mit 82,7 %, während Claude Opus 4.7 bei SWE Bench Pro und SWE Bench Verified vorn liegt [18][24].

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

GPT 5.5 führt in den zitierten Daten bei Terminal Bench 2.0 mit 82,7 %, während Claude Opus 4.7 bei SWE Bench Pro und SWE Bench Verified vorn liegt [18][24]. GPT 5.5 Pro sollte getrennt von GPT 5.5 betrachtet werden: In den Quellen führt die Pro Variante bei BrowseComp mit 90,1 % und bei Humanity’s Last Exam mit Tools mit 57,2 % [24].

Was soll ich als nächstes in der Praxis tun?

Kimi K2.6 ist der klarste Open Weight Kandidat, DeepSeek V4 Pro Max der auffälligste Kostentest mit 1 Mio.

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „Claude Opus 4.7 vs. GPT-5.5 vs. DeepSeek V4 vs. Kimi K2.6: Benchmark-Vergleich 2026“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „DeepSeek V4: 1 Mio. Token, MoE und der API-Umstieg“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

Forschungsgespräch

Du

Forschungsfrage

Search for the benchmarks of GPT-5.5, Claude Opus 4.7, Kimi K2.6, DeepSeek V4. Compare them to help me understand more about them.

Studio Global AI40 Quellen

Zitierte Antwort

I found public benchmark data for all four, but not one fully independent, apples-to-apples leaderboard covering GPT-5.5, Claude Opus 4.7, Kimi K2.6, and DeepSeek V4 under the same harness. The practical read is: GPT-5.5 looks strongest for broad agentic coding/computer-use tasks, Claude Opus 4.7 is extremely strong on coding and hard reasoning, Kimi K2.6 is the strongest open-weight option in this group, and DeepSeek V4 looks like the best price/performance play if its reported results hold up across independent testing [4][5][6][13].

Key findings

  • GPT-5.5’s official benchmarks emphasize agentic coding and computer-use: 82.7% on Terminal-Bench 2.0, 58.6% on SWE-Bench Pro, 78.7% on OSWorld-Verified, 84.4% on BrowseComp, and 81.8% on CyberGym [4].

  • GPT-5.5 Pro appears stronger on some harder research/search/math tasks, including 90.1% on BrowseComp, 52.4% on FrontierMath Tier 1–3, and 39.6% on FrontierMath Tier 4 [4].

  • Claude Opus 4.7 is positioned by Anthropic as a premium hybrid reasoning model for coding and agents, with a 1M-token context window and API pricing of $5 per million input tokens and $25 per million output tokens [2]. Third-party benchmark reporting lists Claude Opus 4.7 at 87.6% on SWE-bench Verified and 94.2% on GPQA Diamond [5].

  • Kimi K2.6 is an open-weight multimodal MoE model with 1T total parameters, 32B active parameters, and a 256K-token context window [13]. Its model card reports 80.2% on SWE-Bench Verified, 58.6% on SWE-Bench Pro, 66.7% on Terminal-Bench 2.0, 90.5% on GPQA Diamond, and 54.0% on HLE-Full with tools [13].

  • DeepSeek V4-Pro-Max is reported as a 1.6T-parameter open model with much lower API pricing than GPT-5.5 and Claude Opus 4.7 [6]. Reported comparison data puts DeepSeek V4-Pro-Max at 90.1% on GPQA Diamond, 37.7% on HLE without tools, 48.2% on HLE with tools, and 67.9% on Terminal-Bench 2.0 [6].

Comparison

ModelBest fitNotable reported benchmarksMain caveat
GPT-5.5Best general pick for agentic coding, computer use, research workflows, and tool-heavy tasksTerminal-Bench 2.0: 82.7%; SWE-Bench Pro: 58.6%; OSWorld-Verified: 78.7%; BrowseComp: 84.4%; CyberGym: 81.8% [4]OpenAI’s strongest numbers include internal or vendor-run evals, so independent confirmation matters [4].
GPT-5.5 ProHarder reasoning/search/math where cost is less importantBrowseComp: 90.1%; FrontierMath Tier 1–3: 52.4%; FrontierMath Tier 4: 39.6% [4]Higher-tier “Pro” results are not directly comparable to base GPT-5.5 or open models unless the same effort/budget is used [4].
Claude Opus 4.7Premium coding, long-context enterprise workflows, careful reasoning, and high-reliability agentsSWE-bench Verified: 87.6%; GPQA Diamond: 94.2%; 1M context window [2][5]Some Anthropic benchmark results are presented in release materials or partner/internal evals, and not every benchmark is directly comparable to public leaderboard runs [8].
Kimi K2.6Best open-weight option if you want strong coding/agentic performance and self-hostabilitySWE-Bench Verified: 80.2%; SWE-Bench Pro: 58.6%; Terminal-Bench 2.0: 66.7%; GPQA Diamond: 90.5%; HLE-Full with tools: 54.0% [13]Kimi’s own model card notes different settings and re-evaluations for some comparison scores, so treat cross-model deltas cautiously [13].
DeepSeek V4-Pro-MaxBest value candidate; strong open-model performance with much lower reported API costGPQA Diamond: 90.1%; HLE no tools: 37.7%; HLE with tools: 48.2%; Terminal-Bench 2.0: 67.9% [6]Evidence is newer and less independently settled; I would wait for more third-party validation before treating it as equal to closed frontier models [6].

How to interpret the numbers

  • For software engineering, Claude Opus 4.7’s 87.6% SWE-bench Verified score is the standout among the reported figures I found, while GPT-5.5’s 82.7% Terminal-Bench 2.0 score is the strongest reported command-line/agentic coding number in this set [4][5].

  • For broad tool-using agent tasks, GPT-5.5 looks especially strong because its official release reports high scores across OSWorld-Verified, BrowseComp, Toolathlon, Terminal-Bench 2.0, and CyberGym rather than just one narrow benchmark [4].

  • For open-weight deployment, Kimi K2.6 and DeepSeek V4 are the two to watch: Kimi K2.6 has a strong official benchmark table across coding, reasoning, vision, and agentic tasks, while DeepSeek V4 emphasizes frontier-like performance at much lower cost [6][13].

  • For hard academic/scientific reasoning, Claude Opus 4.7’s reported 94.2% GPQA Diamond leads the figures I found, while GPT-5.5 and DeepSeek V4 are reported lower on GPQA Diamond in the comparison data I found [5][6].

  • For price/performance, DeepSeek V4 appears meaningfully cheaper than GPT-5.5 and Claude Opus 4.7 in reported API pricing, but cheaper inference only matters if its quality is sufficient for your workload [6].

Evidence notes

  • The strongest source for GPT-5.5 is OpenAI’s official GPT-5.5 release page, which includes the benchmark table for Terminal-Bench 2.0, SWE-Bench Pro, OSWorld-Verified, BrowseComp, FrontierMath, Toolathlon, and CyberGym [4].

  • The strongest source for Claude Opus 4.7 positioning, context window, availability, and pricing is Anthropic’s Opus 4.7 product/release material [2][8]. The cleanest text benchmark figures I found for Opus 4.7’s SWE-bench Verified and GPQA Diamond scores came from LLM Stats reporting [5].

  • The strongest source for Kimi K2.6 is Moonshot AI’s Hugging Face model card, which includes architecture details, context length, and the evaluation table [13].

  • The strongest text source I found for DeepSeek V4’s direct comparison against GPT-5.5 and Claude Opus 4.7 was VentureBeat’s launch/benchmark report [6].

Limitations / uncertainty

  • Insufficient evidence for one single, independent, fully apples-to-apples benchmark suite that evaluates all four models with the same prompts, tools, budgets, reasoning effort, and scoring harness.

  • Some numbers are vendor-reported, some are third-party summaries, and some benchmarks use different tool access or reasoning-effort settings, so small score differences should not be overinterpreted [4][8][13].

  • For real buying/deployment decisions, I would run your own 20–50 task eval set with your actual prompts, files, tools, latency targets, and cost constraints.

Summary

If you want the safest high-end general choice, start with GPT-5.5. If your priority is top-tier coding reliability and long-context enterprise work, test Claude Opus 4.7. If you need open weights and strong frontier-adjacent performance, Kimi K2.6 is the most compelling open option. If cost is the constraint and you can tolerate some validation risk, DeepSeek V4 is the one to benchmark first.

Quellen

  • [1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space

    Moonshot’s Kimi K2.6 was the clear release of the day: an open-weight 1T-parameter MoE with 32B active, 384 experts (8 routed + 1 shared), MLA attention, 256K context, native multimodality, and INT4 quantization, with day-0 support in vLLM, OpenRouter, Clou...

  • [6] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co

    OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...

  • [11] AI Leaderboard 2026 - Compare Top AI Models & Rankingsllm-stats.com

    19 Image 20: Moonshot AI Kimi K2.6NEW Moonshot AI 1,157 — 90.5% 80.2% 262K $0.95 $4.00 Open Source 20 Image 21: OpenAI GPT-5.2 Codex OpenAI 1,148 812 — — 400K $1.75 $14.00 Proprietary [...] 6 Image 7: Anthropic Claude Opus 4.5 Anthropic 1,614 1,342 87.0% 80...

  • [16] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com

    LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...

  • [17] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    CyberGym: Opus 4.6’s score has been updated from the originally reported 66.6 to 73.8, as we updated our harness parameters to better elicit cyber capability. SWE-bench Multimodal: We used an internal implementation for both Opus 4.7 and Opus 4.6. Scores ar...

  • [18] SWE-Bench Verified Leaderboard - LLM Statsllm-stats.com

    Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.939 — — $25.00 / $125.00 2 Anthropic Claude Opus 4.7 Anthropic 0.876 — 1.0M $5.00 / $25.00 3 Anthropic Claude Opus 4.5 Anthropic 0.809 — 200K $5.00 / $25.00 4 An...

  • [24] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    Benchmark DeepSeek-V4-Pro-Max GPT-5.5 GPT-5.5 Pro, where shown Claude Opus 4.7 Best result among these GPQA Diamond 90.1% 93.6% — 94.2% Claude Opus 4.7 Humanity’s Last Exam, no tools 37.7% 41.4% 43.1% 46.9% Claude Opus 4.7 Humanity’s Last Exam, with tools 4...

  • [27] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...

  • [28] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com

    9Image 42GPT-5 mini 0.22 10Image 43o3 0.16 GPQAView → 4 of 10 Image 44: LLM Stats Logo A challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. Questions are Google-proof and extremely difficult, w...

  • [30] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [36] GPT-5.5 Doubles the Price, Google Goes Full Agent, DeepSeek V4 ...thecreatorsai.com

    GPT-5.5 is out — $5 per million input, $30 per million output. That's exactly double GPT-5.4 and 20% more than Claude Opus 4.7. OpenAI released ... 21 hours ago

  • [38] Introducing GPT-5.5 - OpenAIopenai.com

    Introducing GPT-5.5, our smartest model yet—faster, more capable, and built for complex tasks like coding, research, and data analysis ... 2 days ago