BerichteVeröffentlicht28. Apr. 2026Last edited 6. Mai 202612 Quellen

Claude Opus 4.7 vs. GPT-5.5: Benchmark 2026 und der Status von DeepSeek V4/Kimi K2.6

Im echten Head to Head führt GPT 5.5 bei Terminal Bench 2.0 mit 82,7 % zu 69,4 %, Claude Opus 4.7 bei SWE Bench Pro Public mit 64,3 % zu 58,6 % [5]. Kein Gesamtsieger: Claude liegt bei MCP Atlas und FinanceAgent v1.1 vorn, GPT 5.5 bei BrowseComp, GDPval, OfficeQA Pro und FrontierMath T1–3 [2][5].

Suchen und Fakten prüfen mit Studio Global AI Mehr von Entdecken ansehen

17K0

Ilustrasi perbandingan benchmark AI antara Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6 — Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6Ilustrasi AI-generated untuk perbandingan benchmark model AI frontier 2026.
KI-Prompt
Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6. Article summary: Bukti terkuat hanya mendukung head to head Claude Opus 4.7 vs GPT 5.5: GPT 5.5 unggul di Terminal Bench 2.0 (82.7% vs 69.4%), sedangkan Claude unggul di SWE Bench Pro (64.3% vs 58.6%); DeepSeek V4 dan Kimi K2.6 belum.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watc
openai.com

Wer 2026 KI-Benchmarks liest, muss genau hinschauen: Vier Modellnamen in eine einzige Rangliste zu werfen, führt schnell zu Äpfel-mit-Birnen-Vergleichen. Der belastbarste direkte Vergleich in den vorliegenden Quellen ist Claude Opus 4.7 gegen GPT-5.5, weil beide Modelle in denselben Tabellen von OpenAI und Vellum auftauchen ^[5]^[2]. Für DeepSeek V4 und Kimi K2.6 gibt es hier dagegen keine direkten Benchmarkzahlen; die nächstliegenden Daten betreffen DeepSeek V3.2, KimiK2.5 und Kimi K2 Thinking ^[1]^[13]^[6].

Das Wichtigste in Kürze

GPT-5.5 wirkt in den verfügbaren Daten besonders stark bei Terminal- und CLI-Aufgaben, Office- beziehungsweise Professional-Workflows, Browser-/Suchaufgaben und mehreren Mathematik-Evals ^[5]^[2].
Claude Opus 4.7 liegt vorn bei SWE-Bench Pro Public, MCP Atlas für Tool-Orchestrierung und FinanceAgent v1.1 ^[5]^[2].
DeepSeek V4 und Kimi K2.6 sollten auf Basis dieser Quellen nicht gegen Claude Opus 4.7 oder GPT-5.5 gerankt werden, weil die vorhandenen Zahlen andere Modellversionen betreffen ^[1]^[13]^[6].

Direkt vergleichbare Benchmarks

Die folgende Tabelle beschränkt sich auf Benchmarks, in denen Claude Opus 4.7 und GPT-5.5 im selben Testumfeld ausgewiesen werden. GPT-5.5 Pro wird nur dort genannt, wo die Quelle diese Variante separat aufführt ^[2].

Anwendungsfrage	Benchmark	Gemeldete Werte	Einordnung
Code-Reparatur in Repositories	SWE-Bench Pro Public	Claude Opus 4.7: 64,3 % vs. GPT-5.5: 58,6 % ^[5]	Claude führt in diesem Coding-Benchmark.
Terminal- oder CLI-Agent	Terminal-Bench 2.0	GPT-5.5: 82,7 % vs. Claude Opus 4.7: 69,4 % ^[5]	Der deutlichste Vorsprung liegt hier bei GPT-5.5.
Professionelle Arbeitsaufgaben	GDPval; OfficeQA Pro	GPT-5.5: 84,9 % vs. Claude: 80,3 % in GDPval; GPT-5.5: 54,1 % vs. Claude: 43,6 % in OfficeQA Pro ^[5]	GPT-5.5 ist in diesen beiden Office-/Professional-Metriken stärker.
Finanz-Agent	FinanceAgent v1.1	Claude: 64,4 % vs. GPT-5.5: 60,0 % ^[5]	Claude liegt in dieser Finance-Agent-Eval vorn.
Computer- und Browser-Aufgaben	OSWorld-Verified; BrowseComp	GPT-5.5: 78,7 % vs. Claude: 78,0 % in OSWorld; GPT-5.5: 84,4 % und GPT-5.5 Pro: 90,1 % vs. Claude: 79,3 % in BrowseComp ^[2]	OSWorld ist nahezu ausgeglichen; bei BrowseComp führt GPT-5.5.
Tool-Orchestrierung	MCP Atlas	Claude: 79,1 % vs. GPT-5.5: 75,3 % ^[2]	Claude wirkt stärker bei tool-lastigen MCP-Szenarien.
Wissenschaftliches und mathematisches Reasoning	GPQA Diamond; FrontierMath T1–3	Claude: 94,2 % vs. GPT-5.5: 93,6 % in GPQA; GPT-5.5: 51,7 % und GPT-5.5 Pro: 52,4 % vs. Claude: 43,8 % in FrontierMath ^[2]	GPQA ist extrem knapp; in FrontierMath liegt GPT-5.5 klarer vorn.

Warum Leaderboards schnell in die Irre führen

1. SWE-Bench Pro ist nicht SWE-bench Verified

OpenAI nutzt in der Head-to-Head-Tabelle GPT-5.5 gegen Claude Opus 4.7 den Benchmark SWE-Bench Pro Public ^[5]. Das ist nicht dasselbe wie SWE-bench Verified. BenchLM beschreibt SWE-bench Verified als von Menschen geprüften Ausschnitt aus SWE-bench, der Modelle an realen GitHub-Issues aus populären Python-Repositories wie Django, Flask und scikit-learn testet ^[21].

Daraus folgt: Die 64,3 % von Claude Opus 4.7 in SWE-Bench Pro Public dürfen nicht einfach mit Claude-Werten aus SWE-bench-Verified-Leaderboards vermischt werden ^[5]^[21]. Entscheidend sind Benchmarkname, Evaluations-Harness, Testdatum, Modellkonfiguration und mögliche Retry- oder Reasoning-Einstellungen.

2. GPQA Diamond trennt Frontier-Modelle kaum noch

Vellum weist Claude Opus 4.7 mit 94,2 % und GPT-5.5 mit 93,6 % auf GPQA Diamond aus ^[2]. The Next Web berichtete ebenfalls von sehr engen Werten bei Frontier-Modellen: Claude Opus 4.7 mit 94,2 %, GPT-5.4 Pro mit 94,4 % und Gemini 3.1 Pro mit 94,3 %; die Unterschiede lägen dort im Rauschen ^[17].

Für eine Produktionsentscheidung ist GPQA also ein nützliches Signal für allgemeines Reasoning, aber kein ausreichender alleiniger Entscheider. Bei sehr ähnlichen Werten zählen praxisnähere Aufgaben: Tool-Nutzung, Code-Änderungen, Browser-Aktionen, Kosten, Latenz und Zuverlässigkeit im eigenen Workflow.

3. Drittanbieter-Leaderboards können abweichen

Auch bei SWE-bench Verified sind die öffentlichen Werte für Claude Opus 4.7 nicht identisch. BenchLM nennt für Claude Opus 4.7 Adaptive am 24. April 2026 einen Wert von 87,6 % ^[21]. LLM Stats führt ebenfalls 87,6 % auf ^[18]. LM Council zeigt dagegen für Claude Opus 4.7 max 83,5 % ± 1,7 ^[10], während MindStudio 82,4 % nennt ^[14].

Das heißt nicht automatisch, dass eine Quelle falsch liegt. Abweichungen können aus unterschiedlichen Harnesses, Stichtagen, Modellmodi, Sampling-Einstellungen, Wiederholungsversuchen oder Auswertungsregeln entstehen. Für Engineering-Teams sollten öffentliche Benchmarks deshalb eher die Shortlist bilden, nicht die eigene Evaluation ersetzen.

Claude Opus 4.7: stark bei Repo-Reparatur und Werkzeugketten

Die auffälligsten Signale für Claude Opus 4.7 liegen in Code-Reparatur und mehrstufiger Tool-Nutzung. In der OpenAI-Tabelle schlägt Claude GPT-5.5 auf SWE-Bench Pro Public mit 64,3 % zu 58,6 % und auf FinanceAgent v1.1 mit 64,4 % zu 60,0 % ^[5]. Vellum meldet außerdem einen Vorsprung bei MCP Atlas: 79,1 % für Claude gegenüber 75,3 % für GPT-5.5 ^[2].

Anthropic verweist in den Launch Notes zu Claude Opus 4.7 auf Partner-Evaluationen für agentische Workflows. Hebbia habe zweistellige Verbesserungen bei Tool-Call-Genauigkeit und Planung in Orchestrator-Agents gesehen; Rakuten-SWE-Bench habe gemeldet, dass Opus 4.7 dreimal so viele Produktionsaufgaben löse wie Opus 4.6, mit zweistelligen Zuwächsen bei Code Quality und Test Quality ^[19]. Das ist ein relevantes Produktsignal, aber es ersetzt keine unabhängige Prüfung auf der eigenen Codebasis.

Praktisch heißt das: Wenn es vor allem um autonome Repository-Reparatur, lange Tool-Ketten oder MCP-lastige Workflows geht, gehört Claude Opus 4.7 weit oben auf die Testliste. Entscheidend bleibt aber, wie das Modell mit den eigenen Test-Suites, Berechtigungen, Tool-Schemata und Fehlerfällen umgeht.

GPT-5.5: besonders stark bei Terminal, Browser, Office und Mathematik

Der deutlichste Vorsprung von GPT-5.5 zeigt sich bei Terminal-Bench 2.0. OpenAI meldet 82,7 % für GPT-5.5, verglichen mit 69,4 % für Claude Opus 4.7 und 68,5 % für Gemini 3.1 Pro ^[5]. In derselben Tabelle liegt GPT-5.5 auch bei GDPval wins/ties vor Claude, 84,9 % zu 80,3 %, sowie bei OfficeQA Pro, 54,1 % zu 43,6 % ^[5].

Vellum ergänzt den Blick auf Computer-Use, Suche und Mathematik. GPT-5.5 liegt bei OSWorld-Verified minimal vor Claude, 78,7 % zu 78,0 %; bei BrowseComp deutlicher, 84,4 % zu 79,3 %; und bei FrontierMath T1–3 ebenfalls deutlicher, 51,7 % zu 43,8 % ^[2]. Für BrowseComp meldet Vellum zusätzlich GPT-5.5 Pro mit 90,1 % ^[2].

Beim Coding ist das Bild gemischt: GPT-5.5 ist sehr stark im Terminal-Benchmark, liegt aber in SWE-Bench Pro Public hinter Claude Opus 4.7 ^[5]. Die OpenAI System Card beschreibt zudem CoT-Control, eine Evaluationssuite mit mehr als 13.000 Aufgaben aus etablierten Benchmarks wie GPQA, MMLU-Pro, HLE, BFCL und SWE-Bench Verified ^[26]. Diese Quelle liefert jedoch keinen direkten Vergleich mit DeepSeek V4 oder Kimi K2.6 ^[26].

DeepSeek V4 und Kimi K2.6: keine direkte Benchmark-Basis

Für DeepSeek V4 enthalten die vorliegenden Quellen keine direkten Benchmarkzahlen. Der nächstliegende Eintrag ist DeepSeek V3.2: MangoMind führt DeepSeek V3.2 in den Coding-Empfehlungen für April 2026 mit 89,2 % SWE-bench, hinter Claude Opus 4.6 mit 93,2 % und GPT-5.4 Pro mit 91,1 % ^[1]. Daraus lässt sich aber keine Aussage über DeepSeek V4 ableiten.

Bei Kimi K2.6 ist die Lage ähnlich. Stanford HAI nennt KimiK2.5 als Teil einer Modellgruppe, die im Februar 2026 auf SWE-bench Verified zwischen 70 % und 76 % lag ^[13]. Siliconflow listet Kimi K2 Thinking mit GPQA 84,5 und SWE Bench 71,3 ^[6]. Beides ist Kontext zum Kimi-Ökosystem, aber kein direkter Nachweis für Kimi K2.6.

Welche Modelle Teams zuerst testen sollten

Wenn die Hauptanforderung lautet ...	Zuerst testen	Evidenz	Worauf achten
Terminal- oder CLI-Coding-Agent	GPT-5.5	Terminal-Bench 2.0: GPT-5.5 82,7 % vs. Claude 69,4 % ^[5]	Shell-Umgebung, Berechtigungen, interne CI/CD und Sicherheitsgrenzen nachtesten.
Autonome Repo-Reparatur	Claude Opus 4.7, danach GPT-5.5 als Vergleich	SWE-Bench Pro Public: Claude 64,3 % vs. GPT-5.5 58,6 % ^[5]	Nicht mit SWE-bench Verified vermischen, ohne den Harness abzugleichen ^[21].
MCP oder komplexe Multi-Tool-Orchestrierung	Claude Opus 4.7	MCP Atlas: Claude 79,1 % vs. GPT-5.5 75,3 % ^[2]	Tool-Schemata, Retry-Logik, Rechtekonzept und Auditierbarkeit selbst prüfen.
Browser- oder Such-Agent	GPT-5.5 oder GPT-5.5 Pro	BrowseComp: GPT-5.5 84,4 %, GPT-5.5 Pro 90,1 %, Claude 79,3 % ^[2]	BrowseComp ist nicht automatisch repräsentativ für jede interne Rechercheaufgabe.
Finanz- oder Professional-Workflow	Claude und GPT-5.5 gegeneinander testen	Claude führt in FinanceAgent v1.1, GPT-5.5 in GDPval und OfficeQA Pro ^[5]	MindStudio betont, dass die Lücke zwischen Finance-Benchmark und produktivem Tool oft in der End-to-End-Infrastruktur liegt, nicht nur in der Modellintelligenz ^[14].
Allgemeines wissenschaftliches Reasoning	Nicht allein nach GPQA entscheiden	GPQA Diamond liegt bei Claude und GPT-5.5 sehr eng beieinander ^[2]	Besser domänenspezifische Tests nutzen, vor allem wenn die Aufgaben vom Benchmark abweichen.

Fazit

Aus den verfügbaren Head-to-Head-Daten ergibt sich kein universeller Sieger. GPT-5.5 ist der stärkere Kandidat für Terminal-/CLI-Agenten, Browser- und Suchaufgaben, Office-Workflows und mehrere Mathematik-Benchmarks ^[5]^[2]. Claude Opus 4.7 ist der stärkere Kandidat für SWE-Bench Pro Public, MCP- beziehungsweise Tool-Orchestrierung und FinanceAgent v1.1 ^[5]^[2].

DeepSeek V4 und Kimi K2.6 lassen sich auf dieser Quellenbasis nicht fair gegen beide einordnen. Die vorhandenen Daten betreffen DeepSeek V3.2, KimiK2.5 und Kimi K2 Thinking. Eine Behauptung, DeepSeek V4 oder Kimi K2.6 schlage Claude Opus 4.7 oder GPT-5.5, ist durch die hier vorliegenden direkten Benchmarkzahlen nicht belegt ^[1]^[13]^[6].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

Im echten Head to Head führt GPT 5.5 bei Terminal Bench 2.0 mit 82,7 % zu 69,4 %, Claude Opus 4.7 bei SWE Bench Pro Public mit 64,3 % zu 58,6 % [5].
Kein Gesamtsieger: Claude liegt bei MCP Atlas und FinanceAgent v1.1 vorn, GPT 5.5 bei BrowseComp, GDPval, OfficeQA Pro und FrontierMath T1–3 [2][5].
DeepSeek V4 und Kimi K2.6 lassen sich aus diesen Quellen nicht seriös einordnen; verfügbar sind nur Werte zu DeepSeek V3.2, KimiK2.5 und Kimi K2 Thinking [1][13][6].

Die Leute fragen auch

Wie lautet die kurze Antwort auf „Claude Opus 4.7 vs. GPT-5.5: Benchmark 2026 und der Status von DeepSeek V4/Kimi K2.6“?

Im echten Head to Head führt GPT 5.5 bei Terminal Bench 2.0 mit 82,7 % zu 69,4 %, Claude Opus 4.7 bei SWE Bench Pro Public mit 64,3 % zu 58,6 % [5].

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

DeepSeek V4 und Kimi K2.6 lassen sich aus diesen Quellen nicht seriös einordnen; verfügbar sind nur Werte zu DeepSeek V3.2, KimiK2.5 und Kimi K2 Thinking [1][13][6].

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „Claude Opus 4.7 vs. GPT-5.5 vs. DeepSeek V4 vs. Kimi K2.6: Benchmark-Vergleich 2026“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „DeepSeek V4: 1 Mio. Token, MoE und der API-Umstieg“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7 vs. GPT-5.5 vs. DeepSeek V4 vs. Kimi K2.6: Benchmark-Vergleich 2026

Claude Opus 4.7 vs. GPT-5.5 vs. DeepSeek V4 vs. Kimi K2.6: Benchmarks 2026 im Vergleich

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4: 1 Mio. Token, MoE und der API-Umstieg

DeepSeek V4: Was hinter 1 Mio. Token, MoE und API-Migration steckt

Northwest vs. Southeast Timber: Warum die Antwort „larger; larger“ lautet

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

Schlägt DeepSeek OpenAI, Claude, Gemini und Grok? Entscheidend sind Kosten und Vertrauen

DeepSeek gegen OpenAI, Claude, Gemini und Grok: Warum Kosten und Vertrauen wichtiger sind als Ranglisten

Forschungsgespräch

Du26. Apr. 2026

Forschungsfrage

Lakukan riset mendalam tentang benchmark Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6.

Studio Global AI26. Apr. 202632 Quellen

Zitierte Antwort

Berdasarkan bukti yang tersedia, benchmark yang paling bisa dibahas secara konkret hanya untuk Claude Opus 4.7. Untuk GPT-5.5, bukti yang tersedia hanya satu unggahan X tanpa angka benchmark lengkap; untuk DeepSeek V4 dan Kimi K2.6 tidak ada bukti benchmark langsung dalam sumber yang diberikan. Karena itu, perbandingan empat model ini belum bisa dibuat secara kuat; Insufficient evidence untuk klaim komparatif penuh.

Key findings

Claude Opus 4.7 dilaporkan mencetak 87.6% pada SWE-bench Verified, 94.2% pada GPQA, memiliki konteks 1 juta token, peningkatan vision 3.3x, mode effort “xhigh”, dan harga $5/$25 menurut LLM Stats ^[7].
Claude Opus 4.7 juga dilaporkan menempati peringkat #2 dari 110 model pada leaderboard provisional BenchLM dengan skor keseluruhan 97/100, serta peringkat #2 dari 14 pada verified leaderboard ^[4].
Pada GPQA Diamond, laporan The Next Web menyebut Claude Opus 4.7 mencetak 94.2%, GPT-5.4 Pro 94.4%, dan Gemini 3.1 Pro 94.3%; sumber itu menilai selisihnya berada dalam noise dan benchmark ini sudah cenderung jenuh di antara model frontier ^[6].
Untuk coding, bukti yang tersedia mendukung bahwa Claude Opus 4.7 sangat kuat, tetapi angka SWE-bench yang tersedia tidak sepenuhnya konsisten antar-sumber: LLM Stats menyebut 87.6% untuk SWE-bench Verified ^[7], sementara Stanford HAI hanya memberi konteks lebih lama bahwa per Februari 2026 Claude 4.5 Opus high reasoning berada sekitar 76.8% dan model lain seperti KimiK2.5, GPT-5.2, serta Gemini 3 Flash high reasoning berada di kisaran 70–76% ^[1].
Untuk analisis finansial, MindStudio menyebut contoh gap antara skor FinanceBench 82.7% dan kesiapan deployment produksi, tetapi bukti snippet yang tersedia tidak cukup untuk memastikan konteks metodologi, pembanding, atau apakah angka itu diklaim sebagai skor resmi Claude Opus 4.7 ^[3].
Untuk GPT-5.5, satu-satunya bukti langsung yang tersedia adalah unggahan X yang menyatakan GPT-5.5 underperform terhadap Mythos pada SWE-Bench Pro dan HLE, setara pada GPQA Diamond, BrowseComp, dan OSWorld-Verified, serta lebih baik pada Terminal-Bench 2.0 ^[31]. Bukti ini lemah untuk riset benchmark karena tidak menyediakan angka, metodologi, atau sumber primer ^[31].
Untuk DeepSeek V4, tidak ada benchmark langsung dalam bukti yang diberikan; satu-satunya data terkait DeepSeek menyebut DeepSeek V3.2 sebagai #3 rekomendasi coding April 2026 dengan 89.2% SWE-bench menurut MangoMind, bukan DeepSeek V4 ^[2]. Insufficient evidence.
Untuk Kimi K2.6, tidak ada benchmark langsung dalam bukti yang diberikan; Stanford HAI hanya menyebut KimiK2.5 berada dalam kelompok 70–76% pada SWE-bench Verified per Februari 2026, bukan Kimi K2.6 ^[1]. Insufficient evidence.

Perbandingan ringkas

Model	Bukti benchmark langsung	Angka yang tersedia	Kekuatan kesimpulan
Claude Opus 4.7	Ada	SWE-bench Verified 87.6%, GPQA 94.2%, BenchLM 97/100	Sedang, tetapi perlu validasi sumber primer
GPT-5.5	Sangat terbatas	Tidak ada angka; hanya klaim relatif via X	Lemah
DeepSeek V4	Tidak ada	Tidak ada	Insufficient evidence
Kimi K2.6	Tidak ada	Tidak ada	Insufficient evidence

Evidence notes

Sumber paling kuat yang tersedia adalah Stanford HAI karena bersifat teknis dan institusional, tetapi datanya tidak mencakup Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 secara langsung; sumber itu hanya memberi baseline per Februari 2026 untuk Claude 4.5 Opus, KimiK2.5, GPT-5.2, dan model lain ^[1].
LLM Stats, BenchLM, MindStudio, Vellum, The Next Web, dan MangoMind memberikan konteks pasar serta benchmark yang lebih baru, tetapi sebagian tampak sebagai ringkasan pihak ketiga dan bukan dokumentasi primer dari lab model ^[2]^[3]^[4]^[5]^[6]^[7].
Vellum mencantumkan area benchmark untuk Claude Opus 4.7 seperti SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, MCP-Atlas, Finance Agent v1.1, OSWorld-Verified, BrowseComp, GPQA, dan benchmark reasoning lain, tetapi snippet yang tersedia tidak memberikan angka spesifik yang bisa dipakai untuk perbandingan ^[5].
MangoMind menyediakan daftar rekomendasi April 2026 untuk coding, tetapi model yang disebut adalah Claude Opus 4.6, GPT-5.4 Pro, dan DeepSeek V3.2, bukan versi target Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 ^[2].

Limitations / uncertainty

Tidak ada bukti primer dari Anthropic, OpenAI, DeepSeek, atau Moonshot/Kimi dalam evidence yang tersedia, sehingga angka-angka harus diperlakukan sebagai laporan pihak ketiga, bukan hasil resmi yang sepenuhnya terverifikasi.
Tidak tersedia angka benchmark langsung untuk DeepSeek V4 dan Kimi K2.6, sehingga klaim bahwa salah satu lebih unggul dari Claude Opus 4.7 atau GPT-5.5 tidak dapat didukung.
Tidak tersedia angka benchmark lengkap untuk GPT-5.5; unggahan X hanya menyebut perbandingan relatif terhadap Mythos tanpa metodologi dan tanpa skor numerik ^[31].
Ada indikasi pergeseran benchmark: GPQA Diamond tampak hampir jenuh pada model frontier karena Claude Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro berada di sekitar 94.2–94.4% menurut The Next Web ^[6]. Ini berarti benchmark seperti SWE-bench Pro, Terminal-Bench, OSWorld, BrowseComp, dan evaluasi agentic kemungkinan lebih berguna untuk membedakan model, tetapi bukti angka lintas empat model target belum tersedia.

Summary

Claude Opus 4.7 adalah satu-satunya model dalam daftar yang memiliki bukti benchmark cukup konkret: 87.6% pada SWE-bench Verified, 94.2% pada GPQA, dan skor BenchLM 97/100 menurut sumber pihak ketiga ^[7]^[4]. GPT-5.5 hanya memiliki bukti lemah berupa klaim relatif dari X tanpa angka lengkap ^[31]. DeepSeek V4 dan Kimi K2.6 tidak memiliki data benchmark langsung dalam evidence yang tersedia, sehingga status benchmark keduanya adalah Insufficient evidence.

Quellen

[1] AI Benchmarks 2026: Monthly Leaderboards & Rankings | MangoMindmangomindbd.com
5. Monthly Updates AI moves fast. We re-test all models monthly and publish updated rankings to reflect the latest releases. 🎯 Quick Recommendations Best AI for Coding (April 2026) 1. •Claude Opus 4.6 - 93.2% SWE-bench 2. •GPT-5.4 Pro - 91.1% SWE-bench 3....
[2] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[5] Introducing GPT-5.5 | OpenAIopenai.com
Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...
[6] LLM Model Benchmarks 2026 | Siliconflowsiliconflow.com
Model GRIND (%) AIME (%) GPQA (%) SWE Bench (%) MATH 500 (%) BFCL (%) Alder Polyglot (%) --- --- --- --- Kimi K2 Thinking — — 84.5 71.3 — — — GPT 5.1 — — 88.1 76.3 — — — Claude Haiku 4.5 — — 73 73.3 — — — GPT-5 — — 87.3 74.9 — — 88 Claude Opus 4.1 — — 80.9...
[10] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai
METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...
[13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu
On SWE-bench Verified, top models are tightly clustered in the low-to-mid 70s (Figure 2.5.1). As of February 2026, Claude 4.5 Opus (high reasoning) led at approximately 76.8%, with several others including KimiK2.5, GPT-5.2, and Gemini 3 Flash (high reasoni...
[14] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and Financial Analysis | MindStudiomindstudio.ai
This matters for teams evaluating Opus 4.7 for production use because the model’s capability gains are only useful if they’re integrated into something that works end-to-end. The gap between “this model scores 82.7% on FinanceBench” and “we have a deployed...
[17] Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Prothenextweb.com
On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...
[18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com
LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...
[19] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...
[21] SWE-bench Verified Benchmark 2026: 35 LLM scores | BenchLM.aibenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...
[26] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

Trendthemen auf Entdecken

BerichteVeröffentlicht28. Apr. 2026Last edited 6. Mai 202612 Quellen

Claude Opus 4.7 vs. GPT-5.5: Benchmark 2026 und der Status von DeepSeek V4/Kimi K2.6

Suchen und Fakten prüfen mit Studio Global AI Mehr von Entdecken ansehen

17K0

Das Wichtigste in Kürze

GPT-5.5 wirkt in den verfügbaren Daten besonders stark bei Terminal- und CLI-Aufgaben, Office- beziehungsweise Professional-Workflows, Browser-/Suchaufgaben und mehreren Mathematik-Evals ^[5]^[2].
Claude Opus 4.7 liegt vorn bei SWE-Bench Pro Public, MCP Atlas für Tool-Orchestrierung und FinanceAgent v1.1 ^[5]^[2].
DeepSeek V4 und Kimi K2.6 sollten auf Basis dieser Quellen nicht gegen Claude Opus 4.7 oder GPT-5.5 gerankt werden, weil die vorhandenen Zahlen andere Modellversionen betreffen ^[1]^[13]^[6].

Direkt vergleichbare Benchmarks

Anwendungsfrage	Benchmark	Gemeldete Werte	Einordnung
Code-Reparatur in Repositories	SWE-Bench Pro Public	Claude Opus 4.7: 64,3 % vs. GPT-5.5: 58,6 % ^[5]	Claude führt in diesem Coding-Benchmark.
Terminal- oder CLI-Agent	Terminal-Bench 2.0	GPT-5.5: 82,7 % vs. Claude Opus 4.7: 69,4 % ^[5]	Der deutlichste Vorsprung liegt hier bei GPT-5.5.
Professionelle Arbeitsaufgaben	GDPval; OfficeQA Pro	GPT-5.5: 84,9 % vs. Claude: 80,3 % in GDPval; GPT-5.5: 54,1 % vs. Claude: 43,6 % in OfficeQA Pro ^[5]	GPT-5.5 ist in diesen beiden Office-/Professional-Metriken stärker.
Finanz-Agent	FinanceAgent v1.1	Claude: 64,4 % vs. GPT-5.5: 60,0 % ^[5]	Claude liegt in dieser Finance-Agent-Eval vorn.
Computer- und Browser-Aufgaben	OSWorld-Verified; BrowseComp	GPT-5.5: 78,7 % vs. Claude: 78,0 % in OSWorld; GPT-5.5: 84,4 % und GPT-5.5 Pro: 90,1 % vs. Claude: 79,3 % in BrowseComp ^[2]	OSWorld ist nahezu ausgeglichen; bei BrowseComp führt GPT-5.5.
Tool-Orchestrierung	MCP Atlas	Claude: 79,1 % vs. GPT-5.5: 75,3 % ^[2]	Claude wirkt stärker bei tool-lastigen MCP-Szenarien.
Wissenschaftliches und mathematisches Reasoning	GPQA Diamond; FrontierMath T1–3	Claude: 94,2 % vs. GPT-5.5: 93,6 % in GPQA; GPT-5.5: 51,7 % und GPT-5.5 Pro: 52,4 % vs. Claude: 43,8 % in FrontierMath ^[2]	GPQA ist extrem knapp; in FrontierMath liegt GPT-5.5 klarer vorn.

Warum Leaderboards schnell in die Irre führen

1. SWE-Bench Pro ist nicht SWE-bench Verified

2. GPQA Diamond trennt Frontier-Modelle kaum noch

3. Drittanbieter-Leaderboards können abweichen

Claude Opus 4.7: stark bei Repo-Reparatur und Werkzeugketten

GPT-5.5: besonders stark bei Terminal, Browser, Office und Mathematik

DeepSeek V4 und Kimi K2.6: keine direkte Benchmark-Basis

Welche Modelle Teams zuerst testen sollten

Wenn die Hauptanforderung lautet ...	Zuerst testen	Evidenz	Worauf achten
Terminal- oder CLI-Coding-Agent	GPT-5.5	Terminal-Bench 2.0: GPT-5.5 82,7 % vs. Claude 69,4 % ^[5]	Shell-Umgebung, Berechtigungen, interne CI/CD und Sicherheitsgrenzen nachtesten.
Autonome Repo-Reparatur	Claude Opus 4.7, danach GPT-5.5 als Vergleich	SWE-Bench Pro Public: Claude 64,3 % vs. GPT-5.5 58,6 % ^[5]	Nicht mit SWE-bench Verified vermischen, ohne den Harness abzugleichen ^[21].
MCP oder komplexe Multi-Tool-Orchestrierung	Claude Opus 4.7	MCP Atlas: Claude 79,1 % vs. GPT-5.5 75,3 % ^[2]	Tool-Schemata, Retry-Logik, Rechtekonzept und Auditierbarkeit selbst prüfen.
Browser- oder Such-Agent	GPT-5.5 oder GPT-5.5 Pro	BrowseComp: GPT-5.5 84,4 %, GPT-5.5 Pro 90,1 %, Claude 79,3 % ^[2]	BrowseComp ist nicht automatisch repräsentativ für jede interne Rechercheaufgabe.
Finanz- oder Professional-Workflow	Claude und GPT-5.5 gegeneinander testen	Claude führt in FinanceAgent v1.1, GPT-5.5 in GDPval und OfficeQA Pro ^[5]	MindStudio betont, dass die Lücke zwischen Finance-Benchmark und produktivem Tool oft in der End-to-End-Infrastruktur liegt, nicht nur in der Modellintelligenz ^[14].
Allgemeines wissenschaftliches Reasoning	Nicht allein nach GPQA entscheiden	GPQA Diamond liegt bei Claude und GPT-5.5 sehr eng beieinander ^[2]	Besser domänenspezifische Tests nutzen, vor allem wenn die Aufgaben vom Benchmark abweichen.

Fazit

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

Im echten Head to Head führt GPT 5.5 bei Terminal Bench 2.0 mit 82,7 % zu 69,4 %, Claude Opus 4.7 bei SWE Bench Pro Public mit 64,3 % zu 58,6 % [5].
Kein Gesamtsieger: Claude liegt bei MCP Atlas und FinanceAgent v1.1 vorn, GPT 5.5 bei BrowseComp, GDPval, OfficeQA Pro und FrontierMath T1–3 [2][5].
DeepSeek V4 und Kimi K2.6 lassen sich aus diesen Quellen nicht seriös einordnen; verfügbar sind nur Werte zu DeepSeek V3.2, KimiK2.5 und Kimi K2 Thinking [1][13][6].

Die Leute fragen auch

Wie lautet die kurze Antwort auf „Claude Opus 4.7 vs. GPT-5.5: Benchmark 2026 und der Status von DeepSeek V4/Kimi K2.6“?

Im echten Head to Head führt GPT 5.5 bei Terminal Bench 2.0 mit 82,7 % zu 69,4 %, Claude Opus 4.7 bei SWE Bench Pro Public mit 64,3 % zu 58,6 % [5].

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

DeepSeek V4 und Kimi K2.6 lassen sich aus diesen Quellen nicht seriös einordnen; verfügbar sind nur Werte zu DeepSeek V3.2, KimiK2.5 und Kimi K2 Thinking [1][13][6].

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „Claude Opus 4.7 vs. GPT-5.5 vs. DeepSeek V4 vs. Kimi K2.6: Benchmark-Vergleich 2026“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „DeepSeek V4: 1 Mio. Token, MoE und der API-Umstieg“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

Claude Opus 4.7 vs. GPT-5.5 vs. DeepSeek V4 vs. Kimi K2.6: Benchmark-Vergleich 2026

Claude Opus 4.7 vs. GPT-5.5 vs. DeepSeek V4 vs. Kimi K2.6: Benchmarks 2026 im Vergleich

DeepSeek V4: 1 Mio. Token, MoE und der API-Umstieg

DeepSeek V4: Was hinter 1 Mio. Token, MoE und API-Migration steckt

Northwest vs. Southeast Timber: Warum die Antwort „larger; larger“ lautet

Schlägt DeepSeek OpenAI, Claude, Gemini und Grok? Entscheidend sind Kosten und Vertrauen

DeepSeek gegen OpenAI, Claude, Gemini und Grok: Warum Kosten und Vertrauen wichtiger sind als Ranglisten

Forschungsgespräch

Du26. Apr. 2026

Forschungsfrage

Lakukan riset mendalam tentang benchmark Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6.

Studio Global AI26. Apr. 202632 Quellen

Zitierte Antwort

Key findings

Claude Opus 4.7 dilaporkan mencetak 87.6% pada SWE-bench Verified, 94.2% pada GPQA, memiliki konteks 1 juta token, peningkatan vision 3.3x, mode effort “xhigh”, dan harga $5/$25 menurut LLM Stats ^[7].
Claude Opus 4.7 juga dilaporkan menempati peringkat #2 dari 110 model pada leaderboard provisional BenchLM dengan skor keseluruhan 97/100, serta peringkat #2 dari 14 pada verified leaderboard ^[4].
Pada GPQA Diamond, laporan The Next Web menyebut Claude Opus 4.7 mencetak 94.2%, GPT-5.4 Pro 94.4%, dan Gemini 3.1 Pro 94.3%; sumber itu menilai selisihnya berada dalam noise dan benchmark ini sudah cenderung jenuh di antara model frontier ^[6].
Untuk coding, bukti yang tersedia mendukung bahwa Claude Opus 4.7 sangat kuat, tetapi angka SWE-bench yang tersedia tidak sepenuhnya konsisten antar-sumber: LLM Stats menyebut 87.6% untuk SWE-bench Verified ^[7], sementara Stanford HAI hanya memberi konteks lebih lama bahwa per Februari 2026 Claude 4.5 Opus high reasoning berada sekitar 76.8% dan model lain seperti KimiK2.5, GPT-5.2, serta Gemini 3 Flash high reasoning berada di kisaran 70–76% ^[1].
Untuk analisis finansial, MindStudio menyebut contoh gap antara skor FinanceBench 82.7% dan kesiapan deployment produksi, tetapi bukti snippet yang tersedia tidak cukup untuk memastikan konteks metodologi, pembanding, atau apakah angka itu diklaim sebagai skor resmi Claude Opus 4.7 ^[3].
Untuk GPT-5.5, satu-satunya bukti langsung yang tersedia adalah unggahan X yang menyatakan GPT-5.5 underperform terhadap Mythos pada SWE-Bench Pro dan HLE, setara pada GPQA Diamond, BrowseComp, dan OSWorld-Verified, serta lebih baik pada Terminal-Bench 2.0 ^[31]. Bukti ini lemah untuk riset benchmark karena tidak menyediakan angka, metodologi, atau sumber primer ^[31].
Untuk DeepSeek V4, tidak ada benchmark langsung dalam bukti yang diberikan; satu-satunya data terkait DeepSeek menyebut DeepSeek V3.2 sebagai #3 rekomendasi coding April 2026 dengan 89.2% SWE-bench menurut MangoMind, bukan DeepSeek V4 ^[2]. Insufficient evidence.
Untuk Kimi K2.6, tidak ada benchmark langsung dalam bukti yang diberikan; Stanford HAI hanya menyebut KimiK2.5 berada dalam kelompok 70–76% pada SWE-bench Verified per Februari 2026, bukan Kimi K2.6 ^[1]. Insufficient evidence.

Perbandingan ringkas

Model	Bukti benchmark langsung	Angka yang tersedia	Kekuatan kesimpulan
Claude Opus 4.7	Ada	SWE-bench Verified 87.6%, GPQA 94.2%, BenchLM 97/100	Sedang, tetapi perlu validasi sumber primer
GPT-5.5	Sangat terbatas	Tidak ada angka; hanya klaim relatif via X	Lemah
DeepSeek V4	Tidak ada	Tidak ada	Insufficient evidence
Kimi K2.6	Tidak ada	Tidak ada	Insufficient evidence

Evidence notes

Sumber paling kuat yang tersedia adalah Stanford HAI karena bersifat teknis dan institusional, tetapi datanya tidak mencakup Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 secara langsung; sumber itu hanya memberi baseline per Februari 2026 untuk Claude 4.5 Opus, KimiK2.5, GPT-5.2, dan model lain ^[1].
LLM Stats, BenchLM, MindStudio, Vellum, The Next Web, dan MangoMind memberikan konteks pasar serta benchmark yang lebih baru, tetapi sebagian tampak sebagai ringkasan pihak ketiga dan bukan dokumentasi primer dari lab model ^[2]^[3]^[4]^[5]^[6]^[7].
Vellum mencantumkan area benchmark untuk Claude Opus 4.7 seperti SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, MCP-Atlas, Finance Agent v1.1, OSWorld-Verified, BrowseComp, GPQA, dan benchmark reasoning lain, tetapi snippet yang tersedia tidak memberikan angka spesifik yang bisa dipakai untuk perbandingan ^[5].
MangoMind menyediakan daftar rekomendasi April 2026 untuk coding, tetapi model yang disebut adalah Claude Opus 4.6, GPT-5.4 Pro, dan DeepSeek V3.2, bukan versi target Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 ^[2].

Limitations / uncertainty

Tidak ada bukti primer dari Anthropic, OpenAI, DeepSeek, atau Moonshot/Kimi dalam evidence yang tersedia, sehingga angka-angka harus diperlakukan sebagai laporan pihak ketiga, bukan hasil resmi yang sepenuhnya terverifikasi.
Tidak tersedia angka benchmark langsung untuk DeepSeek V4 dan Kimi K2.6, sehingga klaim bahwa salah satu lebih unggul dari Claude Opus 4.7 atau GPT-5.5 tidak dapat didukung.
Tidak tersedia angka benchmark lengkap untuk GPT-5.5; unggahan X hanya menyebut perbandingan relatif terhadap Mythos tanpa metodologi dan tanpa skor numerik ^[31].
Ada indikasi pergeseran benchmark: GPQA Diamond tampak hampir jenuh pada model frontier karena Claude Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro berada di sekitar 94.2–94.4% menurut The Next Web ^[6]. Ini berarti benchmark seperti SWE-bench Pro, Terminal-Bench, OSWorld, BrowseComp, dan evaluasi agentic kemungkinan lebih berguna untuk membedakan model, tetapi bukti angka lintas empat model target belum tersedia.

Summary

Quellen

[1] AI Benchmarks 2026: Monthly Leaderboards & Rankings | MangoMindmangomindbd.com
5. Monthly Updates AI moves fast. We re-test all models monthly and publish updated rankings to reflect the latest releases. 🎯 Quick Recommendations Best AI for Coding (April 2026) 1. •Claude Opus 4.6 - 93.2% SWE-bench 2. •GPT-5.4 Pro - 91.1% SWE-bench 3....
[2] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[5] Introducing GPT-5.5 | OpenAIopenai.com
Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...
[6] LLM Model Benchmarks 2026 | Siliconflowsiliconflow.com
Model GRIND (%) AIME (%) GPQA (%) SWE Bench (%) MATH 500 (%) BFCL (%) Alder Polyglot (%) --- --- --- --- Kimi K2 Thinking — — 84.5 71.3 — — — GPT 5.1 — — 88.1 76.3 — — — Claude Haiku 4.5 — — 73 73.3 — — — GPT-5 — — 87.3 74.9 — — 88 Claude Opus 4.1 — — 80.9...
[10] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai
METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...
[13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu
On SWE-bench Verified, top models are tightly clustered in the low-to-mid 70s (Figure 2.5.1). As of February 2026, Claude 4.5 Opus (high reasoning) led at approximately 76.8%, with several others including KimiK2.5, GPT-5.2, and Gemini 3 Flash (high reasoni...
[14] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and Financial Analysis | MindStudiomindstudio.ai
This matters for teams evaluating Opus 4.7 for production use because the model’s capability gains are only useful if they’re integrated into something that works end-to-end. The gap between “this model scores 82.7% on FinanceBench” and “we have a deployed...
[17] Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Prothenextweb.com
On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...
[18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com
LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...
[19] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...
[21] SWE-bench Verified Benchmark 2026: 35 LLM scores | BenchLM.aibenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...
[26] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

Trendthemen auf Entdecken

BerichteVeröffentlicht28. Apr. 2026Last edited 6. Mai 202612 Quellen

Claude Opus 4.7 vs. GPT-5.5: Benchmark 2026 und der Status von DeepSeek V4/Kimi K2.6

Suchen und Fakten prüfen mit Studio Global AI Mehr von Entdecken ansehen

17K0

Das Wichtigste in Kürze

GPT-5.5 wirkt in den verfügbaren Daten besonders stark bei Terminal- und CLI-Aufgaben, Office- beziehungsweise Professional-Workflows, Browser-/Suchaufgaben und mehreren Mathematik-Evals ^[5]^[2].
Claude Opus 4.7 liegt vorn bei SWE-Bench Pro Public, MCP Atlas für Tool-Orchestrierung und FinanceAgent v1.1 ^[5]^[2].
DeepSeek V4 und Kimi K2.6 sollten auf Basis dieser Quellen nicht gegen Claude Opus 4.7 oder GPT-5.5 gerankt werden, weil die vorhandenen Zahlen andere Modellversionen betreffen ^[1]^[13]^[6].

Direkt vergleichbare Benchmarks

Anwendungsfrage	Benchmark	Gemeldete Werte	Einordnung
Code-Reparatur in Repositories	SWE-Bench Pro Public	Claude Opus 4.7: 64,3 % vs. GPT-5.5: 58,6 % ^[5]	Claude führt in diesem Coding-Benchmark.
Terminal- oder CLI-Agent	Terminal-Bench 2.0	GPT-5.5: 82,7 % vs. Claude Opus 4.7: 69,4 % ^[5]	Der deutlichste Vorsprung liegt hier bei GPT-5.5.
Professionelle Arbeitsaufgaben	GDPval; OfficeQA Pro	GPT-5.5: 84,9 % vs. Claude: 80,3 % in GDPval; GPT-5.5: 54,1 % vs. Claude: 43,6 % in OfficeQA Pro ^[5]	GPT-5.5 ist in diesen beiden Office-/Professional-Metriken stärker.
Finanz-Agent	FinanceAgent v1.1	Claude: 64,4 % vs. GPT-5.5: 60,0 % ^[5]	Claude liegt in dieser Finance-Agent-Eval vorn.
Computer- und Browser-Aufgaben	OSWorld-Verified; BrowseComp	GPT-5.5: 78,7 % vs. Claude: 78,0 % in OSWorld; GPT-5.5: 84,4 % und GPT-5.5 Pro: 90,1 % vs. Claude: 79,3 % in BrowseComp ^[2]	OSWorld ist nahezu ausgeglichen; bei BrowseComp führt GPT-5.5.
Tool-Orchestrierung	MCP Atlas	Claude: 79,1 % vs. GPT-5.5: 75,3 % ^[2]	Claude wirkt stärker bei tool-lastigen MCP-Szenarien.
Wissenschaftliches und mathematisches Reasoning	GPQA Diamond; FrontierMath T1–3	Claude: 94,2 % vs. GPT-5.5: 93,6 % in GPQA; GPT-5.5: 51,7 % und GPT-5.5 Pro: 52,4 % vs. Claude: 43,8 % in FrontierMath ^[2]	GPQA ist extrem knapp; in FrontierMath liegt GPT-5.5 klarer vorn.

Warum Leaderboards schnell in die Irre führen

1. SWE-Bench Pro ist nicht SWE-bench Verified

2. GPQA Diamond trennt Frontier-Modelle kaum noch

3. Drittanbieter-Leaderboards können abweichen

Claude Opus 4.7: stark bei Repo-Reparatur und Werkzeugketten

GPT-5.5: besonders stark bei Terminal, Browser, Office und Mathematik

DeepSeek V4 und Kimi K2.6: keine direkte Benchmark-Basis

Welche Modelle Teams zuerst testen sollten

Wenn die Hauptanforderung lautet ...	Zuerst testen	Evidenz	Worauf achten
Terminal- oder CLI-Coding-Agent	GPT-5.5	Terminal-Bench 2.0: GPT-5.5 82,7 % vs. Claude 69,4 % ^[5]	Shell-Umgebung, Berechtigungen, interne CI/CD und Sicherheitsgrenzen nachtesten.
Autonome Repo-Reparatur	Claude Opus 4.7, danach GPT-5.5 als Vergleich	SWE-Bench Pro Public: Claude 64,3 % vs. GPT-5.5 58,6 % ^[5]	Nicht mit SWE-bench Verified vermischen, ohne den Harness abzugleichen ^[21].
MCP oder komplexe Multi-Tool-Orchestrierung	Claude Opus 4.7	MCP Atlas: Claude 79,1 % vs. GPT-5.5 75,3 % ^[2]	Tool-Schemata, Retry-Logik, Rechtekonzept und Auditierbarkeit selbst prüfen.
Browser- oder Such-Agent	GPT-5.5 oder GPT-5.5 Pro	BrowseComp: GPT-5.5 84,4 %, GPT-5.5 Pro 90,1 %, Claude 79,3 % ^[2]	BrowseComp ist nicht automatisch repräsentativ für jede interne Rechercheaufgabe.
Finanz- oder Professional-Workflow	Claude und GPT-5.5 gegeneinander testen	Claude führt in FinanceAgent v1.1, GPT-5.5 in GDPval und OfficeQA Pro ^[5]	MindStudio betont, dass die Lücke zwischen Finance-Benchmark und produktivem Tool oft in der End-to-End-Infrastruktur liegt, nicht nur in der Modellintelligenz ^[14].
Allgemeines wissenschaftliches Reasoning	Nicht allein nach GPQA entscheiden	GPQA Diamond liegt bei Claude und GPT-5.5 sehr eng beieinander ^[2]	Besser domänenspezifische Tests nutzen, vor allem wenn die Aufgaben vom Benchmark abweichen.

Fazit

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

Im echten Head to Head führt GPT 5.5 bei Terminal Bench 2.0 mit 82,7 % zu 69,4 %, Claude Opus 4.7 bei SWE Bench Pro Public mit 64,3 % zu 58,6 % [5].
Kein Gesamtsieger: Claude liegt bei MCP Atlas und FinanceAgent v1.1 vorn, GPT 5.5 bei BrowseComp, GDPval, OfficeQA Pro und FrontierMath T1–3 [2][5].
DeepSeek V4 und Kimi K2.6 lassen sich aus diesen Quellen nicht seriös einordnen; verfügbar sind nur Werte zu DeepSeek V3.2, KimiK2.5 und Kimi K2 Thinking [1][13][6].

Die Leute fragen auch

Wie lautet die kurze Antwort auf „Claude Opus 4.7 vs. GPT-5.5: Benchmark 2026 und der Status von DeepSeek V4/Kimi K2.6“?

Im echten Head to Head führt GPT 5.5 bei Terminal Bench 2.0 mit 82,7 % zu 69,4 %, Claude Opus 4.7 bei SWE Bench Pro Public mit 64,3 % zu 58,6 % [5].

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

DeepSeek V4 und Kimi K2.6 lassen sich aus diesen Quellen nicht seriös einordnen; verfügbar sind nur Werte zu DeepSeek V3.2, KimiK2.5 und Kimi K2 Thinking [1][13][6].

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „Claude Opus 4.7 vs. GPT-5.5 vs. DeepSeek V4 vs. Kimi K2.6: Benchmark-Vergleich 2026“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „DeepSeek V4: 1 Mio. Token, MoE und der API-Umstieg“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

Forschungsgespräch

Du26. Apr. 2026

Forschungsfrage

Lakukan riset mendalam tentang benchmark Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6.

Studio Global AI26. Apr. 202632 Quellen

Zitierte Antwort

Key findings

Claude Opus 4.7 dilaporkan mencetak 87.6% pada SWE-bench Verified, 94.2% pada GPQA, memiliki konteks 1 juta token, peningkatan vision 3.3x, mode effort “xhigh”, dan harga $5/$25 menurut LLM Stats ^[7].
Claude Opus 4.7 juga dilaporkan menempati peringkat #2 dari 110 model pada leaderboard provisional BenchLM dengan skor keseluruhan 97/100, serta peringkat #2 dari 14 pada verified leaderboard ^[4].
Pada GPQA Diamond, laporan The Next Web menyebut Claude Opus 4.7 mencetak 94.2%, GPT-5.4 Pro 94.4%, dan Gemini 3.1 Pro 94.3%; sumber itu menilai selisihnya berada dalam noise dan benchmark ini sudah cenderung jenuh di antara model frontier ^[6].
Untuk coding, bukti yang tersedia mendukung bahwa Claude Opus 4.7 sangat kuat, tetapi angka SWE-bench yang tersedia tidak sepenuhnya konsisten antar-sumber: LLM Stats menyebut 87.6% untuk SWE-bench Verified ^[7], sementara Stanford HAI hanya memberi konteks lebih lama bahwa per Februari 2026 Claude 4.5 Opus high reasoning berada sekitar 76.8% dan model lain seperti KimiK2.5, GPT-5.2, serta Gemini 3 Flash high reasoning berada di kisaran 70–76% ^[1].
Untuk analisis finansial, MindStudio menyebut contoh gap antara skor FinanceBench 82.7% dan kesiapan deployment produksi, tetapi bukti snippet yang tersedia tidak cukup untuk memastikan konteks metodologi, pembanding, atau apakah angka itu diklaim sebagai skor resmi Claude Opus 4.7 ^[3].
Untuk GPT-5.5, satu-satunya bukti langsung yang tersedia adalah unggahan X yang menyatakan GPT-5.5 underperform terhadap Mythos pada SWE-Bench Pro dan HLE, setara pada GPQA Diamond, BrowseComp, dan OSWorld-Verified, serta lebih baik pada Terminal-Bench 2.0 ^[31]. Bukti ini lemah untuk riset benchmark karena tidak menyediakan angka, metodologi, atau sumber primer ^[31].
Untuk DeepSeek V4, tidak ada benchmark langsung dalam bukti yang diberikan; satu-satunya data terkait DeepSeek menyebut DeepSeek V3.2 sebagai #3 rekomendasi coding April 2026 dengan 89.2% SWE-bench menurut MangoMind, bukan DeepSeek V4 ^[2]. Insufficient evidence.
Untuk Kimi K2.6, tidak ada benchmark langsung dalam bukti yang diberikan; Stanford HAI hanya menyebut KimiK2.5 berada dalam kelompok 70–76% pada SWE-bench Verified per Februari 2026, bukan Kimi K2.6 ^[1]. Insufficient evidence.

Perbandingan ringkas

Model	Bukti benchmark langsung	Angka yang tersedia	Kekuatan kesimpulan
Claude Opus 4.7	Ada	SWE-bench Verified 87.6%, GPQA 94.2%, BenchLM 97/100	Sedang, tetapi perlu validasi sumber primer
GPT-5.5	Sangat terbatas	Tidak ada angka; hanya klaim relatif via X	Lemah
DeepSeek V4	Tidak ada	Tidak ada	Insufficient evidence
Kimi K2.6	Tidak ada	Tidak ada	Insufficient evidence

Evidence notes

Sumber paling kuat yang tersedia adalah Stanford HAI karena bersifat teknis dan institusional, tetapi datanya tidak mencakup Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 secara langsung; sumber itu hanya memberi baseline per Februari 2026 untuk Claude 4.5 Opus, KimiK2.5, GPT-5.2, dan model lain ^[1].
LLM Stats, BenchLM, MindStudio, Vellum, The Next Web, dan MangoMind memberikan konteks pasar serta benchmark yang lebih baru, tetapi sebagian tampak sebagai ringkasan pihak ketiga dan bukan dokumentasi primer dari lab model ^[2]^[3]^[4]^[5]^[6]^[7].
Vellum mencantumkan area benchmark untuk Claude Opus 4.7 seperti SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, MCP-Atlas, Finance Agent v1.1, OSWorld-Verified, BrowseComp, GPQA, dan benchmark reasoning lain, tetapi snippet yang tersedia tidak memberikan angka spesifik yang bisa dipakai untuk perbandingan ^[5].
MangoMind menyediakan daftar rekomendasi April 2026 untuk coding, tetapi model yang disebut adalah Claude Opus 4.6, GPT-5.4 Pro, dan DeepSeek V3.2, bukan versi target Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 ^[2].

Limitations / uncertainty

Tidak ada bukti primer dari Anthropic, OpenAI, DeepSeek, atau Moonshot/Kimi dalam evidence yang tersedia, sehingga angka-angka harus diperlakukan sebagai laporan pihak ketiga, bukan hasil resmi yang sepenuhnya terverifikasi.
Tidak tersedia angka benchmark langsung untuk DeepSeek V4 dan Kimi K2.6, sehingga klaim bahwa salah satu lebih unggul dari Claude Opus 4.7 atau GPT-5.5 tidak dapat didukung.
Tidak tersedia angka benchmark lengkap untuk GPT-5.5; unggahan X hanya menyebut perbandingan relatif terhadap Mythos tanpa metodologi dan tanpa skor numerik ^[31].
Ada indikasi pergeseran benchmark: GPQA Diamond tampak hampir jenuh pada model frontier karena Claude Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro berada di sekitar 94.2–94.4% menurut The Next Web ^[6]. Ini berarti benchmark seperti SWE-bench Pro, Terminal-Bench, OSWorld, BrowseComp, dan evaluasi agentic kemungkinan lebih berguna untuk membedakan model, tetapi bukti angka lintas empat model target belum tersedia.

Summary

Quellen

[1] AI Benchmarks 2026: Monthly Leaderboards & Rankings | MangoMindmangomindbd.com
5. Monthly Updates AI moves fast. We re-test all models monthly and publish updated rankings to reflect the latest releases. 🎯 Quick Recommendations Best AI for Coding (April 2026) 1. •Claude Opus 4.6 - 93.2% SWE-bench 2. •GPT-5.4 Pro - 91.1% SWE-bench 3....
[2] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[5] Introducing GPT-5.5 | OpenAIopenai.com
Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...
[6] LLM Model Benchmarks 2026 | Siliconflowsiliconflow.com
Model GRIND (%) AIME (%) GPQA (%) SWE Bench (%) MATH 500 (%) BFCL (%) Alder Polyglot (%) --- --- --- --- Kimi K2 Thinking — — 84.5 71.3 — — — GPT 5.1 — — 88.1 76.3 — — — Claude Haiku 4.5 — — 73 73.3 — — — GPT-5 — — 87.3 74.9 — — 88 Claude Opus 4.1 — — 80.9...
[10] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai
METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...
[13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu
On SWE-bench Verified, top models are tightly clustered in the low-to-mid 70s (Figure 2.5.1). As of February 2026, Claude 4.5 Opus (high reasoning) led at approximately 76.8%, with several others including KimiK2.5, GPT-5.2, and Gemini 3 Flash (high reasoni...
[14] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and Financial Analysis | MindStudiomindstudio.ai
This matters for teams evaluating Opus 4.7 for production use because the model’s capability gains are only useful if they’re integrated into something that works end-to-end. The gap between “this model scores 82.7% on FinanceBench” and “we have a deployed...
[17] Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Prothenextweb.com
On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...
[18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com
LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...
[19] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...
[21] SWE-bench Verified Benchmark 2026: 35 LLM scores | BenchLM.aibenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...
[26] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...