studioglobal
인기 있는 발견
답변게시됨14 소스

GPT-5.5 vs. Claude Opus 4.7 vs. DeepSeek V4 vs. Kimi K2.6: Wer gewinnt welchen Benchmark?

Öffentliche Benchmarks liefern keinen sauberen Gesamtsieger: GPT 5.5 liegt im Terminal Bench 2.0 bei 82,7 %, Claude Opus 4.7 bei SWE Bench Pro und Verified mit 64,3 % bzw. Kimi K2.6 wird mit SWE Bench Pro 58,6 %, SWE Bench Verified 80,2 % und Terminal Bench 2.0 66,7 % geführt.

17K0
네 개의 AI 모델 벤치마크 점수를 비교하는 추상적인 대시보드 일러스트
GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다AI 생성 이미지. 네 모델의 공개 벤치마크 비교를 상징적으로 표현했습니다.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다. Article summary: 종합 1위는 보류가 맞습니다. 공개값 기준으로 GPT 5.5는 Terminal Bench 2.0 82.7%, Claude Opus 4.7은 SWE Bench Pro 64.3%·SWE Bench Verified 87.6%가 강하지만, 네 모델을 같은 하네스로 평가한 독립 비교는 부족합니다 [19][27][5].. Topic tags: ai, benchmarks, openai, chatgpt, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and Kimi K2.6 Changes Everything" Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownun

openai.com

Öffentliche Benchmarks sprechen hier keine einfache Sprache. GPT-5.5 und Claude Opus 4.7 lassen sich in mehreren Tabellen relativ direkt gegenüberstellen. Bei Kimi K2.6 stammen einige Werte aus Modellkarten oder separaten Test-Harnesses; bei DeepSeek V4 fehlen für wichtige Coding-Benchmarks ausreichend gemeinsame Zahlen in den vorliegenden Quellen [1][2][5][6].

Für die praktische Auswahl ist deshalb nicht die Frage entscheidend, welches Modell abstrakt das beste ist. Wichtiger ist: Welches Modell sollte für eine konkrete Aufgabe zuerst in den eigenen Testlauf?

Die schnelle Einordnung

  • Terminal- und Kommandozeilen-Agenten: GPT-5.5 ist der naheliegende erste Kandidat. OpenAI nennt 82,7 % im Terminal-Bench 2.0; öffentliche Vergleichstabellen führen Claude Opus 4.7 mit 69,4 % und Kimi K2.6 mit 66,7 % [19][8][13][6].
  • GitHub-Issues, Code-Reparatur und Review-nahe Aufgaben: Claude Opus 4.7 ist der stärkste erste Kandidat. Öffentlich berichtet werden 64,3 % im SWE-Bench Pro und 87,6 % im SWE-Bench Verified; GPT-5.5 liegt im SWE-Bench Pro bei 58,6 % [27][19].
  • Lange multimodale Kontexte: Kimi K2.6 gehört auf die Shortlist, wenn lange Eingaben mit Text, Bildern oder Video wichtig sind. Das Modell wird mit Text-, Bild- und Videoeingaben sowie einer 256k-Kontext-Route beschrieben [7].
  • Kostenkritische Massenaufrufe: DeepSeek V4 fällt preislich auf. Mashable nennt pro 1 Million Token 1,74 US-Dollar für Eingaben und 3,48 US-Dollar für Ausgaben; bei GPT-5.5 sind es 5 bzw. 30 US-Dollar, bei Claude Opus 4.7 5 bzw. 25 US-Dollar [3].

Zentrale Benchmarks im Überblick

Das in der Tabelle bedeutet: In den bereitgestellten öffentlichen Quellen lässt sich für dieses Modell kein direkt passender Wert für denselben Benchmark sicher zuordnen. Es heißt nicht, dass das Modell die Aufgabe grundsätzlich nicht bewältigen kann.

BenchmarkGPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4Einordnung
Terminal-Bench 2.082,7 % [19]69,4 % [8][13]66,7 % [6]Für Terminal- und Kommandozeilen-Workflows ist GPT-5.5 der klarste öffentliche Spitzenwert.
SWE-Bench Pro58,6 % [19]64,3 % [27]58,6 % [1][6]Bei realitätsnaher Code-Reparatur und GitHub-Issue-Lösung führt Claude Opus 4.7.
SWE-Bench Verified87,6 % [27]80,2 % [1][6]In den vorliegenden Quellen sind hier vor allem Claude Opus 4.7 und Kimi K2.6 vergleichbar belegt.
GPQA Diamond93,6 % [8][13]94,2 % [8][13]GPT-5.5 und Claude Opus 4.7 liegen sehr nah beieinander; der öffentliche Wert für Claude ist leicht höher.
Humanity’s Last Exam mit Tools52,2 % [8]54,7 % [8][29]54,0 % [6]Claude und Kimi liegen hier knapp vor GPT-5.5; bei Kimi können die Vergleichsbedingungen abweichen [6].
BrowseComp84,4 % [8][13]79,3 % [8][13]Bei Websuche- und Browsing-orientierten Bewertungen liegt GPT-5.5 vorn.
OSWorld-Verified78,7 % [13]78,0 % [13]Der Abstand ist gering.
MCP Atlas75,3 % [13]79,1 % [13]Bei MCP- und Tool-Anbindung hat Claude Opus 4.7 den höheren öffentlichen Wert.

Was die einzelnen Modelle nahelegen

GPT-5.5: stark bei langen Terminal-Abläufen

OpenAI bezeichnet GPT-5.5 als bisher stärkstes agentisches Coding-Modell des Unternehmens und nennt 82,7 % im Terminal-Bench 2.0 sowie 58,6 % im SWE-Bench Pro [19]. Terminal-Bench 2.0 prüft laut OpenAI komplexe Kommandozeilen-Workflows mit Planung, Iteration und Tool-Koordination; SWE-Bench Pro misst die Lösung realer GitHub-Issues [19].

Das spricht dafür, GPT-5.5 zuerst zu testen, wenn ein Agent längere Shell-Sitzungen, Sandbox-Ausführungen, CI-Reproduktionen oder Dateiänderungen Schritt für Schritt erledigen soll. Der Vorsprung gilt aber nicht für jede Coding-Aufgabe: Im SWE-Bench Pro liegt Claude Opus 4.7 mit 64,3 % über den 58,6 % von GPT-5.5 [27][19].

Claude Opus 4.7: besonders interessant für Code-Reparatur und Review-Workflows

Claude Opus 4.7 wird mit 64,3 % im SWE-Bench Pro und 87,6 % im SWE-Bench Verified ausgewiesen [27]. DataCamp beschreibt außerdem, dass Opus 4.7 über 14 Benchmarks hinweg bewertet wurde, darunter Coding, Reasoning, Tool-Nutzung, Computer Use und visuelles Schließen [27].

Im direkten öffentlichen Vergleich mit GPT-5.5 liegt Claude Opus 4.7 unter anderem bei GPQA Diamond mit 94,2 % zu 93,6 % und bei MCP Atlas mit 79,1 % zu 75,3 % vorne [8][13]. Umgekehrt hat GPT-5.5 bei Terminal-Bench 2.0 und BrowseComp die höheren Werte [8][13][19]. Claude Opus 4.7 wirkt daher weniger wie der pauschale Terminal-Automat, sondern eher wie ein sehr starker Kandidat für echte Issue-Behebung, Code-Review und strukturierte Reparaturarbeit.

Kimi K2.6: attraktiv für lange multimodale Eingaben, aber die Benchmarks brauchen Kontext

Kimi K2.6 wird mit 58,6 % im SWE-Bench Pro und 80,2 % im SWE-Bench Verified geführt; eine weitere Übersicht nennt außerdem 66,7 % im Terminal-Bench 2.0 und 54,0 % bei HLE mit Tools [1][6]. Dieselbe Übersicht verweist jedoch darauf, dass die K2.6-Werte aus der offiziellen Moonshot-AI-Modellkarte stammen und der SWE-Bench-Pro-Wert über einen Moonshot-in-house-Harness läuft [6].

Die identische Zahl von 58,6 % im SWE-Bench Pro bei Kimi K2.6 und GPT-5.5 sollte deshalb nicht automatisch als perfektes Unentschieden unter gleichen Bedingungen gelesen werden [1][6][19]. Der stärkere Produktgrund für Kimi K2.6 liegt an anderer Stelle: Das Modell wird mit Text-, Bild- und Videoeingaben sowie einer 256k-Kontext-Route beschrieben [7]. Wer sehr lange multimodale Eingaben auswerten will, sollte es gesondert prüfen.

DeepSeek V4: preislich auffällig, aber Genauigkeit muss separat geprüft werden

DeepSeek V4 passt in diese Gegenüberstellung nicht so sauber in die Benchmark-Tabelle. Für Terminal-Bench 2.0, SWE-Bench Pro, SWE-Bench Verified oder GPQA Diamond liefern die vorliegenden Quellen nicht genügend direkt vergleichbare Werte. Artificial Analysis berichtet stattdessen, dass DeepSeek V4 Pro Max bei AA-Omniscience -10 erreicht und damit um 11 Punkte besser als V3.2 abschneidet; V4 Flash Max liegt bei -23 [2]. Dieselbe Quelle meldet für V4 Pro und V4 Flash sehr hohe Halluzinationsraten von 94 % bzw. 96 % und interpretiert das so, dass die Modelle nahezu immer antworten, auch wenn sie etwas nicht wissen [2].

Technisch und wirtschaftlich gibt es dennoch Gründe, DeepSeek V4 anzuschauen. DataCamp beschreibt DeepSeek V4 als Mixture-of-Experts-Modell: Die Pro-Variante habe 1,6 Billionen Gesamtparameter, davon 49 Milliarden aktiv; die Flash-Variante 284 Milliarden Gesamtparameter, davon 13 Milliarden aktiv [4]. Die von Mashable zusammengefassten API-Preise liegen zudem deutlich unter GPT-5.5 und Claude Opus 4.7 [3].

Damit ist DeepSeek V4 vor allem ein Kandidat für kostenkritische Stapelverarbeitung, intern überprüfbare Workflows oder Open-Weights-nahe Evaluierungen. Bei Produkten, in denen falsche Antworten teuer werden, sind jedoch eigene Tests, Nachprüfung, Fehlererkennung und gegebenenfalls Post-Processing Pflicht [2][3][4].

Welche Aufgabe passt zu welchem ersten Test?

EinsatzfallZuerst testenBegründung
Lange Terminal-Automatisierung, Shell-Agenten, CI-ReproduktionGPT-5.5Terminal-Bench 2.0: GPT-5.5 82,7 %, Claude Opus 4.7 69,4 %, Kimi K2.6 66,7 % [19][8][13][6].
Reale GitHub-Issues, Code-Reparatur, SWE-Bench-nahe WorkflowsClaude Opus 4.7Claude Opus 4.7 wird mit 64,3 % im SWE-Bench Pro und 87,6 % im SWE-Bench Verified berichtet [27].
Browsing und Web-RechercheGPT-5.5BrowseComp: GPT-5.5 84,4 %, Claude Opus 4.7 79,3 % [8][13].
MCP- und Tool-IntegrationClaude Opus 4.7MCP Atlas: Claude Opus 4.7 79,1 %, GPT-5.5 75,3 % [13].
Lange multimodale KontexteKimi K2.6Kimi K2.6 wird mit Text-, Bild- und Videoeingaben sowie einer 256k-Kontext-Route beschrieben [7].
Kostenkritische API-MassenaufrufeDeepSeek V4DeepSeek V4 hat laut Mashable niedrigere Tokenpreise als GPT-5.5 und Claude Opus 4.7; die von Artificial Analysis gemeldeten Halluzinationsraten müssen aber mitbewertet werden [2][3].

Warum es keinen sauberen Gesamtgewinner gibt

Erstens fehlt in den bereitgestellten Quellen ein durchgängiger unabhängiger Vierer-Vergleich mit denselben Prompts, denselben Tools, demselben Reasoning-Budget und demselben Scorer. GPT-5.5 und Claude Opus 4.7 haben relativ viele gemeinsame öffentliche Werte. Bei Kimi K2.6 kommen Modellkarten- und in-house-Harness-Werte hinzu; bei DeepSeek V4 bleiben mehrere gemeinsame Benchmark-Zeilen leer [1][2][5][6].

Zweitens kann derselbe Benchmarkname unterschiedliche Testbedingungen verbergen. Eine Auswertung zu GPT-5.5 und Claude Opus 4.7 kommt zwar auf gemeinsame Benchmarks, betont aber, dass die Werte eher in der Form vergleichbar sind, nicht zwingend in der Methodik [5]. Anthropic nennt für Terminal-Bench 2.0 etwa den Terminus-2-Harness, deaktiviertes Thinking und eine bestimmte 1× garantierte bzw. 3× maximale Ressourcenzuteilung [31].

Drittens ist ein Benchmarkwert nur ein Ausschnitt der Produktqualität. In der Praxis zählen auch Fehlermuster, Halluzinationsrate, Latenz, Kosten, Stabilität von Tool-Aufrufen, Sicherheitsregeln und Reproduzierbarkeit der Logs. ExplainX weist ebenfalls darauf hin, dass Benchmarkdefinitionen, Prompts und Tool-Policies die Werte verschieben können und eigene Evaluierungs-Harnesses nicht ersetzen [28].

Fazit

Nach den derzeit öffentlich belegten Zahlen ist die sinnvollste Startstrategie: GPT-5.5 für Terminal- und Agenten-Coding, Claude Opus 4.7 für SWE-Bench-nahe Code-Reparatur, Kimi K2.6 für lange multimodale Kontexte und DeepSeek V4 für kostenkritische Massenaufrufe mit strenger Nachprüfung [19][27][7][3]. Einen endgültigen Gesamtsieger auszurufen, wäre dagegen zu grob. Dafür unterscheiden sich Prompts, Tool-Zugriff, Reasoning-Einstellungen und Test-Harnesses zu stark [5][28][31].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • Öffentliche Benchmarks liefern keinen sauberen Gesamtsieger: GPT 5.5 liegt im Terminal Bench 2.0 bei 82,7 %, Claude Opus 4.7 bei SWE Bench Pro und Verified mit 64,3 % bzw.
  • Kimi K2.6 wird mit SWE Bench Pro 58,6 %, SWE Bench Verified 80,2 % und Terminal Bench 2.0 66,7 % geführt.
  • DeepSeek V4 fällt vor allem über niedrige API Preise auf. Gleichzeitig fehlen für diese Gegenüberstellung viele direkt vergleichbare Coding Benchmark Zahlen, und Artificial Analysis meldet sehr hohe Halluzinationsrate...

사람들은 또한 묻습니다.

"GPT-5.5 vs. Claude Opus 4.7 vs. DeepSeek V4 vs. Kimi K2.6: Wer gewinnt welchen Benchmark?"에 대한 짧은 대답은 무엇입니까?

Öffentliche Benchmarks liefern keinen sauberen Gesamtsieger: GPT 5.5 liegt im Terminal Bench 2.0 bei 82,7 %, Claude Opus 4.7 bei SWE Bench Pro und Verified mit 64,3 % bzw.

먼저 검증할 핵심 포인트는 무엇인가요?

Öffentliche Benchmarks liefern keinen sauberen Gesamtsieger: GPT 5.5 liegt im Terminal Bench 2.0 bei 82,7 %, Claude Opus 4.7 bei SWE Bench Pro und Verified mit 64,3 % bzw. Kimi K2.6 wird mit SWE Bench Pro 58,6 %, SWE Bench Verified 80,2 % und Terminal Bench 2.0 66,7 % geführt.

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4 fällt vor allem über niedrige API Preise auf. Gleichzeitig fehlen für diese Gegenüberstellung viele direkt vergleichbare Coding Benchmark Zahlen, und Artificial Analysis meldet sehr hohe Halluzinationsrate...

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 벤치마크를 비교해 주세요.

Studio Global AI34 소스

인용 답변

요약하면, 공개적으로 확인 가능한 “동일 조건” 벤치마크만 놓고 보면 GPT-5.5는 터미널/에이전트 코딩, Claude Opus 4.7은 SWE-Bench Pro·Verified와 추론 계열에서 강합니다. DeepSeek V4와 Kimi K2.6은 공개 수치가 흩어져 있어 4개 모델을 한 표로 공정하게 순위화하기에는 근거가 부족합니다.

항목GPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6
Terminal-Bench 2.082.7%69.4%공개 비교 근거 부족약 66%대로 보도됨
SWE-Bench Pro58.6%64.3%공개 비교 근거 부족58.6%
SWE-Bench Verified공개 수치 확인 부족87.6%공개 비교 근거 부족80.2%
GPQA Diamond0.94/1로 집계된 자료 있음94.2%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
HLEGPT-5.5와 Opus 4.7 비교 자료에서 항목 존재46.9%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
기타OSWorld, BrowseComp, CyberGym 등에서 GPT-5.5가 앞선다는 비교가 있음FinanceAgent, MCP Atlas 등에서 Opus 4.7이 앞선다는 비교가 있음Artificial Analysis 기준 AA-Omniscience 개선이 보고됐지만 환각률이 매우 높다는 지적도 있음텍스트·이미지·비디오 입력과 256k 컨텍스트 지원으로 소개됨
  • GPT-5.5는 OpenAI 발표 기준 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록한 것으로 확인됩니다 [15].
  • Claude Opus 4.7은 여러 비교 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 69.4%, GPQA Diamond 94.2%로 제시됩니다 [3].
  • GPT-5.5와 Claude Opus 4.7만 비교하면, 한 집계 자료는 공통 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 요약합니다 [12].
  • Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개된 자료가 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4와 완전히 같은 하네스에서 비교됐는지는 명확하지 않습니다 [15][4].
  • DeepSeek V4는 Artificial Analysis에서 V4 Pro와 V4 Flash의 지식·환각 관련 평가가 언급되지만, 위 표의 SWE-Bench Pro, Terminal-Bench, GPQA, HLE와 직접 대응되는 공개 비교 수치는 충분하지 않습니다 [7].

결론적으로 “벤치마크 승자”를 하나로 고르면 왜곡될 수 있습니다.

  • 에이전트 터미널 작업: GPT-5.5 우세로 볼 근거가 가장 강합니다 [15].
  • 실전 GitHub 이슈 해결/SWE-Bench 계열: Claude Opus 4.7 우세로 볼 근거가 강합니다 [3][12].
  • 비용 대비 성능/오픈웨이트 계열: DeepSeek V4와 Kimi K2.6을 검토할 만하지만, 동일 벤치마크 공개 근거는 부족합니다 [7][4].
  • 종합 순위: Insufficient evidence. 4개 모델 모두를 같은 프롬프트, 같은 도구 사용 조건, 같은 채점기로 평가한 독립 벤치마크가 필요합니다.

출처

  • [1] Claude Opus 4.7 vs Kimi K2.6 - Detailed Performance & Feature Comparisondocsbot.ai

    SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups Not available 80.2% SWE-Bench Verified, thinking mode Source SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...

  • [2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [4] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com

    How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...

  • [5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com

    The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...

  • [6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai

    Official Contract Lanes Official rows keep the comparison honest. Kimi's K2.6 pricing page says K2.6 is the latest and smartest Kimi model, supports text, image, and video input, and has a 256k context route. DeepSeek's pricing page lists deepseek-v4-flash...

  • [8] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [13] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [19] Introducing GPT-5.5 - OpenAIopenai.com

    Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...

  • [27] Claude Opus 4.7: Anthropic's New Best (Available) Model - DataCampdatacamp.com

    Claude Opus 4.7 Benchmarks Opus 4.7 was evaluated across 14 benchmarks covering coding, reasoning, tool use, computer use, and visual reasoning. The table below shows the full comparison with Opus 4.6, GPT 5.4, Gemini 3.1 Pro, and the not-yet-published Myth...

  • [28] Claude Opus 4.7: Anthropic’s new flagship, benchmarks, and how it compares to Sonnet & Haiku | explainx.ai Blog | explainx.aiexplainx.ai

    \Percentages are as printed on Anthropic’s benchmark figure; leaderboard definitions, prompts, and tool policies can move scores over time—treat this as a snapshot, not a substitute for your eval harness. Reading the table pragmatically Agentic coding (SWE-...

  • [29] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com

    Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...

  • [31] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table. MCP-Atlas: The Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI. SWE-bench Verified, Pro, and...