studioglobal
인기 있는 발견
답변게시됨14 소스

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6:ベンチマーク別の勝者

公開ベンチマークだけで4モデルの総合1位を断定するのはまだ早い状況です。GPT 5.5はTerminal Bench 2.0で82.7%、Claude Opus 4.7はSWE Bench Proで64.3%、SWE Bench Verifiedで87.6%と強みが分かれますが、4モデルを同じ評価ハーネスでそろえた独立比較は不足しています [19][27][5]。 Kimi K2.6はSWE Bench Pro 58.6%、SWE Bench Verified 80.2%、Terminal Bench 2.0 66.7%などの値が紹介されていますが、モデルカードやin house harness由来の数値をGPT 5.5やCl...

17K0
네 개의 AI 모델 벤치마크 점수를 비교하는 추상적인 대시보드 일러스트
GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다AI 생성 이미지. 네 모델의 공개 벤치마크 비교를 상징적으로 표현했습니다.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다. Article summary: 종합 1위는 보류가 맞습니다. 공개값 기준으로 GPT 5.5는 Terminal Bench 2.0 82.7%, Claude Opus 4.7은 SWE Bench Pro 64.3%·SWE Bench Verified 87.6%가 강하지만, 네 모델을 같은 하네스로 평가한 독립 비교는 부족합니다 [19][27][5].. Topic tags: ai, benchmarks, openai, chatgpt, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and Kimi K2.6 Changes Everything" Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownun

openai.com

公開ベンチマークだけを見ると、GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6を単純な「最強ランキング」に並べるのは難しい状況です。GPT-5.5とClaude Opus 4.7は同じ表で比較できる公開値が比較的多い一方、Kimi K2.6はモデルカードや別ハーネスの値が混ざり、DeepSeek V4は主要コーディングベンチマークで共通の公開値が十分ではありません [1][2][5][6]

そのため、見るべきポイントは「どのモデルが総合1位か」ではなく、「自分の作業ではどのモデルから検証するか」です。

先に結論:用途ごとの有力候補

  • ターミナル型エージェントコーディング:まずGPT-5.5を試す価値があります。OpenAIはGPT-5.5がTerminal-Bench 2.0で82.7%を記録したと説明しており、公開比較ではClaude Opus 4.7が69.4%、Kimi K2.6が66.7%です [19][8][13][6]
  • 実際のGitHub issue解決・コード修正:Claude Opus 4.7が有力な第一候補です。公開資料ではSWE-Bench Pro 64.3%、SWE-Bench Verified 87.6%が報告され、GPT-5.5のSWE-Bench Pro 58.6%を上回ります [27][19]
  • 長いマルチモーダル入力:Kimi K2.6を候補に入れられます。Kimi K2.6はテキスト、画像、動画入力と256kコンテキスト対応ルートをサポートすると紹介されています [7]
  • コスト重視の大量API呼び出し:DeepSeek V4が価格面で目立ちます。Mashableが整理したAPI価格では、100万トークンあたりDeepSeek V4は入力1.74米ドル・出力3.48米ドル、GPT-5.5は入力5米ドル・出力30米ドル、Claude Opus 4.7は入力5米ドル・出力25米ドルです [3]

主要ベンチマーク早見表

下の表の「—」は、提供された公開情報の範囲で同じベンチマークに直接対応する値を確認しにくい、という意味です。そのモデルがその作業をできないという意味ではありません。

ベンチマークGPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4読み方
Terminal-Bench 2.082.7% [19]69.4% [8][13]66.7% [6]ターミナルやコマンドライン中心のワークフローでは、GPT-5.5の公開値が最も高いです。
SWE-Bench Pro58.6% [19]64.3% [27]58.6% [1][6]実際のGitHub issueに近いコード修正では、Claude Opus 4.7が上回ります。
SWE-Bench Verified87.6% [27]80.2% [1][6]提供情報の範囲ではClaude Opus 4.7とKimi K2.6の値が確認できます。
GPQA Diamond93.6% [8][13]94.2% [8][13]GPT-5.5とClaude Opus 4.7は非常に近く、公開値ではClaudeがわずかに上です。
HLE with tools52.2% [8]54.7% [8][29]54.0% [6]ClaudeとKimiの値が高いものの、Kimiは評価条件が別の可能性があります [6]
BrowseComp84.4% [8][13]79.3% [8][13]ブラウジングやWeb探索型の評価では、GPT-5.5の公開値が上です。
OSWorld-Verified78.7% [13]78.0% [13]GPT-5.5とClaude Opus 4.7の差は小さいです。
MCP Atlas75.3% [13]79.1% [13]MCPやツール連携型の評価では、Claude Opus 4.7が上回ります。

GPT-5.5:長いターミナル作業の自動化に強い候補

OpenAIは、GPT-5.5がTerminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を記録したと発表しています [19]。同社の説明では、Terminal-Bench 2.0は計画、反復、ツール調整を必要とする複雑なコマンドラインワークフローを評価し、SWE-Bench Proは現実のGitHub issue解決能力を見るベンチマークです [19]

このためGPT-5.5は、サンドボックス内での実行、シェルコマンドの反復、CIの再現、ファイル生成・修正のように、長めのターミナルセッションを伴うワークロードで先に試しやすいモデルです。ただし、SWE-Bench ProではClaude Opus 4.7の64.3%がGPT-5.5の58.6%を上回っており、すべてのコーディング作業でGPT-5.5が優位とは言えません [19][27]

Claude Opus 4.7:コード修正とレビュー型タスクで有力

Claude Opus 4.7は、SWE-Bench Proで64.3%、SWE-Bench Verifiedで87.6%と報告されています [27]。DataCampは、Opus 4.7がコーディング、推論、ツール使用、コンピューター使用、視覚推論を含む14のベンチマークで評価されたとまとめています [27]

GPT-5.5との共通比較では、Claude Opus 4.7はGPQA Diamondで94.2%対93.6%、MCP Atlasで79.1%対75.3%と上回ります [8][13]。一方、Terminal-Bench 2.0とBrowseCompではGPT-5.5のほうが高い公開値を示します [8][13][19]。つまりClaude Opus 4.7は、ターミナル自動化全般の絶対的な勝者というより、実際のissue解決、コード修正、レビュー型作業で最初に検証したいモデルと見るのが自然です。

Kimi K2.6:長いマルチモーダル入力は魅力、ただし評価条件に注意

Kimi K2.6は、SWE-Bench Pro 58.6%、SWE-Bench Verified 80.2%と紹介されており、別のガイドではTerminal-Bench 2.0 66.7%、HLE with tools 54.0%も示されています [1][6]。ただし、そのガイドはK2.6の数値についてMoonshot AIの公式モデルカードを出典とし、SWE-Bench ProにはMoonshotのin-house harnessという注記を付けています [6]

そのため、Kimi K2.6のSWE-Bench Pro 58.6%がGPT-5.5の58.6%と数字上は同じでも、完全に同じ評価ハーネスでの同率と断定するのは避けるべきです [1][6][19]。一方で、Kimi K2.6はテキスト、画像、動画入力と256kコンテキスト対応ルートをサポートすると紹介されているため、長いマルチモーダル入力が重要なプロダクトでは別枠で試す価値があります [7]

DeepSeek V4:価格は強いが、精度検証が前提

DeepSeek V4については、この比較表にあるTerminal-Bench、SWE-Bench Pro、SWE-Bench Verified、GPQA Diamondなどへ直接入れられる共通の公開値が、提供情報の範囲では十分ではありません。代わりにArtificial Analysisは、DeepSeek V4 Pro MaxがAA-Omniscienceで-10を記録し、V3.2から11ポイント改善したこと、V4 Flash Maxは-23だったことを説明しています [2]。同じ出典は、V4 ProとV4 Flashのハルシネーション率をそれぞれ94%、96%と報告し、知らない場合でもほぼ常に答えてしまう傾向があると解釈しています [2]

一方で、構造と価格には検討材料があります。DataCampは、DeepSeek V4がMixture of Experts構造を採用し、Proモデルは総パラメーター1.6兆のうち490億がアクティブ、Flashモデルは総パラメーター2,840億のうち130億がアクティブだと説明しています [4]。また、Mashableが整理したAPI価格では、DeepSeek V4はGPT-5.5やClaude Opus 4.7より低価格です [3]

したがってDeepSeek V4は、コスト感度の高い大量処理、内部検証をかけられるワークフロー、低価格なAPI運用の候補になり得ます。ただし、高いハルシネーション率の報告と共通ベンチマークの空白を合わせて見ると、正確性が重要なプロダクトでは独自評価、後処理、失敗検知を前提にすべきです [2][3][4]

導入前のテスト順ガイド

使い方まず試すモデル根拠
長時間のターミナル自動化、シェルベースのエージェント、CI再現GPT-5.5Terminal-Bench 2.0でGPT-5.5 82.7%、Claude Opus 4.7 69.4%、Kimi K2.6 66.7%が公開されています [19][8][13][6]
実際のGitHub issue解決、コード修正、SWE-Bench型タスクClaude Opus 4.7Claude Opus 4.7はSWE-Bench Pro 64.3%、SWE-Bench Verified 87.6%と報告されています [27]
ブラウジング・Web探索型タスクGPT-5.5BrowseCompでGPT-5.5 84.4%、Claude Opus 4.7 79.3%が報告されています [8][13]
MCP・ツール連携型タスクClaude Opus 4.7MCP AtlasでClaude Opus 4.7 79.1%、GPT-5.5 75.3%が報告されています [13]
長いマルチモーダルコンテキストKimi K2.6Kimi K2.6はテキスト、画像、動画入力と256kコンテキスト対応ルートをサポートすると紹介されています [7]
コスト重視の大量API呼び出しDeepSeek V4Mashable基準ではDeepSeek V4のトークン価格がGPT-5.5やClaude Opus 4.7より低い一方、Artificial Analysisの高いハルシネーション率報告も併せて確認が必要です [2][3]

なぜ総合1位を決めにくいのか

第一に、4モデルを同じプロンプト、同じツールアクセス、同じ推論予算、同じ採点器で評価した独立比較が、提供情報の範囲では十分ではありません。GPT-5.5とClaude Opus 4.7は共通比較が比較的多いものの、Kimi K2.6はモデルカードやin-house harnessの値が混在し、DeepSeek V4は共通ベンチマークの行が空きがちです [1][2][5][6]

第二に、同じベンチマーク名でも実行条件が変わることがあります。ある集計資料は、GPT-5.5とClaude Opus 4.7の公開スコアは形として比較可能でも、方法論まで同一とは限らないと説明しています [5]。AnthropicもTerminal-Bench 2.0評価でTerminus-2ハーネスと特定のリソース条件を使ったと明記しています [31]

第三に、ベンチマークスコアはプロダクト品質の一部にすぎません。実際の導入では、正答率だけでなく、失敗の仕方、ハルシネーション率、遅延、コスト、ツール呼び出しの安定性、セキュリティポリシー、ログの再現性まで見る必要があります。ExplainXも、ベンチマーク定義、プロンプト、ツールポリシーによってスコアは動くため、自社の評価ハーネスの代替にはならないと指摘しています [28]

最終判断

現時点の公開根拠だけで見るなら、ターミナル型エージェントコーディングはGPT-5.5SWE-Bench系のコード修正はClaude Opus 4.7長いマルチモーダルコンテキストはKimi K2.6コスト重視の大量呼び出しはDeepSeek V4から検証するのが合理的です [19][27][7][3]

ただし、4モデルの総合勝者は保留するのが安全です。公開スコアは、プロンプト、ツールアクセス、推論設定、評価ハーネスによって変わり得るためです [5][28][31]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • 公開ベンチマークだけで4モデルの総合1位を断定するのはまだ早い状況です。GPT 5.5はTerminal Bench 2.0で82.7%、Claude Opus 4.7はSWE Bench Proで64.3%、SWE Bench Verifiedで87.6%と強みが分かれますが、4モデルを同じ評価ハーネスでそろえた独立比較は不足しています [19][27][5]。
  • Kimi K2.6はSWE Bench Pro 58.6%、SWE Bench Verified 80.2%、Terminal Bench 2.0 66.7%などの値が紹介されていますが、モデルカードやin house harness由来の数値をGPT 5.5やClaude Opus 4.7の値と完全な同条件として扱うのは慎重であるべきです [1][6]。
  • DeepSeek V4はAPI価格の低さが目立つ一方、この比較で使う主要コーディングベンチマークの共通スコアが十分ではありません。Artificial AnalysisはV4 ProとV4 Flashについて高いハルシネーション率も報告しています [2][3]。

사람들은 또한 묻습니다.

"GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6:ベンチマーク別の勝者"에 대한 짧은 대답은 무엇입니까?

公開ベンチマークだけで4モデルの総合1位を断定するのはまだ早い状況です。GPT 5.5はTerminal Bench 2.0で82.7%、Claude Opus 4.7はSWE Bench Proで64.3%、SWE Bench Verifiedで87.6%と強みが分かれますが、4モデルを同じ評価ハーネスでそろえた独立比較は不足しています [19][27][5]。

먼저 검증할 핵심 포인트는 무엇인가요?

公開ベンチマークだけで4モデルの総合1位を断定するのはまだ早い状況です。GPT 5.5はTerminal Bench 2.0で82.7%、Claude Opus 4.7はSWE Bench Proで64.3%、SWE Bench Verifiedで87.6%と強みが分かれますが、4モデルを同じ評価ハーネスでそろえた独立比較は不足しています [19][27][5]。 Kimi K2.6はSWE Bench Pro 58.6%、SWE Bench Verified 80.2%、Terminal Bench 2.0 66.7%などの値が紹介されていますが、モデルカードやin house harness由来の数値をGPT 5.5やClaude Opus 4.7の値と完全な同条件として扱うのは慎重であるべきです [1][6]。

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4はAPI価格の低さが目立つ一方、この比較で使う主要コーディングベンチマークの共通スコアが十分ではありません。Artificial AnalysisはV4 ProとV4 Flashについて高いハルシネーション率も報告しています [2][3]。

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 벤치마크를 비교해 주세요.

Studio Global AI34 소스

인용 답변

요약하면, 공개적으로 확인 가능한 “동일 조건” 벤치마크만 놓고 보면 GPT-5.5는 터미널/에이전트 코딩, Claude Opus 4.7은 SWE-Bench Pro·Verified와 추론 계열에서 강합니다. DeepSeek V4와 Kimi K2.6은 공개 수치가 흩어져 있어 4개 모델을 한 표로 공정하게 순위화하기에는 근거가 부족합니다.

항목GPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6
Terminal-Bench 2.082.7%69.4%공개 비교 근거 부족약 66%대로 보도됨
SWE-Bench Pro58.6%64.3%공개 비교 근거 부족58.6%
SWE-Bench Verified공개 수치 확인 부족87.6%공개 비교 근거 부족80.2%
GPQA Diamond0.94/1로 집계된 자료 있음94.2%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
HLEGPT-5.5와 Opus 4.7 비교 자료에서 항목 존재46.9%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
기타OSWorld, BrowseComp, CyberGym 등에서 GPT-5.5가 앞선다는 비교가 있음FinanceAgent, MCP Atlas 등에서 Opus 4.7이 앞선다는 비교가 있음Artificial Analysis 기준 AA-Omniscience 개선이 보고됐지만 환각률이 매우 높다는 지적도 있음텍스트·이미지·비디오 입력과 256k 컨텍스트 지원으로 소개됨
  • GPT-5.5는 OpenAI 발표 기준 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록한 것으로 확인됩니다 [15].
  • Claude Opus 4.7은 여러 비교 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 69.4%, GPQA Diamond 94.2%로 제시됩니다 [3].
  • GPT-5.5와 Claude Opus 4.7만 비교하면, 한 집계 자료는 공통 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 요약합니다 [12].
  • Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개된 자료가 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4와 완전히 같은 하네스에서 비교됐는지는 명확하지 않습니다 [15][4].
  • DeepSeek V4는 Artificial Analysis에서 V4 Pro와 V4 Flash의 지식·환각 관련 평가가 언급되지만, 위 표의 SWE-Bench Pro, Terminal-Bench, GPQA, HLE와 직접 대응되는 공개 비교 수치는 충분하지 않습니다 [7].

결론적으로 “벤치마크 승자”를 하나로 고르면 왜곡될 수 있습니다.

  • 에이전트 터미널 작업: GPT-5.5 우세로 볼 근거가 가장 강합니다 [15].
  • 실전 GitHub 이슈 해결/SWE-Bench 계열: Claude Opus 4.7 우세로 볼 근거가 강합니다 [3][12].
  • 비용 대비 성능/오픈웨이트 계열: DeepSeek V4와 Kimi K2.6을 검토할 만하지만, 동일 벤치마크 공개 근거는 부족합니다 [7][4].
  • 종합 순위: Insufficient evidence. 4개 모델 모두를 같은 프롬프트, 같은 도구 사용 조건, 같은 채점기로 평가한 독립 벤치마크가 필요합니다.

출처

  • [1] Claude Opus 4.7 vs Kimi K2.6 - Detailed Performance & Feature Comparisondocsbot.ai

    SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups Not available 80.2% SWE-Bench Verified, thinking mode Source SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...

  • [2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [4] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com

    How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...

  • [5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com

    The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...

  • [6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai

    Official Contract Lanes Official rows keep the comparison honest. Kimi's K2.6 pricing page says K2.6 is the latest and smartest Kimi model, supports text, image, and video input, and has a 256k context route. DeepSeek's pricing page lists deepseek-v4-flash...

  • [8] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [13] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [19] Introducing GPT-5.5 - OpenAIopenai.com

    Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...

  • [27] Claude Opus 4.7: Anthropic's New Best (Available) Model - DataCampdatacamp.com

    Claude Opus 4.7 Benchmarks Opus 4.7 was evaluated across 14 benchmarks covering coding, reasoning, tool use, computer use, and visual reasoning. The table below shows the full comparison with Opus 4.6, GPT 5.4, Gemini 3.1 Pro, and the not-yet-published Myth...

  • [28] Claude Opus 4.7: Anthropic’s new flagship, benchmarks, and how it compares to Sonnet & Haiku | explainx.ai Blog | explainx.aiexplainx.ai

    \Percentages are as printed on Anthropic’s benchmark figure; leaderboard definitions, prompts, and tool policies can move scores over time—treat this as a snapshot, not a substitute for your eval harness. Reading the table pragmatically Agentic coding (SWE-...

  • [29] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com

    Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...

  • [31] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table. MCP-Atlas: The Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI. SWE-bench Verified, Pro, and...