studioglobal
トレンドを発見する
レポート公開済み12 ソース

Claude Opus 4.7 vs GPT-5.5:2026年ベンチマークとDeepSeek V4/Kimi K2.6の現状

同じ評価で比べられる範囲では、GPT 5.5はTerminal Bench 2.0で82.7%、Claude Opus 4.7はSWE Bench Pro Publicで64.3%と、それぞれ得意領域が分かれる [5]。 Claude Opus 4.7はMCP AtlasとFinanceAgent v1.1で優位。一方、GPT 5.5はBrowseComp、GDPval、OfficeQA Pro、FrontierMathで高い数値が報告されている [2][5]。

17K0
Ilustrasi perbandingan benchmark AI antara Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6
Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6Ilustrasi AI-generated untuk perbandingan benchmark model AI frontier 2026.
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6. Article summary: Bukti terkuat hanya mendukung head to head Claude Opus 4.7 vs GPT 5.5: GPT 5.5 unggul di Terminal Bench 2.0 (82.7% vs 69.4%), sedangkan Claude unggul di SWE Bench Pro (64.3% vs 58.6%); DeepSeek V4 dan Kimi K2.6 belum.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watc

openai.com

2026年のAIベンチマークは、モデル名だけを横に並べると簡単に読み違えます。Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6を同じランキング表に入れたくなりますが、まず確認すべきなのは「同じベンチマークで、同じモデル版が評価されているか」です。

提供ソースの中で最も比較の足場が固いのは、Claude Opus 4.7とGPT-5.5です。両者はOpenAIとVellumの表で同じ評価項目に載っています [5][2]。一方、DeepSeek V4とKimi K2.6については、直接の数値は確認できません。近いデータとして出てくるのはDeepSeek V3.2、KimiK2.5、Kimi K2 Thinkingであり、別バージョンの結果をV4やK2.6の実力として読み替えることはできません [1][13][6]

まず押さえたい結論

  • GPT-5.5は、ターミナル/CLI、オフィス・業務タスク、ブラウザ/検索、いくつかの数学評価で強い数値が出ています [5][2]
  • Claude Opus 4.7は、SWE-Bench Pro Public、MCP Atlasのようなツール連携、FinanceAgent v1.1で優位です [5][2]
  • DeepSeek V4とKimi K2.6は、今回のソースだけではClaude Opus 4.7やGPT-5.5と公平に順位付けできません [1][13][6]

同じ土俵で比較できるベンチマーク

以下は、Claude Opus 4.7とGPT-5.5が同じ評価項目で報告されているものだけを並べた表です。GPT-5.5 Proは、ソースが別バリアントとして示している場合のみ記載しています [2]

主な用途ベンチマーク報告値読み方
コード修正SWE-Bench Pro PublicClaude Opus 4.7 64.3% vs GPT-5.5 58.6% [5]この評価ではClaudeが上。
ターミナル/CLIエージェントTerminal-Bench 2.0GPT-5.5 82.7% vs Claude Opus 4.7 69.4% [5]GPT-5.5の優位が最もはっきり出ている領域。
業務タスクGDPval、OfficeQA ProGDPvalはGPT-5.5 84.9% vs Claude 80.3%。OfficeQA ProはGPT-5.5 54.1% vs Claude 43.6% [5]この2指標ではGPT-5.5が強い。
金融エージェントFinanceAgent v1.1Claude 64.4% vs GPT-5.5 60.0% [5]この金融エージェント評価ではClaudeが上。
コンピューター/ブラウザ操作OSWorld-Verified、BrowseCompOSWorldはGPT-5.5 78.7% vs Claude 78.0%。BrowseCompはGPT-5.5 84.4%、GPT-5.5 Pro 90.1% vs Claude 79.3% [2]OSWorldはほぼ同等、BrowseCompはGPT-5.5が高い。
ツール連携MCP AtlasClaude 79.1% vs GPT-5.5 75.3% [2]ツールを多用するシナリオではClaudeが強い。
科学・数学推論GPQA Diamond、FrontierMath T1–3GPQAはClaude 94.2% vs GPT-5.5 93.6%。FrontierMathはGPT-5.5 51.7%、GPT-5.5 Pro 52.4% vs Claude 43.8% [2]GPQAは僅差。FrontierMathではGPT-5.5が上。

ベンチマークを読むときの注意点

1. SWE-Bench ProとSWE-bench Verifiedを混ぜない

OpenAIの表で使われているのは、GPT-5.5とClaude Opus 4.7を比較するSWE-Bench Pro Publicです [5]。これはSWE-bench Verifiedと同じではありません。BenchLMはSWE-bench Verifiedを、Django、Flask、scikit-learnなど人気のPythonリポジトリにある実際のGitHub issueを解かせる、人手検証済みのSWE-benchサブセットだと説明しています [21]

つまり、Claude Opus 4.7のSWE-Bench Pro Public 64.3%という数字を、別のリーダーボードに載っているSWE-bench Verifiedの数字とそのまま比較してはいけません [5][21]。ベンチマーク名、評価ハーネス、実施日、モデル設定までそろえて見る必要があります。

2. GPQA Diamondは、フロンティアモデルの差をつけにくくなっている

Vellumは、GPQA DiamondでClaude Opus 4.7を94.2%、GPT-5.5を93.6%としています [2]。The Next Webも、Claude Opus 4.7が94.2%、GPT-5.4 Proが94.4%、Gemini 3.1 Proが94.3%と報じ、これらの差はノイズの範囲だとしています [17]

GPQAは一般的な高度推論のシグナルとしては有用ですが、これだけで本番導入するモデルを決めるには弱くなっています。特に業務利用では、実際のタスク、ツール連携、失敗時のリカバリーまで含めて見るべきです。

3. 第三者リーダーボードの数値はずれることがある

SWE-bench VerifiedにおけるClaude Opus 4.7の数値は、ソースによって一致しません。BenchLMは2026年4月24日時点でClaude Opus 4.7 Adaptiveを87.6%としています [21]。LLM Statsも87.6%を掲載しています [18]。一方、LM CouncilはClaude Opus 4.7 maxを83.5% ±1.7とし [10]、MindStudioは82.4%としています [14]

これは、どれか一つが即座に誤りだという意味ではありません。モデル設定、評価ハーネス、テスト日、リトライの扱い、推論モードの違いで数字は変わり得ます。開発チームにとって、公開ベンチマークは候補を絞る材料であって、自社リポジトリや実運用フローでの検証の代わりにはなりません。

Claude Opus 4.7:コード修正とツール連携で目立つ

Claude Opus 4.7の強いシグナルは、コード修正とツールを多用するエージェント用途にあります。OpenAIの表では、SWE-Bench Pro PublicでClaudeが64.3%、GPT-5.5が58.6%。FinanceAgent v1.1でもClaudeが64.4%、GPT-5.5が60.0%です [5]。VellumのMCP Atlasでも、Claudeは79.1%でGPT-5.5の75.3%を上回っています [2]

Anthropic自身も、エージェント型ワークフローに関するパートナー評価を紹介しています。Claude Opus 4.7の発表では、Hebbiaが中核オーケストレーターエージェントにおけるツール呼び出し精度とプランニングで二桁の改善を見たこと、Rakuten-SWE-BenchでOpus 4.7がOpus 4.6の3倍の本番タスクを解決し、Code QualityとTest Qualityでも二桁の改善があったことが引用されています [19]

ただし、こうした情報は有用な製品シグナルであって、自社環境での独立評価そのものではありません。自律的なリポジトリ修正、MCP、長いマルチツール処理を重視するなら、Claude Opus 4.7を先に試す価値があります。ただし、最終判断は自社のテストスイート、権限設計、ツール呼び出しパターンで確認すべきです。

GPT-5.5:ターミナル、検索、業務、数学で強い

GPT-5.5の優位が最も明確なのはTerminal-Bench 2.0です。OpenAIは、GPT-5.5が82.7%、Claude Opus 4.7が69.4%、Gemini 3.1 Proが68.5%だったと報告しています [5]。同じ表では、GPT-5.5はGDPvalのwins/tiesで84.9%、Claudeは80.3%。OfficeQA ProではGPT-5.5が54.1%、Claudeが43.6%です [5]

Vellumの表も、コンピューター操作、検索、推論の文脈を補います。OSWorld-VerifiedではGPT-5.5が78.7%、Claudeが78.0%で僅差。BrowseCompではGPT-5.5が84.4%、Claudeが79.3%。FrontierMath T1–3ではGPT-5.5が51.7%、Claudeが43.8%です [2]。BrowseCompでは、GPT-5.5 Proが90.1%と報告されています [2]

一方、コーディング全体で見れば単純ではありません。GPT-5.5はTerminal-Bench 2.0で非常に強い一方、OpenAIのSWE-Bench Pro PublicではClaude Opus 4.7を下回っています [5]。OpenAIのSystem Cardは、GPT-5.5のCoT-Control評価について、GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verifiedなどから作られた1万3000件超のタスクを含む評価スイートだと説明しています [26]。ただし、そのソースはDeepSeek V4やKimi K2.6との直接比較を示していません [26]

DeepSeek V4とKimi K2.6:このソース群では直接比較できない

DeepSeek V4については、今回のソース群に直接のベンチマーク値がありません。近いものとして、MangoMindは2026年4月のコーディング推奨でDeepSeek V3.2をSWE-bench 89.2%とし、Claude Opus 4.6の93.2%、GPT-5.4 Proの91.1%より下に置いています [1]。しかし、これはDeepSeek V3.2の数字であり、DeepSeek V4の性能を示すものではありません。

Kimi K2.6も同様です。Stanford HAIは、2026年2月時点のSWE-bench Verifiedで、KimiK2.5が70%〜76%のモデル群に含まれると述べています [13]。また、SiliconflowはKimi K2 Thinkingについて、GPQA 84.5、SWE Bench 71.3を掲載しています [6]。どちらもKimi K2.6ではないため、Kimi系モデルの周辺情報としては参考になりますが、Kimi K2.6そのものの直接証拠にはなりません。

用途別の実務的な選び方

主なニーズ先に試す候補根拠注意点
ターミナル/CLI型のコーディングエージェントGPT-5.5Terminal-Bench 2.0でGPT-5.5 82.7%、Claude 69.4% [5]自社のシェル環境、権限モデル、CI/CDで再検証する。
自律的なリポジトリ修正Claude Opus 4.7、次にGPT-5.5SWE-Bench Pro PublicでClaude 64.3%、GPT-5.5 58.6% [5]SWE-bench Verifiedと混ぜて比較しない [21]
MCPやマルチツール連携Claude Opus 4.7MCP AtlasでClaude 79.1%、GPT-5.5 75.3% [2]自社のツールスキーマ、リトライ設計、アクセス制御で確認する。
ブラウザ/検索エージェントGPT-5.5またはGPT-5.5 ProBrowseCompでGPT-5.5 84.4%、GPT-5.5 Pro 90.1%、Claude 79.3% [2]BrowseCompが社内調査業務のすべてを代表するわけではない。
金融・プロフェッショナル業務ClaudeとGPT-5.5をスプリットテストClaudeはFinanceAgent v1.1で優位、GPT-5.5はGDPvalとOfficeQA Proで優位 [5]MindStudioは、金融系ベンチマークのスコアから実際に使われる本番ツールまでの差は、知能だけでなくエンドツーエンドのインフラにあることが多いと指摘している [14]
科学推論全般GPQAだけで決めないVellumではClaudeとGPT-5.5のGPQA Diamondが非常に近い [2]実タスクがベンチマーク問題と違うなら、ドメイン固有の評価を作る。

結論

同じベンチマークで直接比較できる範囲では、GPT-5.5はターミナル/CLIエージェント、ブラウザ/検索、オフィス系業務、いくつかの数学評価で有力候補です [5][2]。Claude Opus 4.7は、SWE-Bench Pro Public、MCP/ツール連携、FinanceAgent v1.1で強い候補です [5][2]

DeepSeek V4とKimi K2.6については、今回のソースだけではClaude Opus 4.7やGPT-5.5と公平に順位付けできません。確認できる数字はDeepSeek V3.2、KimiK2.5、Kimi K2 Thinkingなど別バージョンのものです。したがって、DeepSeek V4やKimi K2.6がClaude Opus 4.7またはGPT-5.5を上回るという主張は、このソース群の中では直接のベンチマーク数値によって裏づけられていません [1][13][6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • 同じ評価で比べられる範囲では、GPT 5.5はTerminal Bench 2.0で82.7%、Claude Opus 4.7はSWE Bench Pro Publicで64.3%と、それぞれ得意領域が分かれる [5]。
  • Claude Opus 4.7はMCP AtlasとFinanceAgent v1.1で優位。一方、GPT 5.5はBrowseComp、GDPval、OfficeQA Pro、FrontierMathで高い数値が報告されている [2][5]。
  • DeepSeek V4とKimi K2.6は、このソース群では直接のベンチマーク値が確認できない。参照できるのはDeepSeek V3.2、KimiK2.5、Kimi K2 Thinkingなど別バージョンのデータに限られる [1][13][6]。

人々も尋ねます

「Claude Opus 4.7 vs GPT-5.5:2026年ベンチマークとDeepSeek V4/Kimi K2.6の現状」の短い答えは何ですか?

同じ評価で比べられる範囲では、GPT 5.5はTerminal Bench 2.0で82.7%、Claude Opus 4.7はSWE Bench Pro Publicで64.3%と、それぞれ得意領域が分かれる [5]。

最初に検証する重要なポイントは何ですか?

同じ評価で比べられる範囲では、GPT 5.5はTerminal Bench 2.0で82.7%、Claude Opus 4.7はSWE Bench Pro Publicで64.3%と、それぞれ得意領域が分かれる [5]。 Claude Opus 4.7はMCP AtlasとFinanceAgent v1.1で優位。一方、GPT 5.5はBrowseComp、GDPval、OfficeQA Pro、FrontierMathで高い数値が報告されている [2][5]。

次の実践では何をすればいいでしょうか?

DeepSeek V4とKimi K2.6は、このソース群では直接のベンチマーク値が確認できない。参照できるのはDeepSeek V3.2、KimiK2.5、Kimi K2 Thinkingなど別バージョンのデータに限られる [1][13][6]。

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較:2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「DeepSeek V4を技術面から読む:100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた

リサーチクエスチョン

Lakukan riset mendalam tentang benchmark Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6.

Studio Global AI32 ソース

引用された回答

Berdasarkan bukti yang tersedia, benchmark yang paling bisa dibahas secara konkret hanya untuk Claude Opus 4.7. Untuk GPT-5.5, bukti yang tersedia hanya satu unggahan X tanpa angka benchmark lengkap; untuk DeepSeek V4 dan Kimi K2.6 tidak ada bukti benchmark langsung dalam sumber yang diberikan. Karena itu, perbandingan empat model ini belum bisa dibuat secara kuat; Insufficient evidence untuk klaim komparatif penuh.

Key findings

  • Claude Opus 4.7 dilaporkan mencetak 87.6% pada SWE-bench Verified, 94.2% pada GPQA, memiliki konteks 1 juta token, peningkatan vision 3.3x, mode effort “xhigh”, dan harga $5/$25 menurut LLM Stats [7].

  • Claude Opus 4.7 juga dilaporkan menempati peringkat #2 dari 110 model pada leaderboard provisional BenchLM dengan skor keseluruhan 97/100, serta peringkat #2 dari 14 pada verified leaderboard [4].

  • Pada GPQA Diamond, laporan The Next Web menyebut Claude Opus 4.7 mencetak 94.2%, GPT-5.4 Pro 94.4%, dan Gemini 3.1 Pro 94.3%; sumber itu menilai selisihnya berada dalam noise dan benchmark ini sudah cenderung jenuh di antara model frontier [6].

  • Untuk coding, bukti yang tersedia mendukung bahwa Claude Opus 4.7 sangat kuat, tetapi angka SWE-bench yang tersedia tidak sepenuhnya konsisten antar-sumber: LLM Stats menyebut 87.6% untuk SWE-bench Verified [7], sementara Stanford HAI hanya memberi konteks lebih lama bahwa per Februari 2026 Claude 4.5 Opus high reasoning berada sekitar 76.8% dan model lain seperti KimiK2.5, GPT-5.2, serta Gemini 3 Flash high reasoning berada di kisaran 70–76% [1].

  • Untuk analisis finansial, MindStudio menyebut contoh gap antara skor FinanceBench 82.7% dan kesiapan deployment produksi, tetapi bukti snippet yang tersedia tidak cukup untuk memastikan konteks metodologi, pembanding, atau apakah angka itu diklaim sebagai skor resmi Claude Opus 4.7 [3].

  • Untuk GPT-5.5, satu-satunya bukti langsung yang tersedia adalah unggahan X yang menyatakan GPT-5.5 underperform terhadap Mythos pada SWE-Bench Pro dan HLE, setara pada GPQA Diamond, BrowseComp, dan OSWorld-Verified, serta lebih baik pada Terminal-Bench 2.0 [31]. Bukti ini lemah untuk riset benchmark karena tidak menyediakan angka, metodologi, atau sumber primer [31].

  • Untuk DeepSeek V4, tidak ada benchmark langsung dalam bukti yang diberikan; satu-satunya data terkait DeepSeek menyebut DeepSeek V3.2 sebagai #3 rekomendasi coding April 2026 dengan 89.2% SWE-bench menurut MangoMind, bukan DeepSeek V4 [2]. Insufficient evidence.

  • Untuk Kimi K2.6, tidak ada benchmark langsung dalam bukti yang diberikan; Stanford HAI hanya menyebut KimiK2.5 berada dalam kelompok 70–76% pada SWE-bench Verified per Februari 2026, bukan Kimi K2.6 [1]. Insufficient evidence.

Perbandingan ringkas

ModelBukti benchmark langsungAngka yang tersediaKekuatan kesimpulan
Claude Opus 4.7AdaSWE-bench Verified 87.6%, GPQA 94.2%, BenchLM 97/100Sedang, tetapi perlu validasi sumber primer
GPT-5.5Sangat terbatasTidak ada angka; hanya klaim relatif via XLemah
DeepSeek V4Tidak adaTidak adaInsufficient evidence
Kimi K2.6Tidak adaTidak adaInsufficient evidence

Evidence notes

  • Sumber paling kuat yang tersedia adalah Stanford HAI karena bersifat teknis dan institusional, tetapi datanya tidak mencakup Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 secara langsung; sumber itu hanya memberi baseline per Februari 2026 untuk Claude 4.5 Opus, KimiK2.5, GPT-5.2, dan model lain [1].

  • LLM Stats, BenchLM, MindStudio, Vellum, The Next Web, dan MangoMind memberikan konteks pasar serta benchmark yang lebih baru, tetapi sebagian tampak sebagai ringkasan pihak ketiga dan bukan dokumentasi primer dari lab model [2][3][4][5][6][7].

  • Vellum mencantumkan area benchmark untuk Claude Opus 4.7 seperti SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, MCP-Atlas, Finance Agent v1.1, OSWorld-Verified, BrowseComp, GPQA, dan benchmark reasoning lain, tetapi snippet yang tersedia tidak memberikan angka spesifik yang bisa dipakai untuk perbandingan [5].

  • MangoMind menyediakan daftar rekomendasi April 2026 untuk coding, tetapi model yang disebut adalah Claude Opus 4.6, GPT-5.4 Pro, dan DeepSeek V3.2, bukan versi target Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 [2].

Limitations / uncertainty

  • Tidak ada bukti primer dari Anthropic, OpenAI, DeepSeek, atau Moonshot/Kimi dalam evidence yang tersedia, sehingga angka-angka harus diperlakukan sebagai laporan pihak ketiga, bukan hasil resmi yang sepenuhnya terverifikasi.

  • Tidak tersedia angka benchmark langsung untuk DeepSeek V4 dan Kimi K2.6, sehingga klaim bahwa salah satu lebih unggul dari Claude Opus 4.7 atau GPT-5.5 tidak dapat didukung.

  • Tidak tersedia angka benchmark lengkap untuk GPT-5.5; unggahan X hanya menyebut perbandingan relatif terhadap Mythos tanpa metodologi dan tanpa skor numerik [31].

  • Ada indikasi pergeseran benchmark: GPQA Diamond tampak hampir jenuh pada model frontier karena Claude Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro berada di sekitar 94.2–94.4% menurut The Next Web [6]. Ini berarti benchmark seperti SWE-bench Pro, Terminal-Bench, OSWorld, BrowseComp, dan evaluasi agentic kemungkinan lebih berguna untuk membedakan model, tetapi bukti angka lintas empat model target belum tersedia.

Summary

Claude Opus 4.7 adalah satu-satunya model dalam daftar yang memiliki bukti benchmark cukup konkret: 87.6% pada SWE-bench Verified, 94.2% pada GPQA, dan skor BenchLM 97/100 menurut sumber pihak ketiga [7][4]. GPT-5.5 hanya memiliki bukti lemah berupa klaim relatif dari X tanpa angka lengkap [31]. DeepSeek V4 dan Kimi K2.6 tidak memiliki data benchmark langsung dalam evidence yang tersedia, sehingga status benchmark keduanya adalah Insufficient evidence.

情報源

  • [1] AI Benchmarks 2026: Monthly Leaderboards & Rankings | MangoMindmangomindbd.com

    5. Monthly Updates AI moves fast. We re-test all models monthly and publish updated rankings to reflect the latest releases. 🎯 Quick Recommendations Best AI for Coding (April 2026) 1. •Claude Opus 4.6 - 93.2% SWE-bench 2. •GPT-5.4 Pro - 91.1% SWE-bench 3....

  • [2] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [5] Introducing GPT-5.5 | OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

  • [6] LLM Model Benchmarks 2026 | Siliconflowsiliconflow.com

    Model GRIND (%) AIME (%) GPQA (%) SWE Bench (%) MATH 500 (%) BFCL (%) Alder Polyglot (%) --- --- --- --- Kimi K2 Thinking — — 84.5 71.3 — — — GPT 5.1 — — 88.1 76.3 — — — Claude Haiku 4.5 — — 73 73.3 — — — GPT-5 — — 87.3 74.9 — — 88 Claude Opus 4.1 — — 80.9...

  • [10] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu

    On SWE-bench Verified, top models are tightly clustered in the low-to-mid 70s (Figure 2.5.1). As of February 2026, Claude 4.5 Opus (high reasoning) led at approximately 76.8%, with several others including KimiK2.5, GPT-5.2, and Gemini 3 Flash (high reasoni...

  • [14] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and Financial Analysis | MindStudiomindstudio.ai

    This matters for teams evaluating Opus 4.7 for production use because the model’s capability gains are only useful if they’re integrated into something that works end-to-end. The gap between “this model scores 82.7% on FinanceBench” and “we have a deployed...

  • [17] Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Prothenextweb.com

    On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...

  • [18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com

    LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...

  • [19] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...

  • [21] SWE-bench Verified Benchmark 2026: 35 LLM scores | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...

  • [26] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...