studioglobal
熱門發現
報告已發布12 來源

Claude Opus 4.7 對 GPT-5.5:2026 Benchmark 真正可比嘅結論

可直接 head to head 嘅主要係 Claude Opus 4.7 vs GPT 5.5:GPT 5.5 喺 Terminal Bench 2.0 以 82.7% 對 69.4% 領先;Claude 喺 SWE Bench Pro Public 以 64.3% 對 58.6% 領先 [5]。 唔存在一個通殺冠軍:Claude 喺 MCP Atlas、FinanceAgent 較強;GPT 5.5 喺 BrowseComp、GDPval、OfficeQA Pro、FrontierMath 等表現較高 [2][5]。

17K0
Ilustrasi perbandingan benchmark AI antara Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6
Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6Ilustrasi AI-generated untuk perbandingan benchmark model AI frontier 2026.
AI 提示

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6. Article summary: Bukti terkuat hanya mendukung head to head Claude Opus 4.7 vs GPT 5.5: GPT 5.5 unggul di Terminal Bench 2.0 (82.7% vs 69.4%), sedangkan Claude unggul di SWE Bench Pro (64.3% vs 58.6%); DeepSeek V4 dan Kimi K2.6 belum.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watc

openai.com

2026 年睇 AI benchmark,最易中伏嘅位係:四個模型名放埋同一張排行榜,好似就可以排座次,但其實未必係同一個 benchmark、同一個版本、同一套測試設定。根據目前提供嘅來源,最穩陣嘅比較係 Claude Opus 4.7 對 GPT-5.5,因為兩者同時出現在 OpenAI 同 Vellum 嘅同類 benchmark 表入面 [5][2]

DeepSeek V4 同 Kimi K2.6 就唔同:目前資料未見到佢哋同 Claude Opus 4.7、GPT-5.5 直接對打嘅分數。最接近嘅資料其實係 DeepSeek V3.2、KimiK2.5 同 Kimi K2 Thinking,版本唔同,唔應該硬比較 [1][13][6]

先講結論

  • GPT-5.5:喺現有數據入面,terminal/CLI agent、office/professional tasks、browser/search,以及部分數學 eval 較突出 [5][2]
  • Claude Opus 4.7:喺 SWE-Bench Pro Public、MCP/tool orchestration,以及 FinanceAgent v1.1 較突出 [5][2]
  • DeepSeek V4、Kimi K2.6:暫時未有足夠直接分數,唔適合公平排位;現有資料只可當作相關模型家族背景,而唔係 V4 或 K2.6 嘅證據 [1][13][6]

真正可比嘅 head-to-head 數字

以下只列 Claude Opus 4.7 同 GPT-5.5 出現在同一 benchmark 嘅數字。GPT-5.5 Pro 只喺來源有分開列出時先提 [2]

產品/團隊需要Benchmark報告分數點樣解讀
Coding repairSWE-Bench Pro PublicClaude Opus 4.7 64.3% vs GPT-5.5 58.6% [5]Claude 喺呢個測試領先。
Terminal/CLI agentTerminal-Bench 2.0GPT-5.5 82.7% vs Claude Opus 4.7 69.4% [5]GPT-5.5 喺 terminal 類測試領先最明顯。
Professional workGDPval;OfficeQA ProGPT-5.5 84.9% vs Claude 80.3% 喺 GDPval;GPT-5.5 54.1% vs Claude 43.6% 喺 OfficeQA Pro [5]GPT-5.5 喺呢兩個專業工作指標較強。
Finance agentFinanceAgent v1.1Claude 64.4% vs GPT-5.5 60.0% [5]Claude 喺呢個 finance agent eval 領先。
Computer/browser tasksOSWorld-Verified;BrowseCompGPT-5.5 78.7% vs Claude 78.0% 喺 OSWorld;GPT-5.5 84.4%、GPT-5.5 Pro 90.1% vs Claude 79.3% 喺 BrowseComp [2]OSWorld 幾乎平手;BrowseComp 就 GPT-5.5 較高。
Tool orchestrationMCP AtlasClaude 79.1% vs GPT-5.5 75.3% [2]Claude 喺 tool-heavy/MCP 場景較強。
Science 同 math reasoningGPQA Diamond;FrontierMath T1–3Claude 94.2% vs GPT-5.5 93.6% 喺 GPQA;GPT-5.5 51.7%、GPT-5.5 Pro 52.4% vs Claude 43.8% 喺 FrontierMath [2]GPQA 差距好窄;FrontierMath 就 GPT-5.5 較高。

三個最容易睇錯 benchmark 嘅位

1. SWE-Bench Pro Public 唔等於 SWE-bench Verified

OpenAI 喺 GPT-5.5 對 Claude Opus 4.7 嘅表入面用嘅係 SWE-Bench Pro Public [5]。呢個唔等於 SWE-bench Verified。BenchLM 將 SWE-bench Verified 解釋為 SWE-bench 入面經人手驗證嘅 subset,用嚟測試模型處理真實 GitHub issue,涉及 Django、Flask、scikit-learn 等常見 Python repository [21]

所以,Claude 喺 SWE-Bench Pro Public 嘅 64.3%,唔可以直接拎去同其他 leaderboard 上 Claude 喺 SWE-bench Verified 嘅分數相比 [5][21]。要比較,最少要先對齊 benchmark 名、測試 harness、測試日期同模型設定。

2. GPQA Diamond 對 frontier model 已經唔夠分得開

Vellum 列出 Claude Opus 4.7 喺 GPQA Diamond 係 94.2%,GPT-5.5 係 93.6% [2]。The Next Web 亦提到 Claude Opus 4.7 94.2%、GPT-5.4 Pro 94.4%、Gemini 3.1 Pro 94.3%,並指呢類 frontier model 之間嘅差距已經落入 noise 範圍 [17]

換句話講,GPQA 可以作為一般 reasoning 訊號,但如果你要為 production 選模型,唔應該單靠 GPQA 一個分數定生死。

3. 第三方 leaderboard 有出入,唔代表一定有人錯

就算同樣講 SWE-bench Verified,Claude Opus 4.7 嘅數字都唔完全一致。BenchLM 報告 Claude Opus 4.7 Adaptive 喺 2026 年 4 月 24 日為 87.6% [21];LLM Stats 亦列出 87.6% [18]。但 LM Council 顯示 Claude Opus 4.7 max 為 83.5% ±1.7 [10],MindStudio 則寫 82.4% [14]

呢啲差異未必係邊個錯。常見原因包括模型設定、eval harness、測試日期、retry 規則、reasoning mode 或 leaderboard 計分方法唔同。對工程團隊嚟講,公開 benchmark 最好當作 shortlist 起點,而唔係代替自己 repository、CI、tooling workflow 嘅內部評估。

Claude Opus 4.7:repo repair 同 multi-tool workflow 值得優先試

Claude Opus 4.7 最明顯嘅訊號,係 coding repair 同多工具 agent。喺 OpenAI 表入面,Claude 喺 SWE-Bench Pro Public 以 64.3% 對 GPT-5.5 58.6% 領先;喺 FinanceAgent v1.1 亦以 64.4% 對 60.0% 領先 [5]。Vellum 亦報告 Claude 喺 MCP Atlas 以 79.1% 對 GPT-5.5 75.3% 領先 [2]

Anthropic 自己嘅 Claude Opus 4.7 launch note 亦引用 partner eval:Hebbia 表示喺 orchestrator agents 入面,tool calls 準確度同 planning 有雙位數提升;Rakuten-SWE-Bench 則指 Opus 4.7 比 Opus 4.6 解決多 3 倍 production tasks,Code Quality 同 Test Quality 都有雙位數增長 [19]。呢啲係有用嘅產品訊號,但始終同你公司內部 workload 嘅獨立測試係兩回事。

實際建議係:如果你主要做 autonomous repo repair、MCP,或者長鏈條 multi-tool workflow,Claude Opus 4.7 值得放喺第一批測試名單。不過,最後仍然要用你自己嘅 test suite、permission model、tool schema 同 tool-call pattern 驗證。

GPT-5.5:terminal、browser/search、office 同 math 數據最亮眼

GPT-5.5 最清晰嘅優勢係 Terminal-Bench 2.0。OpenAI 報告 GPT-5.5 達到 82.7%,高過 Claude Opus 4.7 嘅 69.4% 同 Gemini 3.1 Pro 嘅 68.5% [5]。同一張表入面,GPT-5.5 喺 GDPval wins/ties 亦以 84.9% 對 Claude 80.3% 領先,OfficeQA Pro 則係 54.1% 對 43.6% [5]

Vellum 補充咗 computer-use、search 同 reasoning 嘅視角:GPT-5.5 喺 OSWorld-Verified 以 78.7% 對 Claude 78.0% 微微領先;BrowseComp 係 84.4% 對 79.3%;FrontierMath T1–3 係 51.7% 對 43.8% [2]。BrowseComp 方面,Vellum 亦列出 GPT-5.5 Pro 為 90.1% [2]

Coding 方面就冇咁單線。GPT-5.5 喺 Terminal-Bench 2.0 好強,但喺 OpenAI 表嘅 SWE-Bench Pro Public 就落後 Claude Opus 4.7 [5]。OpenAI System Card 亦介紹 GPT-5.5 嘅 CoT-Control 評估,當中包括超過 13,000 個 task,來源涵蓋 GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified 等 benchmark [26]。不過,呢份資料冇提供 GPT-5.5 同 DeepSeek V4 或 Kimi K2.6 嘅直接比較 [26]

DeepSeek V4 同 Kimi K2.6:暫時未夠料公平排位

DeepSeek V4 方面,現有來源未提供直接 benchmark 分數。最接近嘅資料係 DeepSeek V3.2:MangoMind 喺 2026 年 4 月 coding 推薦入面列出 DeepSeek V3.2 為 89.2% SWE-bench,低過 Claude Opus 4.6 嘅 93.2% 同 GPT-5.4 Pro 嘅 91.1% [1]。但 DeepSeek V3.2 唔等於 DeepSeek V4,唔可以用嚟推論 V4 表現。

Kimi K2.6 亦係同樣情況。Stanford HAI 提到,截至 2026 年 2 月,KimiK2.5 喺 SWE-bench Verified 屬於 70%–76% 呢一組模型之內 [13]。Siliconflow 則列出 Kimi K2 Thinking:GPQA 84.5、SWE Bench 71.3 [6]。但兩者都唔係 Kimi K2.6,只能作為 Kimi 生態背景,唔係 K2.6 嘅直接 benchmark 證據。

產品團隊可以點排測試順序?

如果你最重視…建議優先測試證據基礎要留意
Terminal/CLI coding agentGPT-5.5Terminal-Bench 2.0:GPT-5.5 82.7% vs Claude 69.4% [5]要喺自己嘅 shell environment、permission model、CI/CD 流程重測。
Autonomous repo repairClaude Opus 4.7,再用 GPT-5.5 做對照SWE-Bench Pro Public:Claude 64.3% vs GPT-5.5 58.6% [5]唔好未對齊 harness 就同 SWE-bench Verified 混埋比較 [21]
MCP 或 multi-tool orchestrationClaude Opus 4.7MCP Atlas:Claude 79.1% vs GPT-5.5 75.3% [2]要用自己嘅 tool schema、retry logic、access policy 驗證。
Browser/search agentGPT-5.5 或 GPT-5.5 ProBrowseComp:GPT-5.5 84.4%、GPT-5.5 Pro 90.1%、Claude 79.3% [2]BrowseComp 唔等於所有內部 research workflow。
Finance/professional workflowClaude 同 GPT-5.5 都要 split testClaude 喺 FinanceAgent v1.1 領先;GPT-5.5 喺 GDPval、OfficeQA Pro 領先 [5]MindStudio 提醒,finance benchmark 分數到真正可部署工具之間,差距好多時係 end-to-end infrastructure,而唔只係 model intelligence [14]
一般科學 reasoning唔好只靠 GPQA 揀模型Vellum 入面 Claude 同 GPT-5.5 嘅 GPQA Diamond 分數非常接近 [2]最好用你自己 domain-specific eval,尤其任務同 benchmark 題型唔同時。

最後結論

如果只睇目前可直接 head-to-head 嘅證據,GPT-5.5 係 terminal/CLI agent、browser/search、office tasks 同部分數學 benchmark 嘅強候選 [5][2]。Claude Opus 4.7 則係 SWE-Bench Pro Public、MCP/tool orchestration 同 FinanceAgent v1.1 嘅強候選 [5][2]

DeepSeek V4 同 Kimi K2.6 暫時唔適合同兩者公平排位。現有資料講嘅係其他版本:DeepSeek V3.2、KimiK2.5 同 Kimi K2 Thinking;因此,話 DeepSeek V4 或 Kimi K2.6 已經贏過 Claude Opus 4.7 或 GPT-5.5,喺呢批來源入面未有直接 benchmark 分數支持 [1][13][6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

  • 可直接 head to head 嘅主要係 Claude Opus 4.7 vs GPT 5.5:GPT 5.5 喺 Terminal Bench 2.0 以 82.7% 對 69.4% 領先;Claude 喺 SWE Bench Pro Public 以 64.3% 對 58.6% 領先 [5]。
  • 唔存在一個通殺冠軍:Claude 喺 MCP Atlas、FinanceAgent 較強;GPT 5.5 喺 BrowseComp、GDPval、OfficeQA Pro、FrontierMath 等表現較高 [2][5]。
  • DeepSeek V4 同 Kimi K2.6 目前未有直接 benchmark 分數;現有資料講嘅係 DeepSeek V3.2、KimiK2.5 同 Kimi K2 Thinking,唔可以直接當成 V4 或 K2.6 表現 [1][13][6]。

人們還問

「Claude Opus 4.7 對 GPT-5.5:2026 Benchmark 真正可比嘅結論」的簡短答案是什麼?

可直接 head to head 嘅主要係 Claude Opus 4.7 vs GPT 5.5:GPT 5.5 喺 Terminal Bench 2.0 以 82.7% 對 69.4% 領先;Claude 喺 SWE Bench Pro Public 以 64.3% 對 58.6% 領先 [5]。

首先要驗證的關鍵點是什麼?

可直接 head to head 嘅主要係 Claude Opus 4.7 vs GPT 5.5:GPT 5.5 喺 Terminal Bench 2.0 以 82.7% 對 69.4% 領先;Claude 喺 SWE Bench Pro Public 以 64.3% 對 58.6% 領先 [5]。 唔存在一個通殺冠軍:Claude 喺 MCP Atlas、FinanceAgent 較強;GPT 5.5 喺 BrowseComp、GDPval、OfficeQA Pro、FrontierMath 等表現較高 [2][5]。

接下來在實務上我該做什麼?

DeepSeek V4 同 Kimi K2.6 目前未有直接 benchmark 分數;現有資料講嘅係 DeepSeek V3.2、KimiK2.5 同 Kimi K2 Thinking,唔可以直接當成 V4 或 K2.6 表現 [1][13][6]。

接下來我應該探索哪個相關主題?

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6:2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較?

對照「DeepSeek V4 唔止 1M context:MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

研究問題

Lakukan riset mendalam tentang benchmark Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6.

Studio Global AI32 來源

引用的答案

Berdasarkan bukti yang tersedia, benchmark yang paling bisa dibahas secara konkret hanya untuk Claude Opus 4.7. Untuk GPT-5.5, bukti yang tersedia hanya satu unggahan X tanpa angka benchmark lengkap; untuk DeepSeek V4 dan Kimi K2.6 tidak ada bukti benchmark langsung dalam sumber yang diberikan. Karena itu, perbandingan empat model ini belum bisa dibuat secara kuat; Insufficient evidence untuk klaim komparatif penuh.

Key findings

  • Claude Opus 4.7 dilaporkan mencetak 87.6% pada SWE-bench Verified, 94.2% pada GPQA, memiliki konteks 1 juta token, peningkatan vision 3.3x, mode effort “xhigh”, dan harga $5/$25 menurut LLM Stats [7].

  • Claude Opus 4.7 juga dilaporkan menempati peringkat #2 dari 110 model pada leaderboard provisional BenchLM dengan skor keseluruhan 97/100, serta peringkat #2 dari 14 pada verified leaderboard [4].

  • Pada GPQA Diamond, laporan The Next Web menyebut Claude Opus 4.7 mencetak 94.2%, GPT-5.4 Pro 94.4%, dan Gemini 3.1 Pro 94.3%; sumber itu menilai selisihnya berada dalam noise dan benchmark ini sudah cenderung jenuh di antara model frontier [6].

  • Untuk coding, bukti yang tersedia mendukung bahwa Claude Opus 4.7 sangat kuat, tetapi angka SWE-bench yang tersedia tidak sepenuhnya konsisten antar-sumber: LLM Stats menyebut 87.6% untuk SWE-bench Verified [7], sementara Stanford HAI hanya memberi konteks lebih lama bahwa per Februari 2026 Claude 4.5 Opus high reasoning berada sekitar 76.8% dan model lain seperti KimiK2.5, GPT-5.2, serta Gemini 3 Flash high reasoning berada di kisaran 70–76% [1].

  • Untuk analisis finansial, MindStudio menyebut contoh gap antara skor FinanceBench 82.7% dan kesiapan deployment produksi, tetapi bukti snippet yang tersedia tidak cukup untuk memastikan konteks metodologi, pembanding, atau apakah angka itu diklaim sebagai skor resmi Claude Opus 4.7 [3].

  • Untuk GPT-5.5, satu-satunya bukti langsung yang tersedia adalah unggahan X yang menyatakan GPT-5.5 underperform terhadap Mythos pada SWE-Bench Pro dan HLE, setara pada GPQA Diamond, BrowseComp, dan OSWorld-Verified, serta lebih baik pada Terminal-Bench 2.0 [31]. Bukti ini lemah untuk riset benchmark karena tidak menyediakan angka, metodologi, atau sumber primer [31].

  • Untuk DeepSeek V4, tidak ada benchmark langsung dalam bukti yang diberikan; satu-satunya data terkait DeepSeek menyebut DeepSeek V3.2 sebagai #3 rekomendasi coding April 2026 dengan 89.2% SWE-bench menurut MangoMind, bukan DeepSeek V4 [2]. Insufficient evidence.

  • Untuk Kimi K2.6, tidak ada benchmark langsung dalam bukti yang diberikan; Stanford HAI hanya menyebut KimiK2.5 berada dalam kelompok 70–76% pada SWE-bench Verified per Februari 2026, bukan Kimi K2.6 [1]. Insufficient evidence.

Perbandingan ringkas

ModelBukti benchmark langsungAngka yang tersediaKekuatan kesimpulan
Claude Opus 4.7AdaSWE-bench Verified 87.6%, GPQA 94.2%, BenchLM 97/100Sedang, tetapi perlu validasi sumber primer
GPT-5.5Sangat terbatasTidak ada angka; hanya klaim relatif via XLemah
DeepSeek V4Tidak adaTidak adaInsufficient evidence
Kimi K2.6Tidak adaTidak adaInsufficient evidence

Evidence notes

  • Sumber paling kuat yang tersedia adalah Stanford HAI karena bersifat teknis dan institusional, tetapi datanya tidak mencakup Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 secara langsung; sumber itu hanya memberi baseline per Februari 2026 untuk Claude 4.5 Opus, KimiK2.5, GPT-5.2, dan model lain [1].

  • LLM Stats, BenchLM, MindStudio, Vellum, The Next Web, dan MangoMind memberikan konteks pasar serta benchmark yang lebih baru, tetapi sebagian tampak sebagai ringkasan pihak ketiga dan bukan dokumentasi primer dari lab model [2][3][4][5][6][7].

  • Vellum mencantumkan area benchmark untuk Claude Opus 4.7 seperti SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, MCP-Atlas, Finance Agent v1.1, OSWorld-Verified, BrowseComp, GPQA, dan benchmark reasoning lain, tetapi snippet yang tersedia tidak memberikan angka spesifik yang bisa dipakai untuk perbandingan [5].

  • MangoMind menyediakan daftar rekomendasi April 2026 untuk coding, tetapi model yang disebut adalah Claude Opus 4.6, GPT-5.4 Pro, dan DeepSeek V3.2, bukan versi target Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 [2].

Limitations / uncertainty

  • Tidak ada bukti primer dari Anthropic, OpenAI, DeepSeek, atau Moonshot/Kimi dalam evidence yang tersedia, sehingga angka-angka harus diperlakukan sebagai laporan pihak ketiga, bukan hasil resmi yang sepenuhnya terverifikasi.

  • Tidak tersedia angka benchmark langsung untuk DeepSeek V4 dan Kimi K2.6, sehingga klaim bahwa salah satu lebih unggul dari Claude Opus 4.7 atau GPT-5.5 tidak dapat didukung.

  • Tidak tersedia angka benchmark lengkap untuk GPT-5.5; unggahan X hanya menyebut perbandingan relatif terhadap Mythos tanpa metodologi dan tanpa skor numerik [31].

  • Ada indikasi pergeseran benchmark: GPQA Diamond tampak hampir jenuh pada model frontier karena Claude Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro berada di sekitar 94.2–94.4% menurut The Next Web [6]. Ini berarti benchmark seperti SWE-bench Pro, Terminal-Bench, OSWorld, BrowseComp, dan evaluasi agentic kemungkinan lebih berguna untuk membedakan model, tetapi bukti angka lintas empat model target belum tersedia.

Summary

Claude Opus 4.7 adalah satu-satunya model dalam daftar yang memiliki bukti benchmark cukup konkret: 87.6% pada SWE-bench Verified, 94.2% pada GPQA, dan skor BenchLM 97/100 menurut sumber pihak ketiga [7][4]. GPT-5.5 hanya memiliki bukti lemah berupa klaim relatif dari X tanpa angka lengkap [31]. DeepSeek V4 dan Kimi K2.6 tidak memiliki data benchmark langsung dalam evidence yang tersedia, sehingga status benchmark keduanya adalah Insufficient evidence.

來源

  • [1] AI Benchmarks 2026: Monthly Leaderboards & Rankings | MangoMindmangomindbd.com

    5. Monthly Updates AI moves fast. We re-test all models monthly and publish updated rankings to reflect the latest releases. 🎯 Quick Recommendations Best AI for Coding (April 2026) 1. •Claude Opus 4.6 - 93.2% SWE-bench 2. •GPT-5.4 Pro - 91.1% SWE-bench 3....

  • [2] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [5] Introducing GPT-5.5 | OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

  • [6] LLM Model Benchmarks 2026 | Siliconflowsiliconflow.com

    Model GRIND (%) AIME (%) GPQA (%) SWE Bench (%) MATH 500 (%) BFCL (%) Alder Polyglot (%) --- --- --- --- Kimi K2 Thinking — — 84.5 71.3 — — — GPT 5.1 — — 88.1 76.3 — — — Claude Haiku 4.5 — — 73 73.3 — — — GPT-5 — — 87.3 74.9 — — 88 Claude Opus 4.1 — — 80.9...

  • [10] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu

    On SWE-bench Verified, top models are tightly clustered in the low-to-mid 70s (Figure 2.5.1). As of February 2026, Claude 4.5 Opus (high reasoning) led at approximately 76.8%, with several others including KimiK2.5, GPT-5.2, and Gemini 3 Flash (high reasoni...

  • [14] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and Financial Analysis | MindStudiomindstudio.ai

    This matters for teams evaluating Opus 4.7 for production use because the model’s capability gains are only useful if they’re integrated into something that works end-to-end. The gap between “this model scores 82.7% on FinanceBench” and “we have a deployed...

  • [17] Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Prothenextweb.com

    On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...

  • [18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com

    LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...

  • [19] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...

  • [21] SWE-bench Verified Benchmark 2026: 35 LLM scores | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...

  • [26] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...