studioglobal
熱門探索內容
報告已發布12 個來源

Claude Opus 4.7 vs GPT-5.5:2026 基準測試真正能比較的是什麼?

可直接 head to head 的資料主要是 Claude Opus 4.7 與 GPT 5.5:GPT 5.5 在 Terminal Bench 2.0 為 82.7%,Claude 為 69.4%;Claude 在 SWE Bench Pro Public 為 64.3%,GPT 5.5 為 58.6% [5]。 沒有通吃的冠軍:Claude Opus 4.7 在 MCP Atlas 與 FinanceAgent v1.1 領先,GPT 5.5 則在 BrowseComp、GDPval、OfficeQA Pro 與 FrontierMath 等可得數據中較高 [2][5]。

17K0
Ilustrasi perbandingan benchmark AI antara Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6
Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6Ilustrasi AI-generated untuk perbandingan benchmark model AI frontier 2026.
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6. Article summary: Bukti terkuat hanya mendukung head to head Claude Opus 4.7 vs GPT 5.5: GPT 5.5 unggul di Terminal Bench 2.0 (82.7% vs 69.4%), sedangkan Claude unggul di SWE Bench Pro (64.3% vs 58.6%); DeepSeek V4 dan Kimi K2.6 belum.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watc

openai.com

先講結論:別把不同考卷混成一張榜

2026 年的 AI benchmark 很容易讓人看錯。最常見的問題,是把 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 放在同一張排行榜,卻沒有確認 benchmark 名稱、模型版本、測試日期、harness 與推理模式是否一致。

就目前可用來源來看,最能公平比較的是 Claude Opus 4.7 與 GPT-5.5,因為兩者同時出現在 OpenAI 與 Vellum 的多個相同 benchmark 表格中 [5][2]。DeepSeek V4 與 Kimi K2.6 則還沒有直接數字;可引用的相近資料其實是 DeepSeek V3.2、KimiK2.5 與 Kimi K2 Thinking [1][13][6]

簡單說:

  • GPT-5.5 在終端機/CLI agent、辦公與專業任務、瀏覽器搜尋,以及部分數學 eval 中更突出 [5][2]
  • Claude Opus 4.7 在 SWE-Bench Pro Public、MCP/多工具編排,以及 FinanceAgent v1.1 中更有優勢 [5][2]
  • DeepSeek V4 與 Kimi K2.6 目前不能和前兩者做公平排名,因為來源中沒有同版本、同 benchmark 的直接對照數據 [1][13][6]

真正能直接比較的 benchmark 數字

下表只列 Claude Opus 4.7 與 GPT-5.5 出現在同一 benchmark 的情況。GPT-5.5 Pro 只有在來源把它列為獨立變體時才納入 [2]

使用場景Benchmark公布結果怎麼讀
程式碼修復SWE-Bench Pro(Public)Claude Opus 4.7 64.3% vs GPT-5.5 58.6% [5]Claude 在這個 coding repair benchmark 領先。
終端機/CLI agentTerminal-Bench 2.0GPT-5.5 82.7% vs Claude Opus 4.7 69.4% [5]GPT-5.5 在終端機類任務的優勢最明顯。
專業與辦公工作GDPval;OfficeQA ProGPT-5.5 在 GDPval 為 84.9%,Claude 為 80.3%;GPT-5.5 在 OfficeQA Pro 為 54.1%,Claude 為 43.6% [5]GPT-5.5 在這兩個專業工作指標較高。
金融 agentFinanceAgent v1.1Claude 64.4% vs GPT-5.5 60.0% [5]Claude 在這個金融 agent eval 領先。
電腦/瀏覽器任務OSWorld-Verified;BrowseCompOSWorld:GPT-5.5 78.7% vs Claude 78.0%;BrowseComp:GPT-5.5 84.4%、GPT-5.5 Pro 90.1% vs Claude 79.3% [2]OSWorld 幾乎平手;BrowseComp 則 GPT-5.5 較高。
工具編排MCP AtlasClaude 79.1% vs GPT-5.5 75.3% [2]Claude 較適合先測工具密集、多步驟編排情境。
科學與數學推理GPQA Diamond;FrontierMath T1–3GPQA:Claude 94.2% vs GPT-5.5 93.6%;FrontierMath:GPT-5.5 51.7%、GPT-5.5 Pro 52.4% vs Claude 43.8% [2]GPQA 差距很小;FrontierMath 則 GPT-5.5 較高。

讀 benchmark 前,先避開三個陷阱

1. SWE-Bench Pro 不是 SWE-bench Verified

OpenAI 的 head-to-head 表格使用的是 SWE-Bench Pro(Public),用來比較 GPT-5.5 與 Claude Opus 4.7 [5]。這不能直接和 SWE-bench Verified 混在一起看。BenchLM 將 SWE-bench Verified 說明為 SWE-bench 的人工驗證子集,測試模型能否解決來自 Django、Flask、scikit-learn 等熱門 Python 專案的真實 GitHub issue [21]

因此,Claude 在 SWE-Bench Pro Public 的 64.3%,不能直接拿去對比其他排行榜上的 SWE-bench Verified 分數 [5][21]。要比較,至少要確認 benchmark 名稱、harness、測試日期與模型配置是否相同。

2. GPQA Diamond 對前沿模型的區分度已經變小

Vellum 將 Claude Opus 4.7 的 GPQA Diamond 分數列為 94.2%,GPT-5.5 為 93.6% [2]。The Next Web 也報導,Claude Opus 4.7 為 94.2%、GPT-5.4 Pro 為 94.4%、Gemini 3.1 Pro 為 94.3%,並指出這些差距落在噪音範圍內 [17]

換句話說,GPQA Diamond 仍可作為一般推理能力的參考,但不適合單獨拿來決定生產環境要用哪個模型。對產品團隊來說,真正的差異往往出現在長流程、多工具、需要實際完成任務的場景。

3. 第三方排行榜不同,不一定代表誰錯了

以 SWE-bench Verified 為例,Claude Opus 4.7 的分數在不同來源並不完全一致。BenchLM 在 2026 年 4 月 24 日列出 Claude Opus 4.7 Adaptive 為 87.6% [21];LLM Stats 也列出 87.6% [18]。但 LM Council 顯示 Claude Opus 4.7 max 為 83.5% ±1.7 [10],MindStudio 則列出 82.4% [14]

這類差距通常需要回到方法學檢查:模型配置、評測 harness、日期、是否允許 retry、是否使用特定 reasoning mode,都可能影響結果。公開 benchmark 適合用來縮小候選清單,但不能取代你自己的 repo、工具鏈與工作流程測試。

Claude Opus 4.7:適合優先測 repo repair 與多工具流程

Claude Opus 4.7 最明顯的訊號,集中在程式碼修復與工具編排。OpenAI 的表格中,Claude 在 SWE-Bench Pro Public 以 64.3% 高於 GPT-5.5 的 58.6%,在 FinanceAgent v1.1 也以 64.4% 高於 GPT-5.5 的 60.0% [5]。Vellum 另列出 MCP Atlas:Claude 79.1%,GPT-5.5 75.3% [2]

Anthropic 自家的 launch note 也引用合作夥伴評估:Hebbia 觀察到核心 orchestrator agents 在 tool calls 準確率與 planning 上有兩位數提升;Rakuten-SWE-Bench 則回報 Opus 4.7 解決的 production tasks 是 Opus 4.6 的三倍,Code Quality 與 Test Quality 也有兩位數提升 [19]。這些訊號對 agentic workflow 很有參考價值,但仍應視為外部與合作夥伴場景,不等於你的內部工作負載會得到同樣結果。

如果你的重點是自動修 repo、長流程 coding agent、MCP 或多工具操作,Claude Opus 4.7 值得優先進入測試清單。不過,上線前仍要用自己的 test suite、權限模型、tool schema 與錯誤重試邏輯重新驗證。

GPT-5.5:終端機、瀏覽器搜尋、辦公與部分數學更突出

GPT-5.5 最亮眼的差距出現在 Terminal-Bench 2.0。OpenAI 公布 GPT-5.5 為 82.7%,高於 Claude Opus 4.7 的 69.4% 與 Gemini 3.1 Pro 的 68.5% [5]。同一張表中,GPT-5.5 在 GDPval(wins or ties)為 84.9%,Claude 為 80.3%;在 OfficeQA Pro 為 54.1%,Claude 為 43.6% [5]

Vellum 的資料則補上電腦使用、搜尋與推理面向:GPT-5.5 在 OSWorld-Verified 以 78.7% 略高於 Claude 的 78.0%;在 BrowseComp 以 84.4% 高於 Claude 的 79.3%;在 FrontierMath T1–3 以 51.7% 高於 Claude 的 43.8% [2]。BrowseComp 中,Vellum 也列出 GPT-5.5 Pro 為 90.1% [2]

在 coding 上,畫面比較混合:GPT-5.5 的 Terminal-Bench 2.0 很強,但在 OpenAI 表格的 SWE-Bench Pro Public 中低於 Claude Opus 4.7 [5]。OpenAI System Card 另提到 GPT-5.5 的 CoT-Control 評測套件,包含超過 13,000 個由 GPQA、MMLU-Pro、HLE、BFCL 與 SWE-Bench Verified 等 benchmark 建構的任務 [26];但該來源並未提供 GPT-5.5 與 DeepSeek V4 或 Kimi K2.6 的直接對照 [26]

DeepSeek V4 與 Kimi K2.6:目前不能公平排位

DeepSeek V4 在這批來源中沒有直接 benchmark 數字。最接近的資料是 DeepSeek V3.2:MangoMind 在 2026 年 4 月 coding 推薦中列出 DeepSeek V3.2 的 SWE-bench 為 89.2%,低於 Claude Opus 4.6 的 93.2% 與 GPT-5.4 Pro 的 91.1% [1]。但 DeepSeek V3.2 不是 DeepSeek V4,不能用來推論 V4 是否勝過 Claude Opus 4.7 或 GPT-5.5。

Kimi K2.6 也是同樣情況。Stanford HAI 提到,截至 2026 年 2 月,KimiK2.5 在 SWE-bench Verified 上與多個模型同處 70%–76% 區間 [13]。Siliconflow 則列出 Kimi K2 Thinking:GPQA 為 84.5,SWE Bench 為 71.3 [6]。這些資料只能說明 Kimi 生態中其他版本的表現,不能當作 Kimi K2.6 的直接證據。

給產品與工程團隊的測試建議

如果你的主要需求是……建議先測依據上線前要注意
終端機/CLI coding agentGPT-5.5Terminal-Bench 2.0:GPT-5.5 82.7% vs Claude 69.4% [5]用自己的 shell environment、權限模型與 CI/CD 流程重測。
自動修 repoClaude Opus 4.7,再用 GPT-5.5 當對照SWE-Bench Pro Public:Claude 64.3% vs GPT-5.5 58.6% [5]不要和 SWE-bench Verified 分數混用,除非 harness 已對齊 [21]
MCP 或多工具編排Claude Opus 4.7MCP Atlas:Claude 79.1% vs GPT-5.5 75.3% [2]驗證 tool schema、retry logic、access policy 與錯誤恢復。
瀏覽器/搜尋 agentGPT-5.5 或 GPT-5.5 ProBrowseComp:GPT-5.5 84.4%、GPT-5.5 Pro 90.1%、Claude 79.3% [2]BrowseComp 不等於所有內部研究任務,仍需自建測例。
金融/專業工作流Claude 與 GPT-5.5 都做 split testClaude 在 FinanceAgent v1.1 領先;GPT-5.5 在 GDPval 與 OfficeQA Pro 領先 [5]MindStudio 提醒,從 finance benchmark 到真正可用的生產工具,差距常在端到端基礎設施,而不只是模型智能 [14]
一般科學推理不要只看 GPQAVellum 中 Claude 與 GPT-5.5 的 GPQA Diamond 分數非常接近 [2]用貼近自己領域的 eval,尤其是任務型態與 benchmark 題目不同時。

最後的判斷

如果只採用目前可直接 head-to-head 的證據,GPT-5.5 是終端機/CLI agent、瀏覽器搜尋、辦公任務與部分數學 benchmark 的強候選 [5][2]。Claude Opus 4.7 則是 SWE-Bench Pro Public、MCP/多工具編排與 FinanceAgent v1.1 的強候選 [5][2]

DeepSeek V4 與 Kimi K2.6 暫時不能被公平排在這兩者之前或之後。現有來源提到的是 DeepSeek V3.2、KimiK2.5 與 Kimi K2 Thinking,而不是 DeepSeek V4 或 Kimi K2.6;因此,任何聲稱 DeepSeek V4 或 Kimi K2.6 已經擊敗 Claude Opus 4.7 或 GPT-5.5 的說法,在這批資料中都還缺少直接 benchmark 支撐 [1][13][6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • 可直接 head to head 的資料主要是 Claude Opus 4.7 與 GPT 5.5:GPT 5.5 在 Terminal Bench 2.0 為 82.7%,Claude 為 69.4%;Claude 在 SWE Bench Pro Public 為 64.3%,GPT 5.5 為 58.6% [5]。
  • 沒有通吃的冠軍:Claude Opus 4.7 在 MCP Atlas 與 FinanceAgent v1.1 領先,GPT 5.5 則在 BrowseComp、GDPval、OfficeQA Pro 與 FrontierMath 等可得數據中較高 [2][5]。
  • DeepSeek V4 與 Kimi K2.6 尚未在這批來源中出現可直接比較的 benchmark;現有資料指向 DeepSeek V3.2、KimiK2.5 與 Kimi K2 Thinking,不能拿來推論新版本排名 [1][13][6]。

大家也會問

「Claude Opus 4.7 vs GPT-5.5:2026 基準測試真正能比較的是什麼?」的簡短答案是什麼?

可直接 head to head 的資料主要是 Claude Opus 4.7 與 GPT 5.5:GPT 5.5 在 Terminal Bench 2.0 為 82.7%,Claude 為 69.4%;Claude 在 SWE Bench Pro Public 為 64.3%,GPT 5.5 為 58.6% [5]。

最值得優先驗證的重點是什麼?

可直接 head to head 的資料主要是 Claude Opus 4.7 與 GPT 5.5:GPT 5.5 在 Terminal Bench 2.0 為 82.7%,Claude 為 69.4%;Claude 在 SWE Bench Pro Public 為 64.3%,GPT 5.5 為 58.6% [5]。 沒有通吃的冠軍:Claude Opus 4.7 在 MCP Atlas 與 FinanceAgent v1.1 領先,GPT 5.5 則在 BrowseComp、GDPval、OfficeQA Pro 與 FrontierMath 等可得數據中較高 [2][5]。

接下來在實務上該怎麼做?

DeepSeek V4 與 Kimi K2.6 尚未在這批來源中出現可直接比較的 benchmark;現有資料指向 DeepSeek V3.2、KimiK2.5 與 Kimi K2 Thinking,不能拿來推論新版本排名 [1][13][6]。

下一步適合探索哪個相關主題?

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較:2026 年誰最值得信?」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「DeepSeek V4 工程解析:1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

Lakukan riset mendalam tentang benchmark Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6.

Studio Global AI32 個來源

附引用的答案

Berdasarkan bukti yang tersedia, benchmark yang paling bisa dibahas secara konkret hanya untuk Claude Opus 4.7. Untuk GPT-5.5, bukti yang tersedia hanya satu unggahan X tanpa angka benchmark lengkap; untuk DeepSeek V4 dan Kimi K2.6 tidak ada bukti benchmark langsung dalam sumber yang diberikan. Karena itu, perbandingan empat model ini belum bisa dibuat secara kuat; Insufficient evidence untuk klaim komparatif penuh.

Key findings

  • Claude Opus 4.7 dilaporkan mencetak 87.6% pada SWE-bench Verified, 94.2% pada GPQA, memiliki konteks 1 juta token, peningkatan vision 3.3x, mode effort “xhigh”, dan harga $5/$25 menurut LLM Stats [7].

  • Claude Opus 4.7 juga dilaporkan menempati peringkat #2 dari 110 model pada leaderboard provisional BenchLM dengan skor keseluruhan 97/100, serta peringkat #2 dari 14 pada verified leaderboard [4].

  • Pada GPQA Diamond, laporan The Next Web menyebut Claude Opus 4.7 mencetak 94.2%, GPT-5.4 Pro 94.4%, dan Gemini 3.1 Pro 94.3%; sumber itu menilai selisihnya berada dalam noise dan benchmark ini sudah cenderung jenuh di antara model frontier [6].

  • Untuk coding, bukti yang tersedia mendukung bahwa Claude Opus 4.7 sangat kuat, tetapi angka SWE-bench yang tersedia tidak sepenuhnya konsisten antar-sumber: LLM Stats menyebut 87.6% untuk SWE-bench Verified [7], sementara Stanford HAI hanya memberi konteks lebih lama bahwa per Februari 2026 Claude 4.5 Opus high reasoning berada sekitar 76.8% dan model lain seperti KimiK2.5, GPT-5.2, serta Gemini 3 Flash high reasoning berada di kisaran 70–76% [1].

  • Untuk analisis finansial, MindStudio menyebut contoh gap antara skor FinanceBench 82.7% dan kesiapan deployment produksi, tetapi bukti snippet yang tersedia tidak cukup untuk memastikan konteks metodologi, pembanding, atau apakah angka itu diklaim sebagai skor resmi Claude Opus 4.7 [3].

  • Untuk GPT-5.5, satu-satunya bukti langsung yang tersedia adalah unggahan X yang menyatakan GPT-5.5 underperform terhadap Mythos pada SWE-Bench Pro dan HLE, setara pada GPQA Diamond, BrowseComp, dan OSWorld-Verified, serta lebih baik pada Terminal-Bench 2.0 [31]. Bukti ini lemah untuk riset benchmark karena tidak menyediakan angka, metodologi, atau sumber primer [31].

  • Untuk DeepSeek V4, tidak ada benchmark langsung dalam bukti yang diberikan; satu-satunya data terkait DeepSeek menyebut DeepSeek V3.2 sebagai #3 rekomendasi coding April 2026 dengan 89.2% SWE-bench menurut MangoMind, bukan DeepSeek V4 [2]. Insufficient evidence.

  • Untuk Kimi K2.6, tidak ada benchmark langsung dalam bukti yang diberikan; Stanford HAI hanya menyebut KimiK2.5 berada dalam kelompok 70–76% pada SWE-bench Verified per Februari 2026, bukan Kimi K2.6 [1]. Insufficient evidence.

Perbandingan ringkas

ModelBukti benchmark langsungAngka yang tersediaKekuatan kesimpulan
Claude Opus 4.7AdaSWE-bench Verified 87.6%, GPQA 94.2%, BenchLM 97/100Sedang, tetapi perlu validasi sumber primer
GPT-5.5Sangat terbatasTidak ada angka; hanya klaim relatif via XLemah
DeepSeek V4Tidak adaTidak adaInsufficient evidence
Kimi K2.6Tidak adaTidak adaInsufficient evidence

Evidence notes

  • Sumber paling kuat yang tersedia adalah Stanford HAI karena bersifat teknis dan institusional, tetapi datanya tidak mencakup Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 secara langsung; sumber itu hanya memberi baseline per Februari 2026 untuk Claude 4.5 Opus, KimiK2.5, GPT-5.2, dan model lain [1].

  • LLM Stats, BenchLM, MindStudio, Vellum, The Next Web, dan MangoMind memberikan konteks pasar serta benchmark yang lebih baru, tetapi sebagian tampak sebagai ringkasan pihak ketiga dan bukan dokumentasi primer dari lab model [2][3][4][5][6][7].

  • Vellum mencantumkan area benchmark untuk Claude Opus 4.7 seperti SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, MCP-Atlas, Finance Agent v1.1, OSWorld-Verified, BrowseComp, GPQA, dan benchmark reasoning lain, tetapi snippet yang tersedia tidak memberikan angka spesifik yang bisa dipakai untuk perbandingan [5].

  • MangoMind menyediakan daftar rekomendasi April 2026 untuk coding, tetapi model yang disebut adalah Claude Opus 4.6, GPT-5.4 Pro, dan DeepSeek V3.2, bukan versi target Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 [2].

Limitations / uncertainty

  • Tidak ada bukti primer dari Anthropic, OpenAI, DeepSeek, atau Moonshot/Kimi dalam evidence yang tersedia, sehingga angka-angka harus diperlakukan sebagai laporan pihak ketiga, bukan hasil resmi yang sepenuhnya terverifikasi.

  • Tidak tersedia angka benchmark langsung untuk DeepSeek V4 dan Kimi K2.6, sehingga klaim bahwa salah satu lebih unggul dari Claude Opus 4.7 atau GPT-5.5 tidak dapat didukung.

  • Tidak tersedia angka benchmark lengkap untuk GPT-5.5; unggahan X hanya menyebut perbandingan relatif terhadap Mythos tanpa metodologi dan tanpa skor numerik [31].

  • Ada indikasi pergeseran benchmark: GPQA Diamond tampak hampir jenuh pada model frontier karena Claude Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro berada di sekitar 94.2–94.4% menurut The Next Web [6]. Ini berarti benchmark seperti SWE-bench Pro, Terminal-Bench, OSWorld, BrowseComp, dan evaluasi agentic kemungkinan lebih berguna untuk membedakan model, tetapi bukti angka lintas empat model target belum tersedia.

Summary

Claude Opus 4.7 adalah satu-satunya model dalam daftar yang memiliki bukti benchmark cukup konkret: 87.6% pada SWE-bench Verified, 94.2% pada GPQA, dan skor BenchLM 97/100 menurut sumber pihak ketiga [7][4]. GPT-5.5 hanya memiliki bukti lemah berupa klaim relatif dari X tanpa angka lengkap [31]. DeepSeek V4 dan Kimi K2.6 tidak memiliki data benchmark langsung dalam evidence yang tersedia, sehingga status benchmark keduanya adalah Insufficient evidence.

來源

  • [1] AI Benchmarks 2026: Monthly Leaderboards & Rankings | MangoMindmangomindbd.com

    5. Monthly Updates AI moves fast. We re-test all models monthly and publish updated rankings to reflect the latest releases. 🎯 Quick Recommendations Best AI for Coding (April 2026) 1. •Claude Opus 4.6 - 93.2% SWE-bench 2. •GPT-5.4 Pro - 91.1% SWE-bench 3....

  • [2] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [5] Introducing GPT-5.5 | OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

  • [6] LLM Model Benchmarks 2026 | Siliconflowsiliconflow.com

    Model GRIND (%) AIME (%) GPQA (%) SWE Bench (%) MATH 500 (%) BFCL (%) Alder Polyglot (%) --- --- --- --- Kimi K2 Thinking — — 84.5 71.3 — — — GPT 5.1 — — 88.1 76.3 — — — Claude Haiku 4.5 — — 73 73.3 — — — GPT-5 — — 87.3 74.9 — — 88 Claude Opus 4.1 — — 80.9...

  • [10] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu

    On SWE-bench Verified, top models are tightly clustered in the low-to-mid 70s (Figure 2.5.1). As of February 2026, Claude 4.5 Opus (high reasoning) led at approximately 76.8%, with several others including KimiK2.5, GPT-5.2, and Gemini 3 Flash (high reasoni...

  • [14] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and Financial Analysis | MindStudiomindstudio.ai

    This matters for teams evaluating Opus 4.7 for production use because the model’s capability gains are only useful if they’re integrated into something that works end-to-end. The gap between “this model scores 82.7% on FinanceBench” and “we have a deployed...

  • [17] Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Prothenextweb.com

    On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...

  • [18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com

    LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...

  • [19] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...

  • [21] SWE-bench Verified Benchmark 2026: 35 LLM scores | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...

  • [26] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...