studioglobal
热门发现
报告已发布12 来源

Claude Opus 4.7 vs GPT-5.5:2026 基准对比,以及 DeepSeek V4、Kimi K2.6 的证据空白

真正能做头对头比较的是 Claude Opus 4.7 与 GPT 5.5:GPT 5.5 在 Terminal Bench 2.0 为 82.7%,Claude 为 69.4%;Claude 在 SWE Bench Pro Public 为 64.3%,GPT 5.5 为 58.6% [5]。 没有一个“通吃”的冠军:Claude 在 MCP Atlas 和 FinanceAgent v1.1 更高;GPT 5.5 在 BrowseComp、GDPval、OfficeQA Pro 和 FrontierMath T1–3 更高 [2][5]。

17K0
Ilustrasi perbandingan benchmark AI antara Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6
Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6Ilustrasi AI-generated untuk perbandingan benchmark model AI frontier 2026.
AI 提示

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6. Article summary: Bukti terkuat hanya mendukung head to head Claude Opus 4.7 vs GPT 5.5: GPT 5.5 unggul di Terminal Bench 2.0 (82.7% vs 69.4%), sedangkan Claude unggul di SWE Bench Pro (64.3% vs 58.6%); DeepSeek V4 dan Kimi K2.6 belum.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watc

openai.com

2026 年的 AI 模型榜单很容易看花眼。把 Claude Opus 4.7、GPT-5.5、DeepSeek V4 和 Kimi K2.6 放进同一张排行榜之前,首先要确认:是不是同一个基准测试、同一个模型版本、同一种评测配置。

在现有资料里,最有比较价值的是 Claude Opus 4.7 与 GPT-5.5,因为二者同时出现在 OpenAI 与 Vellum 的相关基准表中 [5][2]。至于 DeepSeek V4 和 Kimi K2.6,来源中没有直接数字;能找到的相近信息分别指向 DeepSeek V3.2、KimiK2.5 和 Kimi K2 Thinking,不能直接替代目标版本 [1][13][6]

先看真正可比的数字

下表只列 Claude Opus 4.7 与 GPT-5.5 在同一基准上的结果。GPT-5.5 Pro 只在来源单独列出时标注。

使用场景基准测试已报告结果怎么解读
代码修复SWE-Bench Pro PublicClaude Opus 4.7 64.3% vs GPT-5.5 58.6% [5]Claude 在这一项领先。
终端/CLI 智能体Terminal-Bench 2.0GPT-5.5 82.7% vs Claude Opus 4.7 69.4% [5]GPT-5.5 的优势最明显。
专业办公任务GDPval;OfficeQA ProGPT-5.5 在 GDPval 为 84.9%,Claude 为 80.3%;GPT-5.5 在 OfficeQA Pro 为 54.1%,Claude 为 43.6% [5]GPT-5.5 在这两项专业工作指标上更高。
金融智能体FinanceAgent v1.1Claude 64.4% vs GPT-5.5 60.0% [5]Claude 在该金融智能体评测中领先。
电脑/浏览器任务OSWorld-Verified;BrowseCompOSWorld 中 GPT-5.5 78.7% vs Claude 78.0%;BrowseComp 中 GPT-5.5 84.4%、GPT-5.5 Pro 90.1% vs Claude 79.3% [2]OSWorld 几乎打平;BrowseComp 上 GPT-5.5 更高。
工具编排MCP AtlasClaude 79.1% vs GPT-5.5 75.3% [2]Claude 更适合优先测试重工具调用、MCP 类场景。
科学与数学推理GPQA Diamond;FrontierMath T1–3GPQA 中 Claude 94.2% vs GPT-5.5 93.6%;FrontierMath 中 GPT-5.5 51.7%、GPT-5.5 Pro 52.4% vs Claude 43.8% [2]GPQA 差距很小;FrontierMath 上 GPT-5.5 更高。

读榜单前,先避开三个坑

1. 不要把 SWE-Bench Pro Public 和 SWE-bench Verified 混着比

OpenAI 的头对头表使用的是 SWE-Bench Pro Public [5]。这不等同于 SWE-bench Verified。BenchLM 对 SWE-bench Verified 的说明是:它是 SWE-bench 的人工验证子集,用真实 GitHub issue 测试模型修复代码的能力,涉及 Django、Flask、scikit-learn 等流行 Python 仓库 [21]

因此,Claude 在 SWE-Bench Pro Public 上的 64.3%,不能直接拿去和其他榜单里的 SWE-bench Verified 分数比较 [5][21]。基准名称、评测框架、评测日期、模型配置都要先对齐。

2. GPQA Diamond 已经不太能拉开前沿模型差距

Vellum 给出的 GPQA Diamond 结果是:Claude Opus 4.7 为 94.2%,GPT-5.5 为 93.6% [2]。The Next Web 也提到,Claude Opus 4.7 为 94.2%,GPT-5.4 Pro 为 94.4%,Gemini 3.1 Pro 为 94.3%,并认为这些差距处在噪声范围内 [17]

换句话说,GPQA Diamond 仍然能作为通用推理能力的信号,但如果要做生产选型,它不适合作为唯一依据。

3. 第三方榜单数字不同,并不一定代表谁错了

以 SWE-bench Verified 为例,Claude Opus 4.7 在不同来源中的数字并不完全一致。BenchLM 报告 Claude Opus 4.7 Adaptive 在 2026 年 4 月 24 日为 87.6% [21],LLM Stats 也列出 87.6% [18];但 LM Council 给出 Claude Opus 4.7 max 为 83.5% ±1.7 [10],MindStudio 则提到 82.4% [14]

这类差异通常可能来自模型配置、评测框架、测试日期、是否允许重试、是否启用特定推理模式等因素。对工程团队来说,公开榜单更适合用来缩小候选范围,而不是替代自己在代码库、权限模型和工作流上的实测。

Claude Opus 4.7:更值得先测代码修复和工具编排

Claude Opus 4.7 最清晰的优势集中在代码修复和多工具智能体场景。OpenAI 表中,Claude 在 SWE-Bench Pro Public 上以 64.3% 对 GPT-5.5 的 58.6% 领先;在 FinanceAgent v1.1 上,Claude 也以 64.4% 对 GPT-5.5 的 60.0% 领先 [5]。Vellum 还报告 Claude 在 MCP Atlas 上为 79.1%,高于 GPT-5.5 的 75.3% [2]

Anthropic 自己的发布说明也强调了与 agentic workflow 相关的伙伴评测:Hebbia 观察到其核心编排智能体在工具调用准确率和规划方面有两位数提升;Rakuten-SWE-Bench 则称 Opus 4.7 解决的生产任务数量是 Opus 4.6 的 3 倍,并在 Code Quality 与 Test Quality 上有两位数增长 [19]。这些信号有参考价值,但仍不同于你自己业务负载上的独立评测。

实际选择上,如果重点是自主修复代码库、MCP 工具链,或需要长链路多工具调用的工作流,Claude Opus 4.7 应该进入第一批测试名单。

GPT-5.5:终端、浏览器搜索、办公和数学项更亮眼

GPT-5.5 的优势在 Terminal-Bench 2.0 上最突出。OpenAI 报告 GPT-5.5 达到 82.7%,高于 Claude Opus 4.7 的 69.4% 和 Gemini 3.1 Pro 的 68.5% [5]。同一张表里,GPT-5.5 在 GDPval wins/ties 上为 84.9%,Claude 为 80.3%;在 OfficeQA Pro 上,GPT-5.5 为 54.1%,Claude 为 43.6% [5]

Vellum 进一步补充了 computer-use、搜索和推理场景:GPT-5.5 在 OSWorld-Verified 上略高于 Claude,78.7% 对 78.0%;在 BrowseComp 上为 84.4%,高于 Claude 的 79.3%;在 FrontierMath T1–3 上为 51.7%,高于 Claude 的 43.8% [2]。BrowseComp 中,Vellum 还列出 GPT-5.5 Pro 为 90.1% [2]

在编程相关任务上,结论则更细分:GPT-5.5 在终端型任务很强,但在 SWE-Bench Pro Public 中落后于 Claude Opus 4.7 [5]。OpenAI 的 GPT-5.5 System Card 还介绍了 CoT-Control 评测套件,包含来自 GPQA、MMLU-Pro、HLE、BFCL 和 SWE-Bench Verified 等基准的 13,000 多个任务 [26];不过该来源没有给出 GPT-5.5 与 DeepSeek V4 或 Kimi K2.6 的直接对比 [26]

DeepSeek V4 和 Kimi K2.6:目前不能公平排名

DeepSeek V4 在现有来源中没有直接基准数据。最接近的信息来自 DeepSeek V3.2:MangoMind 在 2026 年 4 月的编码推荐中,将 DeepSeek V3.2 列为 89.2% SWE-bench,低于 Claude Opus 4.6 的 93.2% 和 GPT-5.4 Pro 的 91.1% [1]。但 DeepSeek V3.2 的数字不能用来推断 DeepSeek V4 的表现。

Kimi K2.6 的情况类似。Stanford HAI 提到,截至 2026 年 2 月,KimiK2.5 在 SWE-bench Verified 上处于 70%–76% 的模型群组中 [13]。Siliconflow 则列出 Kimi K2 Thinking 的 GPQA 为 84.5、SWE Bench 为 71.3 [6]。二者都不是 Kimi K2.6,只能作为 Kimi 生态的背景信息,不能当作 Kimi K2.6 的直接证据。

给产品和工程团队的选型建议

如果你的核心需求是……建议优先测试依据注意事项
终端/CLI 编程智能体GPT-5.5Terminal-Bench 2.0:GPT-5.5 82.7% vs Claude 69.4% [5]仍要在自己的 shell 环境、权限策略和 CI/CD 流程中复测。
自主代码库修复Claude Opus 4.7,再用 GPT-5.5 对照SWE-Bench Pro Public:Claude 64.3% vs GPT-5.5 58.6% [5]不要与 SWE-bench Verified 直接混比 [21]
MCP 或多工具编排Claude Opus 4.7MCP Atlas:Claude 79.1% vs GPT-5.5 75.3% [2]重点验证你的工具 schema、重试逻辑和访问控制。
浏览器/搜索型智能体GPT-5.5 或 GPT-5.5 ProBrowseComp:GPT-5.5 84.4%,GPT-5.5 Pro 90.1%,Claude 79.3% [2]BrowseComp 不能覆盖所有企业研究场景。
金融/专业工作流Claude 与 GPT-5.5 都应 split testClaude 在 FinanceAgent v1.1 领先;GPT-5.5 在 GDPval 和 OfficeQA Pro 领先 [5]MindStudio 提醒,从金融基准分数到可部署工具之间,差距常常在端到端基础设施,而不只是模型智力 [14]
科学推理不要只看 GPQAVellum 中 Claude 与 GPT-5.5 的 GPQA Diamond 分数非常接近 [2]任务若偏特定学科,应建立领域内评测集。

结论

如果只看当前可用的头对头证据,GPT-5.5 更适合作为终端/CLI 智能体、浏览器搜索、办公任务和部分数学基准的优先候选 [5][2]。Claude Opus 4.7 则更适合作为 SWE-Bench Pro Public、MCP/工具编排和 FinanceAgent v1.1 场景的优先候选 [5][2]

DeepSeek V4 与 Kimi K2.6 目前还不能被公平排在 Claude Opus 4.7 或 GPT-5.5 前后。现有资料提到的是 DeepSeek V3.2、KimiK2.5 和 Kimi K2 Thinking,而不是 DeepSeek V4 与 Kimi K2.6;因此,声称它们已经超过 Claude Opus 4.7 或 GPT-5.5,尚缺少这组来源中的直接基准证据 [1][13][6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

  • 真正能做头对头比较的是 Claude Opus 4.7 与 GPT 5.5:GPT 5.5 在 Terminal Bench 2.0 为 82.7%,Claude 为 69.4%;Claude 在 SWE Bench Pro Public 为 64.3%,GPT 5.5 为 58.6% [5]。
  • 没有一个“通吃”的冠军:Claude 在 MCP Atlas 和 FinanceAgent v1.1 更高;GPT 5.5 在 BrowseComp、GDPval、OfficeQA Pro 和 FrontierMath T1–3 更高 [2][5]。
  • DeepSeek V4 与 Kimi K2.6 目前不能与二者公平排名;现有来源只给出了 DeepSeek V3.2、KimiK2.5 和 Kimi K2 Thinking 等其他版本的数据 [1][13][6]。

人们还问

“Claude Opus 4.7 vs GPT-5.5:2026 基准对比,以及 DeepSeek V4、Kimi K2.6 的证据空白”的简短答案是什么?

真正能做头对头比较的是 Claude Opus 4.7 与 GPT 5.5:GPT 5.5 在 Terminal Bench 2.0 为 82.7%,Claude 为 69.4%;Claude 在 SWE Bench Pro Public 为 64.3%,GPT 5.5 为 58.6% [5]。

首先要验证的关键点是什么?

真正能做头对头比较的是 Claude Opus 4.7 与 GPT 5.5:GPT 5.5 在 Terminal Bench 2.0 为 82.7%,Claude 为 69.4%;Claude 在 SWE Bench Pro Public 为 64.3%,GPT 5.5 为 58.6% [5]。 没有一个“通吃”的冠军:Claude 在 MCP Atlas 和 FinanceAgent v1.1 更高;GPT 5.5 在 BrowseComp、GDPval、OfficeQA Pro 和 FrontierMath T1–3 更高 [2][5]。

接下来在实践中我应该做什么?

DeepSeek V4 与 Kimi K2.6 目前不能与二者公平排名;现有来源只给出了 DeepSeek V3.2、KimiK2.5 和 Kimi K2 Thinking 等其他版本的数据 [1][13][6]。

接下来我应该探索哪个相关主题?

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6:2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较?

对照“DeepSeek V4 工程解析:1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

研究问题

Lakukan riset mendalam tentang benchmark Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6.

Studio Global AI32 来源

引用的答案

Berdasarkan bukti yang tersedia, benchmark yang paling bisa dibahas secara konkret hanya untuk Claude Opus 4.7. Untuk GPT-5.5, bukti yang tersedia hanya satu unggahan X tanpa angka benchmark lengkap; untuk DeepSeek V4 dan Kimi K2.6 tidak ada bukti benchmark langsung dalam sumber yang diberikan. Karena itu, perbandingan empat model ini belum bisa dibuat secara kuat; Insufficient evidence untuk klaim komparatif penuh.

Key findings

  • Claude Opus 4.7 dilaporkan mencetak 87.6% pada SWE-bench Verified, 94.2% pada GPQA, memiliki konteks 1 juta token, peningkatan vision 3.3x, mode effort “xhigh”, dan harga $5/$25 menurut LLM Stats [7].

  • Claude Opus 4.7 juga dilaporkan menempati peringkat #2 dari 110 model pada leaderboard provisional BenchLM dengan skor keseluruhan 97/100, serta peringkat #2 dari 14 pada verified leaderboard [4].

  • Pada GPQA Diamond, laporan The Next Web menyebut Claude Opus 4.7 mencetak 94.2%, GPT-5.4 Pro 94.4%, dan Gemini 3.1 Pro 94.3%; sumber itu menilai selisihnya berada dalam noise dan benchmark ini sudah cenderung jenuh di antara model frontier [6].

  • Untuk coding, bukti yang tersedia mendukung bahwa Claude Opus 4.7 sangat kuat, tetapi angka SWE-bench yang tersedia tidak sepenuhnya konsisten antar-sumber: LLM Stats menyebut 87.6% untuk SWE-bench Verified [7], sementara Stanford HAI hanya memberi konteks lebih lama bahwa per Februari 2026 Claude 4.5 Opus high reasoning berada sekitar 76.8% dan model lain seperti KimiK2.5, GPT-5.2, serta Gemini 3 Flash high reasoning berada di kisaran 70–76% [1].

  • Untuk analisis finansial, MindStudio menyebut contoh gap antara skor FinanceBench 82.7% dan kesiapan deployment produksi, tetapi bukti snippet yang tersedia tidak cukup untuk memastikan konteks metodologi, pembanding, atau apakah angka itu diklaim sebagai skor resmi Claude Opus 4.7 [3].

  • Untuk GPT-5.5, satu-satunya bukti langsung yang tersedia adalah unggahan X yang menyatakan GPT-5.5 underperform terhadap Mythos pada SWE-Bench Pro dan HLE, setara pada GPQA Diamond, BrowseComp, dan OSWorld-Verified, serta lebih baik pada Terminal-Bench 2.0 [31]. Bukti ini lemah untuk riset benchmark karena tidak menyediakan angka, metodologi, atau sumber primer [31].

  • Untuk DeepSeek V4, tidak ada benchmark langsung dalam bukti yang diberikan; satu-satunya data terkait DeepSeek menyebut DeepSeek V3.2 sebagai #3 rekomendasi coding April 2026 dengan 89.2% SWE-bench menurut MangoMind, bukan DeepSeek V4 [2]. Insufficient evidence.

  • Untuk Kimi K2.6, tidak ada benchmark langsung dalam bukti yang diberikan; Stanford HAI hanya menyebut KimiK2.5 berada dalam kelompok 70–76% pada SWE-bench Verified per Februari 2026, bukan Kimi K2.6 [1]. Insufficient evidence.

Perbandingan ringkas

ModelBukti benchmark langsungAngka yang tersediaKekuatan kesimpulan
Claude Opus 4.7AdaSWE-bench Verified 87.6%, GPQA 94.2%, BenchLM 97/100Sedang, tetapi perlu validasi sumber primer
GPT-5.5Sangat terbatasTidak ada angka; hanya klaim relatif via XLemah
DeepSeek V4Tidak adaTidak adaInsufficient evidence
Kimi K2.6Tidak adaTidak adaInsufficient evidence

Evidence notes

  • Sumber paling kuat yang tersedia adalah Stanford HAI karena bersifat teknis dan institusional, tetapi datanya tidak mencakup Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 secara langsung; sumber itu hanya memberi baseline per Februari 2026 untuk Claude 4.5 Opus, KimiK2.5, GPT-5.2, dan model lain [1].

  • LLM Stats, BenchLM, MindStudio, Vellum, The Next Web, dan MangoMind memberikan konteks pasar serta benchmark yang lebih baru, tetapi sebagian tampak sebagai ringkasan pihak ketiga dan bukan dokumentasi primer dari lab model [2][3][4][5][6][7].

  • Vellum mencantumkan area benchmark untuk Claude Opus 4.7 seperti SWE-bench Verified, SWE-bench Pro, Terminal-Bench 2.0, MCP-Atlas, Finance Agent v1.1, OSWorld-Verified, BrowseComp, GPQA, dan benchmark reasoning lain, tetapi snippet yang tersedia tidak memberikan angka spesifik yang bisa dipakai untuk perbandingan [5].

  • MangoMind menyediakan daftar rekomendasi April 2026 untuk coding, tetapi model yang disebut adalah Claude Opus 4.6, GPT-5.4 Pro, dan DeepSeek V3.2, bukan versi target Claude Opus 4.7, GPT-5.5, DeepSeek V4, atau Kimi K2.6 [2].

Limitations / uncertainty

  • Tidak ada bukti primer dari Anthropic, OpenAI, DeepSeek, atau Moonshot/Kimi dalam evidence yang tersedia, sehingga angka-angka harus diperlakukan sebagai laporan pihak ketiga, bukan hasil resmi yang sepenuhnya terverifikasi.

  • Tidak tersedia angka benchmark langsung untuk DeepSeek V4 dan Kimi K2.6, sehingga klaim bahwa salah satu lebih unggul dari Claude Opus 4.7 atau GPT-5.5 tidak dapat didukung.

  • Tidak tersedia angka benchmark lengkap untuk GPT-5.5; unggahan X hanya menyebut perbandingan relatif terhadap Mythos tanpa metodologi dan tanpa skor numerik [31].

  • Ada indikasi pergeseran benchmark: GPQA Diamond tampak hampir jenuh pada model frontier karena Claude Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro berada di sekitar 94.2–94.4% menurut The Next Web [6]. Ini berarti benchmark seperti SWE-bench Pro, Terminal-Bench, OSWorld, BrowseComp, dan evaluasi agentic kemungkinan lebih berguna untuk membedakan model, tetapi bukti angka lintas empat model target belum tersedia.

Summary

Claude Opus 4.7 adalah satu-satunya model dalam daftar yang memiliki bukti benchmark cukup konkret: 87.6% pada SWE-bench Verified, 94.2% pada GPQA, dan skor BenchLM 97/100 menurut sumber pihak ketiga [7][4]. GPT-5.5 hanya memiliki bukti lemah berupa klaim relatif dari X tanpa angka lengkap [31]. DeepSeek V4 dan Kimi K2.6 tidak memiliki data benchmark langsung dalam evidence yang tersedia, sehingga status benchmark keduanya adalah Insufficient evidence.

来源

  • [1] AI Benchmarks 2026: Monthly Leaderboards & Rankings | MangoMindmangomindbd.com

    5. Monthly Updates AI moves fast. We re-test all models monthly and publish updated rankings to reflect the latest releases. 🎯 Quick Recommendations Best AI for Coding (April 2026) 1. •Claude Opus 4.6 - 93.2% SWE-bench 2. •GPT-5.4 Pro - 91.1% SWE-bench 3....

  • [2] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [5] Introducing GPT-5.5 | OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

  • [6] LLM Model Benchmarks 2026 | Siliconflowsiliconflow.com

    Model GRIND (%) AIME (%) GPQA (%) SWE Bench (%) MATH 500 (%) BFCL (%) Alder Polyglot (%) --- --- --- --- Kimi K2 Thinking — — 84.5 71.3 — — — GPT 5.1 — — 88.1 76.3 — — — Claude Haiku 4.5 — — 73 73.3 — — — GPT-5 — — 87.3 74.9 — — 88 Claude Opus 4.1 — — 80.9...

  • [10] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude 4.5 ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu

    On SWE-bench Verified, top models are tightly clustered in the low-to-mid 70s (Figure 2.5.1). As of February 2026, Claude 4.5 Opus (high reasoning) led at approximately 76.8%, with several others including KimiK2.5, GPT-5.2, and Gemini 3 Flash (high reasoni...

  • [14] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, and Financial Analysis | MindStudiomindstudio.ai

    This matters for teams evaluating Opus 4.7 for production use because the model’s capability gains are only useful if they’re integrated into something that works end-to-end. The gap between “this model scores 82.7% on FinanceBench” and “we have a deployed...

  • [17] Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Prothenextweb.com

    On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...

  • [18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com

    LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...

  • [19] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...

  • [21] SWE-bench Verified Benchmark 2026: 35 LLM scores | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...

  • [26] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...