報告已發布2 個月前Last edited 上個月18 個來源

AI 大戰白熱化！六大頂尖模型完整實測對決

新鮮出爐的 Claude Opus 4.8 在自主編碼與知識工作居首，GPT 5.5 則是終端編碼與抽象推理的王者；Gemini 3.5 Flash 極速且超值，專攻工具調度。終端機編碼（Terminal Bench 2.0/2.1）：GPT 5.5 以 78.2–82.7% 稱霸，Claude Opus 4.8 落後約 4–8 個百分點。

使用 Studio Global AI 搜尋並查證事實瀏覽更多熱門頁面

Research benchmarks for Claude Opus 4.8, Claude Opus 4.7, GPT-5.5, Gemini 3.5 Flash, Grok 4.3, DeepSeek V4AI-generated editorial hero image for Research benchmarks for Claude Opus 4.8, Claude Opus 4.7, GPT-5.5, Gemini 3.5 Flash, Grok 4.3, DeepSeek V4. Compare them as comprehensively.
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: Research benchmarks for Claude Opus 4.8, Claude Opus 4.7, GPT-5.5, Gemini 3.5 Flash, Grok 4.3, DeepSeek V4. Compare them as comprehensively. Article summary: ### Which model leads what?. Topic tags: deepresearch, general web, user generated, documentation, education. Reference image context from search candidates: Reference image 1: visual subject "# Deep|DeepSeek V4 vs Claude vs GPT-5.4: A 38-Task Benchmark Across Coding, Reasoning, and Financial Research. * **Claude Opus 4.6 (Thinking) and Claude Opus 4.7 tie for #1 overall" source context "Deep|DeepSeek V4 vs Claude vs GPT-5.4: A 38-Task Benchmark ..." Reference image 2: visual subject "# April 2026 AI Model Releases: GPT-5.5, Claude Opus 4.7, DeepSeek V4 + 6 More. GPT-5.5, Claude Opus 4.7, DeepSeek V4, Gemma 4, Nemotron 3 — April 2026 nine model releases compared
openai.com

人工智慧領域的競賽在 2026 年 5 月來到全新高點。Anthropic、OpenAI、Google DeepMind、xAI 與 DeepSeek 相繼推出旗艦級或極具競爭力的新模型。我們匯集官方與第三方獨立測試數據，為你徹底剖析 Claude Opus 4.8、GPT-5.5、Gemini 3.5 Flash、Grok 4.3 與 DeepSeek V4 Pro 的實際表現。

六大模型重點規格速覽

模型	發佈日期	輸入價格（每百萬 tokens）	輸出價格（每百萬 tokens）	輸出速度（tokens/秒）	上下文長度
Claude Opus 4.8	2026 年 5 月 28 日	$5.00	$25.00	~90–100（估計值）	100 萬
Claude Opus 4.7	2026 年 4 月 16 日	$15.00	~$75.00（估計值）	~67–78	20 萬
GPT-5.5	2026 年 4 月 23 日	$5.00	$30.00	~71	40 萬
Gemini 3.5 Flash	2026 年 5 月 19 日	$1.50	$9.00	289	100 萬
Grok 4.3	2026 年 4 月 30 日	$1.25–1.50	~$6.00–8.00（估計值）	~159–207	100 萬
DeepSeek V4 Pro	2026 年 4 月 24 日	~$0.50–2.00（估計值）	~$2.00–8.00（估計值）	~80–100（估計值）	100 萬

重點觀察：Gemini 3.5 Flash 的速度與成本優勢極為顯著——每秒輸出將近 300 個 tokens，是 GPT-5.5 的四倍，且每百萬輸出 tokens 收費僅 $9.00，遠低於 Claude Opus 4.8 的 $25.00 或 GPT-5.5 的 $30.00。

核心基準測試對決

下表為截至 2026 年 5 月下旬最全面的交叉比較。請注意：不同供應商可能使用不同的測試框架，部分分數因來源而異。

基準測試	Claude Opus 4.8	Claude Opus 4.7	GPT-5.5	Gemini 3.5 Flash	Grok 4.3	DeepSeek V4 Pro
SWE-Bench Pro（代理式編碼）	69.2%	64.3%	58.6%	~21.4%*	~19.4%*	~18.1%*
SWE-Bench Verified	~83%（估計值）	87.6%	85.0%	82.1%	81.0%	80.6%
Terminal-Bench 2.0/2.1	74.6%	66.1–69.4%	78.2–82.7%	76.2%	68.5%	65.0%
OSWorld-Verified（電腦操控）	83.4%	82.8%	78.7%	75.0%	72.1%	70.5%
GDPval-AA（知識工作／代理式 Elo）	1,890	1,753	1,620–1,769	1,656	1,500–1,570	1,550
Humanity's Last Exam（使用工具）	57.9%	54.7%	—	—	—	—
Humanity's Last Exam（不使用工具）	49.8%	—	—	—	—	—
GPQA Diamond	~94%（估計值）	94.2%	96.0%	92.4%	90.1–91.5%	95.1%
ARC-AGI-2	~80%（估計值）	80.2%	85.0%	75.8%	76.1%	74.0%
MCP Atlas（工具使用可靠度）	—	77.3%	79.1%	83.6%	74.2%	71.5%
AA Intelligence Index (v4.0)	~59–60（估計值）	59	60	57	53	55
Finance Agent v2	53.9%	51.5%	—	—	—	—
LiveCodeBench (Pass@1)	—	—	~91–92%（估計值）	—	—	93.5%
Codeforces ELO	—	~3,050（估計值）	3,168	—	—	3,206
FrontierMath Tier 1–3	—	43.8%	51.7%	—	—	—
MMLU-Pro	—	—	—	—	—	87.5%
AIME 2025（數學）	—	—	95.2%	—	—	—
BrowseComp	—	79.3%	84.4%	—	—	—

* Gemini 3.5 Flash、Grok 4.3 和 DeepSeek V4 Pro 在 SWE-Bench Pro 的分數來自單一第三方測試 ——Google 自家的模型卡顯示數字有所不同，文末說明。

各領域王者盤點

🏆 Claude Opus 4.8——全能型冠軍

甫於 2026 年 5 月 28 日亮相，立即在多個關鍵領域奪魁：

代理式編碼（SWE-Bench Pro）：69.2%，大幅領先 GPT-5.5 的 58.6% 。
知識工作 Elo（GDPval-AA）：1,890 分，創下該測試新高。
電腦操控（OSWorld）：83.4% ，在數位環境執行任務的穩健度一流。
多學科推理（Humanity's Last Exam）：57.9%（使用工具），展現深厚的跨域理解力。
財務分析（Finance Agent v2）：53.9% 。

Anthropic 稱 Opus 4.8 在「高努力」（high effort）模式下預設開啟，token 消耗與前代差不多，但快速模式速度提升約 2.5 倍、費用降為三分之一。在 BenchLM 暫定排行榜上，Opus 4.8 綜合得分 93/100，位列全球 119 個模型中的第 2 名。

🥈 GPT-5.5——硬核推理與終端操作專家

OpenAI 的 GPT-5.5 在特定面向展現壓倒性優勢：

終端編碼（Terminal-Bench 2.0/2.1）：78.2%–82.7%，比 Claude Opus 4.8 高 4–8 個百分點。
抽象視覺推理（ARC-AGI-2）：85.0% 。
科學推理（GPQA Diamond）：96.0% ，針對博士級科學問題的正確率驚人。
前沿數學（FrontierMath Tier 1–3）：51.7% ，難度極高的數學挑戰。
AA 智慧指數：60 分，為目前所有模型的最高綜合評價。

對於需要多步驟規劃、工具協調的複雜終端工作流，GPT-5.5 是首選。其上下文窗口為 40 萬 tokens，定價策略與 Claude Opus 4.8 相當。

🚀 Gemini 3.5 Flash——速度與價格的破壞者

Google 在 2026 年 I/O 大會上推出的 Gemini 3.5 Flash 是一款「效率優先」的模型，卻展現出越級打怪的實力：

工具調度（MCP Atlas）：83.6% ，在多步驟工具協作上領先群倫。
驚人速度：每秒輸出約 289 個 tokens ，是 GPT-5.5 的四倍、Claude Opus 4.8 的三倍。
超低價格：輸入費用每百萬 tokens 僅 $1.50，輸出 $9.00 ，比 GPT-5.5 便宜至少三倍。
終端編碼：76.2%，緊追 GPT-5.5 。

雖然在 Humanity's Last Exam 和 ARC-AGI-2 等純推理測試上略遜於 Gemini 3.1 Pro，但 Gemini 3.5 Flash 是處理大量代理式工作流、對成本與延遲敏感的場景下的理想方案。

💡 DeepSeek V4 Pro——程式競賽的沉默殺手

DeepSeek 的 V4 Pro 以極具破壞力的定價，在編碼領域交出亮眼成績單：

LiveCodeBench (Pass@1)：93.5% ，即時程式題的通過率居冠。
Codeforces ELO：3,206 ，代表在競技程式設計中的頂尖水準（勝過 GPT-5.5 的 3,168）。
SWE-Bench Verified：80.6%，與 Claude Opus 4.7 的 80.8% 幾乎平手。
MMLU-Pro：87.5% ，多領域知識測驗表現優秀。

V4 Pro 的弱項在於需多檔案協作的代理式編碼（SWE-Bench Pro 約 18.1%）以及部分事實性問答，但它以極低價格提供近乎前沿模型的競爭力，是預算有限但對程式品質要求高的開發者福音。

🤖 Grok 4.3——中堅實力，速度取勝

xAI 的 Grok 4.3 定位為高性價比的泛用型模型：

GPQA Diamond：90.1%，科學推理具備一定競爭力。
輸出速度：159–207 tokens/秒，表現輕快。
超低定價：輸入 $1.25、輸出 ~$2.50（每百萬 tokens）。

Grok 4.3 在 AA 智慧指數獲 53 分，屬中上梯隊，但在多數代理式基準測試（如 SWE-Bench Pro、OSWorld）仍明顯落後第一集團。

重要提醒與限制

基準來源不同：數據來自 Anthropic、OpenAI、Google DeepMind 及獨立測試者，使用的測試框架（harness）不盡相同。例如 GPT-5.5 的 Terminal-Bench 分數，在 Google 的模型卡上為 78.2%，但 OpenAI 自己的報告為 82.7%。
SWE-Bench 的兩個版本：SWE-Bench Pro 是更難的「多檔案架構級修改」，Verified 則是「單一問題修正」。Claude 在 Pro 版明顯領先，Verified 版則大家分數較為接近。
成本效益差距大：DeepSeek V4 Pro、Grok 4.3 和 Gemini 3.5 Flash 的每 token 成本遠低於 Claude Opus 4.8 與 GPT-5.5，適合大規模或延遲敏感的應用。
Gemini 3.5 Flash 的定位：它是「Flash」效率優化系列，並非與其他「Pro」或「Opus」同等級的旗艦。即便如此，它在多項代理式基準中仍表現亮眼。

結論：沒有一個模型能通吃

使用場景	首選模型	理由
複雜自主編碼、多步驟專案	Claude Opus 4.8	SWE-Bench Pro 王者，多檔案修改能力最強
終端命令列操作、長文本理解	GPT-5.5	Terminal-Bench 最高分，MRCR v2 大幅領先
高吞吐量代理工作、預算敏感	Gemini 3.5 Flash	速度最快、價格最低，MCP Atlas 稱冠
競技程式、程式碼生成	DeepSeek V4 Pro	Codeforces ELO 與 LiveCodeBench 雙冠，性價比高
日常泛用、快速互動	Grok 4.3	速度快、價格低，多數任務表現夠用

資料來源

Anthropic 官方（claude/opus）——Opus 4.8 主要基準分數
OpenAI 官方（introducing-gpt-5-5）——GPT-5.5 基準分數
Google DeepMind 模型卡（gemini-3-5-flash）——Gemini 3.5 Flash 官方數據
NIST CAISI 評估報告——DeepSeek V4 Pro 的獨立政府評估
杜克大學分析——Gemini 3.5 Flash 的學術機構評測
第三方綜合平台：dev.to 的六模型交叉測試、BenchLM.ai 排行榜、Artificial Analysis 智慧指數

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

大家也會問