| GPT-5.5 | 2026 年 4 月 23 日 | $5.00 | $30.00 | ~71 | 40 萬 |
| Gemini 3.5 Flash | 2026 年 5 月 19 日 | $1.50 | $9.00 | 289 | 100 萬 |
| Grok 4.3 | 2026 年 4 月 30 日 | $1.25–1.50 | ~$6.00–8.00(估計值) | ~159–207 | 100 萬 |
| DeepSeek V4 Pro | 2026 年 4 月 24 日 | ~$0.50–2.00(估計值) | ~$2.00–8.00(估計值) | ~80–100(估計值) | 100 萬 |
重點觀察:Gemini 3.5 Flash 的速度與成本優勢極為顯著——每秒輸出將近 300 個 tokens,是 GPT-5.5 的四倍,且每百萬輸出 tokens 收費僅 $9.00,遠低於 Claude Opus 4.8 的 $25.00 或 GPT-5.5 的 $30.00。
下表為截至 2026 年 5 月下旬最全面的交叉比較。請注意:不同供應商可能使用不同的測試框架,部分分數因來源而異。
* Gemini 3.5 Flash、Grok 4.3 和 DeepSeek V4 Pro 在 SWE-Bench Pro 的分數來自單一第三方測試 ——Google 自家的模型卡顯示數字有所不同,文末說明。
甫於 2026 年 5 月 28 日亮相,立即在多個關鍵領域奪魁:
Anthropic 稱 Opus 4.8 在「高努力」(high effort)模式下預設開啟,token 消耗與前代差不多,但快速模式速度提升約 2.5 倍、費用降為三分之一 。在 BenchLM 暫定排行榜上,Opus 4.8 綜合得分 93/100,位列全球 119 個模型中的第 2 名
。
OpenAI 的 GPT-5.5 在特定面向展現壓倒性優勢:
Google 在 2026 年 I/O 大會上推出的 Gemini 3.5 Flash 是一款「效率優先」的模型,卻展現出越級打怪的實力:
雖然在 Humanity's Last Exam 和 ARC-AGI-2 等純推理測試上略遜於 Gemini 3.1 Pro,但 Gemini 3.5 Flash 是處理大量代理式工作流、對成本與延遲敏感的場景下的理想方案 。
DeepSeek 的 V4 Pro 以極具破壞力的定價,在編碼領域交出亮眼成績單:
xAI 的 Grok 4.3 定位為高性價比的泛用型模型:
| 使用場景 | 首選模型 | 理由 |
|---|---|---|
| 複雜自主編碼、多步驟專案 | Claude Opus 4.8 | SWE-Bench Pro 王者,多檔案修改能力最強 |
| 終端命令列操作、長文本理解 | GPT-5.5 | Terminal-Bench 最高分,MRCR v2 大幅領先 |
| 高吞吐量代理工作、預算敏感 | Gemini 3.5 Flash | 速度最快、價格最低,MCP Atlas 稱冠 |
| 競技程式、程式碼生成 | DeepSeek V4 Pro | Codeforces ELO 與 LiveCodeBench 雙冠,性價比高 |
| 日常泛用、快速互動 | Grok 4.3 | 速度快、價格低,多數任務表現夠用 |
Comments
0 comments