| ~19.4%* |
| ~18.1%* |
| SWE-Bench Verified | ~83% (est) | 87.6% | 85.0% | 82.1% | 81.0% | 80.6% |
| Terminal-Bench 2.0/2.1 (終端機編程) | 74.6% | 66.1–69.4% | 78.2–82.7% | 76.2% | 68.5% | 65.0% |
| OSWorld-Verified (電腦操作) | 83.4% | 82.8% | 78.7% | 75.0% | 72.1% | 70.5% |
| GDPval-AA (知識工作 / Elo分) | 1890 | 1753 | 1620–1769 | 1656 | 1500–1570 | 1550 |
| Humanity's Last Exam (用工具) | 57.9% | 54.7% | — | — | — | — |
| Humanity's Last Exam (唔用工具) | 49.8% | — | — | — | — | — |
| GPQA Diamond (博士級科學) | ~94% (est) | 94.2% | 96.0% | 92.4% | 90.1–91.5% | 95.1% |
| ARC-AGI-2 (抽象推理) | ~80% (est) | 80.2% | 85.0% | 75.8% | 76.1% | 74.0% |
| MCP Atlas (工具使用可靠度) | — | 77.3% | 79.1% | 83.6% | 74.2% | 71.5% |
| AA Intelligence Index (v4.0) | ~59–60 (est) | 59 | 60 | 57 | 53 | 55 |
| Finance Agent v2 (財務分析) | 53.9% | 51.5% | — | — | — | — |
| LiveCodeBench (Pass@1) | — | — | ~91–92% (est) | — | — | 93.5% |
| Codeforces ELO (競技編程) | — | ~3050 (est) | 3168 | — | — | 3206 |
| FrontierMath Tier 1–3 (數學) | — | 43.8% | 51.7% | — | — | — |
| MMLU-Pro (多任務語言理解) | — | — | — | — | — | 87.5% |
| AIME 2025 (數學) | — | — | 95.2% | — | — | — |
| BrowseComp | — | 79.3% | 84.4% | — | — | — |
* Gemini 3.5 Flash、Grok 4.3 同 DeepSeek V4 Pro 嘅 SWE-Bench Pro 分數係來自一個第三方測試 — Google 官方喺佢哋自己嘅模型卡入面俾出嘅分數係唔同㗎,呢度要留意返。
跑分好重要,但現實世界用起上嚟,性價比 同 實際體驗 先係最關鍵。下面個表幫你睇清佢哋嘅「使用成本」同「硬件」規格:
睇完一大堆數字,係時候同你分析下,究竟邊個模型喺唔同領域最耍家:
啱啱5月28號先出世嘅 Claude Opus 4.8,一出場就氣勢如虹。佢喺 自主編程(SWE-Bench Pro,69.2%)、知識工作(GDPval-AA,1890 Elo)、電腦操作(OSWorld,83.4%)、跨學科推理(Humanity's Last Exam) 同埋 財務分析 呢啲高難度項目都係第一名 。喺一個綜合評分榜上更加係排全場第二,攞到93/100分,實力非同小可
。
OpenAI 嘅 GPT-5.5 就喺第二條戰線稱霸。佢最擅長係 終端機編程(Terminal-Bench,78.2–82.7%) 同埋 抽象視覺推理(ARC-AGI-2,85.0%)。喺 博士級科學(GPQA Diamond) 同 數學(FrontierMath) 方面都係領先,個綜合智力指數(AA Intelligence Index)更加攞到60分,係全場最高 。
Google 嘅 Gemini 3.5 Flash 真係夠晒「Flash」,佢唔係要爭做全科狀元,而係專攻 實際應用同效率。佢嘅 工具使用協調能力(MCP Atlas,83.6%) 係全場最強,而且輸出速度達到 每秒289個token,比其他模型 快成4倍,價錢仲要係最平 。對於需要快、狠、準,又要慳住荷包嘅高流量工作,佢絕對係首選。
DeepSeek V4 Pro 擺明係要嚟「挑機」嘅。佢喺競技編程方面嘅實力令人震驚,Codeforces ELO 高達 3206,LiveCodeBench 有 93.5%,全部都係第一名 。雖然喺一啲複雜嘅自主代理任務上稍為落後,但考慮到佢嘅價錢只係其他模型嘅「零頭」,對於編程高手同開發者嚟講,性價比極高。
xAI 嘅 Grok 4.3 表現中規中矩,喺 AA Index 有53分,GPQA 有90.1%,速度唔錯(159–207 tps),價錢都相當有競爭力。佢喺法律同金融呢啲專業領域嘅跑分特別標青,但喺大部分自主代理測試中都落後於前面幾位大佬 。
作為 Claude Opus 4.8 嘅「上手」,Opus 4.7 喺 SWE-bench Verified (87.6%) 仍然好打得,但已經俾自己嘅「接班人」全面超越。科技界就係咁殘酷,不進則退 。
睇呢啲比較嘅時候,有幾點你一定要記住:
Comments
0 comments