先講結論:如果你問「GPT-5.5 嘅 benchmark 係幾多?」最穩陣嘅短答案係 GDPval 84.9%。OpenAI 自己公布 GPT-5.5 喺 GDPval 取得 84.9%,並形容 GDPval 係測試 AI agent 能否產出橫跨 44 個職業、清楚界定嘅知識工作成果。[1]
但呢個數字唔應該被讀成「GPT-5.5 嘅總分」或者「所有任務都 84.9%」。Benchmark 好似科技圈常講嘅跑分:要睇佢跑緊邊條賽道。GDPval 主要講知識工作、任務理解同交付具體成果;唔係 coding、法律、生物資訊學或者第三方綜合排行榜嘅同一回事。[1]
一句話點答:GDPval 84.9%
如果只可以引用一個數,建議咁寫:
根據 OpenAI,GPT-5.5 喺 GDPval 取得 84.9%;GDPval 用嚟測試 AI agent 能否完成橫跨 44 個職業、清楚規格化嘅知識工作。[
1]
呢個講法最乾淨,因為數字、benchmark 名稱同測試範圍都一齊講清楚。單講 84.9% 會少咗上下文;而將唔同 benchmark 嘅百分比排埋一齊鬥高低,就更加容易誤導。
公開提到嘅主要數字
| 評測或比較 | 公開提到嘅數字 | 主要量度乜 | 點樣理解 |
|---|---|---|---|
| GDPval | 84.9% | 橫跨 44 個職業、要求清楚嘅知識工作 | OpenAI 公開公布,最適合做一般短答引用。[ |
| Expert-SWE | 73.1% | Coding 任務;報道指係 OpenAI 內部評測,任務估計需時 20 小時完成 | 對軟件開發場景更貼近,但唔應直接同 GDPval 比高低。[ |
| BixBench | 80.5% | 真實世界生物資訊學 benchmark | 對生物資訊學有參考價值;但以現有資料計,證據力度唔及 OpenAI 自己公布嘅 GDPval 直接。[ |
| Artificial Analysis Intelligence Index | 第 1 位,領先 3 分 | 第三方模型綜合指數 | 有助睇大局比較,但唔係 OpenAI 官方單一 benchmark。[ |
點解唔可以淨係比較百分比
84.9%、73.1%、80.5% 睇落都係百分比,好似可以直接排隊。但其實每個數都喺量度唔同嘢:
- GDPval 84.9%:指向多職業、規格清楚嘅知識工作成果。[
1]
- Expert-SWE 73.1%:指向 coding 任務,而且報道稱屬於內部評測。[
8]
- BixBench 80.5%:指向生物資訊學任務。[
10]
所以更實際嘅問法唔係「邊個百分比最高」,而係「邊個 benchmark 最似你想用 GPT-5.5 做嘅事」。如果係一般知識工作,GDPval 係較好參考;如果係寫 code 或修 software issue,Expert-SWE 更貼題;如果係生物資訊學,BixBench 先係較接近嘅測試範圍。[1][
8][
10]
Artificial Analysis 嘅第一名代表乜
第三方平台 Artificial Analysis 指,GPT-5.5 喺佢哋嘅 Intelligence Index 以 3 分優勢排第一。[3] 同一資料亦提到,OpenAI 喺 5 個主要評測項目領先,但另有 3 個項目排喺 Gemini 3.1 Pro Preview 之後。[
3]
呢個細節好重要:第三方綜合指數攞第一,唔等於每一個單項測試都贏。比較準確嘅讀法係:按 Artificial Analysis 自己嘅方法,GPT-5.5 整體排最前;但逐項能力仍然有高低。[3]
見到 91.7% 或 82.7%,要先問測緊乜
有啲報道會提到其他 GPT-5.5 分數,例如同法律 AI 能力相關嘅 91.7%,或者同 agentic coding 相關嘅 82.7%。[4][
5] 呢啲數字未必冇用,但只適合用喺相應專項討論。
如果你要一個一般性 benchmark 答案,呢類孤立 headline 數字通常唔夠穩陣。除非測試設計、比較對象同量度目標都講得好清楚,否則最好唔好將佢哋同 OpenAI 直接公布、範圍清楚嘅 GDPval 84.9% 放埋一齊當同類分數比較。[1]
實際應該引用邊個數?
視乎你寫緊或者問緊咩:
- 一般知識工作/工作模型定位:引用 GPT-5.5 喺 GDPval 取得 84.9%。[
1]
- 軟件開發或 coding 任務:引用 Expert-SWE 73.1%,並說明係 coding 任務內部評測。[
8]
- 生物資訊學:可提 BixBench 80.5%,但要註明資料來源相對冇 GDPval 咁直接。[
10]
- 大範圍模型比較:可提 Artificial Analysis Intelligence Index 第 1 位、領先 3 分,但要記住呢係第三方綜合指數。[
3]
總結
GPT-5.5 最適合用嚟做一般短答嘅 benchmark,是 GDPval 84.9%。[1] 呢個數字來自 OpenAI,並且測試範圍講得清楚:橫跨 44 個職業、清楚規格化嘅知識工作。[
1]
至於其他分數,唔係唔重要,而係要放返入正確場景。Benchmark 唔係一張萬能成績表;對讀者真正有用嘅,係知道每個分數究竟代表邊種能力。




