問 GPT-5.5 的 benchmark 是多少,最容易出錯的地方不在數字,而在把不同評測的分數放在同一條尺上比較。若只需要一句短答,目前最穩妥的說法是:GPT-5.5 在 OpenAI 公布的 GDPval 上取得 84.9%;OpenAI 說 GDPval 測試的是 AI 代理在 44 種職業中產出規格明確知識工作的能力。[1]
換句話說,84.9% 是一個很有參考價值的工作能力指標,但它不是通用智力分數,也不是所有任務的總成績。它主要說明 GPT-5.5 在明確交代需求、需要產出具體工作成果的知識任務上表現如何。[1]
先記住這個數字:GDPval 84.9%
如果只是想快速回答 GPT-5.5 的 benchmark,建議這樣說:
OpenAI 表示,GPT-5.5 在 GDPval 得分為 84.9%;GDPval 評估 AI 代理在 44 種職業中完成規格明確知識工作的能力。[
1]
這個說法比單純丟出一個百分比更準確,因為它同時交代了分數、評測名稱與評測範圍。GDPval 不是程式設計測試,也不是生物資訊學測試,更不是第三方綜合排行榜;它的重點在於跨職業的知識工作產出。[1]
主要公開數字一次看懂
| 評測或比較 | 公開提到的數值 | 主要測量什麼 | 怎麼解讀 |
|---|---|---|---|
| GDPval | 84.9% | 跨 44 種職業、規格明確的知識工作 | OpenAI 在 GPT-5.5 發布資訊中直接提到,因此最適合作為一般短答引用。[ |
| Expert-SWE | 73.1% | 程式開發任務;報導稱這是 OpenAI 針對估計需 20 小時完成任務的內部評測 | 對軟體開發情境更有參考價值,但不能直接和 GDPval 比百分比高低。[ |
| BixBench | 80.5% | 現實世界生物資訊學基準測試 | 對生物資訊學任務更貼近;在本文可用來源中,佐證不如 OpenAI 官方 GDPval 數字直接。[ |
| Artificial Analysis Intelligence Index | 第 1 名,領先 3 分 | Artificial Analysis 的第三方模型綜合指標 | 適合看跨模型大方向,但不是 OpenAI 官方單一基準測試。[ |
為什麼這些百分比不能直接比大小
84.9%、73.1%、80.5% 看起來都像百分制分數,但它們不是同一張考卷。
- 84.9% GDPval:看的是跨多種職業、需求定義清楚的知識工作產出。[
1]
- 73.1% Expert-SWE:看的是程式開發任務,而且報導稱它屬於內部評測。[
8]
- 80.5% BixBench:看的是生物資訊學任務。[
10]
因此,真正該問的不是哪個百分比最高,而是哪個 benchmark 最接近你的使用情境。一般知識工作可優先看 GDPval;軟體開發可參考 Expert-SWE;生物資訊學任務則應看 BixBench 是否更貼近問題本身。[1][
8][
10]
Artificial Analysis 的第一名怎麼理解
Artificial Analysis 報導,GPT-5.5 在其 Intelligence Index 中以 3 分領先居首。[3] 同一來源也指出,OpenAI 在五個主要評測中領先,另外三項則落後於 Gemini 3.1 Pro Preview。[
3]
這裡的重點是:第三方指數的第一名,代表 GPT-5.5 按照該平台的方法論綜合排名最高;它不等於模型在每一個單項測試中都拿第一。[3]
小心只看標題數字
有些報導還提到其他 GPT-5.5 數字,例如與法律 AI 能力相關的 91.7%,或與 agentic coding 相關的 82.7%。[4][
5] 這些數字可能對特定領域有意義,但如果測試設計、比較對象與測量目標沒有同樣清楚,拿來回答一般性的 GPT-5.5 benchmark 問題就容易誤導。
更好的做法,是每次引用數字時都把評測名稱一起說出來:不是只說 GPT-5.5 得到 84.9%,而是說它在 GDPval 得到 84.9%;不是只說 73.1%,而是說 Expert-SWE 73.1%。[1][
8]
到底該引用哪一個?
如果你的問題是一般性的 GPT-5.5 表現,最乾淨的引用方式是:
GPT-5.5 根據 OpenAI 公布,在 GDPval 上取得 84.9%;GDPval 測試 AI 代理在 44 種職業中產出規格明確知識工作的能力。[
1]
如果使用情境更明確,則應換成更貼近任務的評測:
- 一般知識工作:84.9% GDPval。[
1]
- 軟體開發:73.1% Expert-SWE。[
8]
- 生物資訊學:80.5% BixBench,並註明目前來源佐證較有限。[
10]
- 跨模型綜合比較:Artificial Analysis Intelligence Index 第 1 名,領先 3 分。[
3]
結論
GPT-5.5 最適合作為短答引用的 benchmark,是 OpenAI 公布的 84.9% GDPval。[1] 但這個數字的意義很明確:它評估的是跨 44 種職業、規格明確的知識工作,不是所有 AI 能力的總分。[
1]
所以,與其問 GPT-5.5 的分數到底是多少,不如先問:你想衡量的是一般知識工作、寫程式、生物資訊學,還是第三方綜合排名?選對 benchmark,數字才有意義。




