答案已發布3 個月前Last edited 2 個月前10 來源

GPT-5.5 benchmark：GDPval 84.9% 其實代表乜？

最穩陣嘅短答係 GDPval 84.9%：OpenAI 自己公布呢個數字，並指 GDPval 測試橫跨 44 個職業嘅清楚界定知識工作。[1] Expert SWE 73.1% 同 BixBench 80.5% 量度嘅任務範圍唔同，唔應該直接同 GDPval 鬥高低。[8][10] Artificial Analysis 將 GPT 5.5 排喺 Intelligence Index 第一、領先 3 分；但第一名唔代表每個單項測試都贏。[3]

使用 Studio Global AI 搜尋並查核事實瀏覽更多熱門頁面

Abstrakte KI-Illustration zu GPT-5.5-Benchmarks und dem GDPval-Wert von 84,9 Prozent — GPT-5.5-Benchmark erklärt: Was 84,9 % auf GDPval wirklich bedeutenKI-generierte Illustration zum Vergleich von GPT-5.5-Benchmarks.
AI 提示
Create a landscape editorial hero image for this Studio Global article: GPT-5.5-Benchmark erklärt: Was 84,9 % auf GDPval wirklich bedeuten. Article summary: Für eine knappe, belastbare Einordnung ist 84,9 % auf GDPval der beste GPT 5.5 Wert: OpenAI nennt ihn selbst und beschreibt GDPval als Test für klar spezifizierte Wissensarbeit über 44 Berufe.. Topic tags: ai, openai, chatgpt, gpt 5, benchmarks. Reference image context from search candidates: Reference image 1: visual subject "![Image 1](https://cdn.sanity.io/images/6vfeftx9/articles/9052d745e6337cd4369bde9219bcf511bebec944-4644x1551.png?w=1200&auto=format) GPT-5.5 tops the Artificial Analysis Intelligen" source context "OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysis" Reference image 2: visual subject "![Image 1](https://cdn.sanity.io/images/6vfeftx9/articles/9052d745e6337cd4369bde9219bcf511bebec944-4644x1551.png?
openai.com

先講結論：如果你問「GPT-5.5 嘅 benchmark 係幾多？」最穩陣嘅短答案係 GDPval 84.9%。OpenAI 自己公布 GPT-5.5 喺 GDPval 取得 84.9%，並形容 GDPval 係測試 AI agent 能否產出橫跨 44 個職業、清楚界定嘅知識工作成果。

但呢個數字唔應該被讀成「GPT-5.5 嘅總分」或者「所有任務都 84.9%」。Benchmark 好似科技圈常講嘅跑分：要睇佢跑緊邊條賽道。GDPval 主要講知識工作、任務理解同交付具體成果；唔係 coding、法律、生物資訊學或者第三方綜合排行榜嘅同一回事。

一句話點答：GDPval 84.9%

如果只可以引用一個數，建議咁寫：

根據 OpenAI，GPT-5.5 喺 GDPval 取得 84.9%；GDPval 用嚟測試 AI agent 能否完成橫跨 44 個職業、清楚規格化嘅知識工作。

呢個講法最乾淨，因為數字、benchmark 名稱同測試範圍都一齊講清楚。單講 84.9% 會少咗上下文；而將唔同 benchmark 嘅百分比排埋一齊鬥高低，就更加容易誤導。

公開提到嘅主要數字

評測或比較	公開提到嘅數字	主要量度乜	點樣理解
GDPval	84.9%	橫跨 44 個職業、要求清楚嘅知識工作	OpenAI 公開公布，最適合做一般短答引用。
Expert-SWE	73.1%	Coding 任務；報道指係 OpenAI 內部評測，任務估計需時 20 小時完成	對軟件開發場景更貼近，但唔應直接同 GDPval 比高低。
BixBench	80.5%	真實世界生物資訊學 benchmark	對生物資訊學有參考價值；但以現有資料計，證據力度唔及 OpenAI 自己公布嘅 GDPval 直接。
Artificial Analysis Intelligence Index	第 1 位，領先 3 分	第三方模型綜合指數	有助睇大局比較，但唔係 OpenAI 官方單一 benchmark。

點解唔可以淨係比較百分比

84.9%、73.1%、80.5% 睇落都係百分比，好似可以直接排隊。但其實每個數都喺量度唔同嘢：

GDPval 84.9%：指向多職業、規格清楚嘅知識工作成果。
Expert-SWE 73.1%：指向 coding 任務，而且報道稱屬於內部評測。
BixBench 80.5%：指向生物資訊學任務。

所以更實際嘅問法唔係「邊個百分比最高」，而係「邊個 benchmark 最似你想用 GPT-5.5 做嘅事」。如果係一般知識工作，GDPval 係較好參考；如果係寫 code 或修 software issue，Expert-SWE 更貼題；如果係生物資訊學，BixBench 先係較接近嘅測試範圍。

Artificial Analysis 嘅第一名代表乜

第三方平台 Artificial Analysis 指，GPT-5.5 喺佢哋嘅 Intelligence Index 以 3 分優勢排第一。同一資料亦提到，OpenAI 喺 5 個主要評測項目領先，但另有 3 個項目排喺 Gemini 3.1 Pro Preview 之後。

呢個細節好重要：第三方綜合指數攞第一，唔等於每一個單項測試都贏。比較準確嘅讀法係：按 Artificial Analysis 自己嘅方法，GPT-5.5 整體排最前；但逐項能力仍然有高低。

見到 91.7% 或 82.7%，要先問測緊乜

有啲報道會提到其他 GPT-5.5 分數，例如同法律 AI 能力相關嘅 91.7%，或者同 agentic coding 相關嘅 82.7%。呢啲數字未必冇用，但只適合用喺相應專項討論。

如果你要一個一般性 benchmark 答案，呢類孤立 headline 數字通常唔夠穩陣。除非測試設計、比較對象同量度目標都講得好清楚，否則最好唔好將佢哋同 OpenAI 直接公布、範圍清楚嘅 GDPval 84.9% 放埋一齊當同類分數比較。

實際應該引用邊個數？

視乎你寫緊或者問緊咩：

一般知識工作／工作模型定位：引用 GPT-5.5 喺 GDPval 取得 84.9%。
軟件開發或 coding 任務：引用 Expert-SWE 73.1%，並說明係 coding 任務內部評測。
生物資訊學：可提 BixBench 80.5%，但要註明資料來源相對冇 GDPval 咁直接。
大範圍模型比較：可提 Artificial Analysis Intelligence Index 第 1 位、領先 3 分，但要記住呢係第三方綜合指數。

總結

GPT-5.5 最適合用嚟做一般短答嘅 benchmark，是 GDPval 84.9%。呢個數字來自 OpenAI，並且測試範圍講得清楚：橫跨 44 個職業、清楚規格化嘅知識工作。

至於其他分數，唔係唔重要，而係要放返入正確場景。Benchmark 唔係一張萬能成績表；對讀者真正有用嘅，係知道每個分數究竟代表邊種能力。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

人們還問