答案已发布3个月前Last edited 2个月前10 来源

GPT-5.5 基准测试：84.9% 的 GDPval 分数该怎么理解

最稳妥的短答案是：GPT 5.5 在 OpenAI 公布的 GDPval 上得分 84.9%，GDPval 用于测试智能体完成跨 44 个职业的明确知识工作。[1] 73.1% 的 Expert SWE 与编程任务有关，80.5% 的 BixBench 与真实世界生物信息学有关，不能和 GDPval 简单横向比大小。[8][10] Artificial Analysis 将 GPT 5.5 列为 Intelligence Index 第一并领先 3 分，但这并不代表它赢下每一个单项评测。[3]

使用 Studio Global AI 搜索并核查事实浏览更多热门页面

Abstrakte KI-Illustration zu GPT-5.5-Benchmarks und dem GDPval-Wert von 84,9 Prozent — GPT-5.5-Benchmark erklärt: Was 84,9 % auf GDPval wirklich bedeutenKI-generierte Illustration zum Vergleich von GPT-5.5-Benchmarks.
AI 提示
Create a landscape editorial hero image for this Studio Global article: GPT-5.5-Benchmark erklärt: Was 84,9 % auf GDPval wirklich bedeuten. Article summary: Für eine knappe, belastbare Einordnung ist 84,9 % auf GDPval der beste GPT 5.5 Wert: OpenAI nennt ihn selbst und beschreibt GDPval als Test für klar spezifizierte Wissensarbeit über 44 Berufe.. Topic tags: ai, openai, chatgpt, gpt 5, benchmarks. Reference image context from search candidates: Reference image 1: visual subject "![Image 1](https://cdn.sanity.io/images/6vfeftx9/articles/9052d745e6337cd4369bde9219bcf511bebec944-4644x1551.png?w=1200&auto=format) GPT-5.5 tops the Artificial Analysis Intelligen" source context "OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysis" Reference image 2: visual subject "![Image 1](https://cdn.sanity.io/images/6vfeftx9/articles/9052d745e6337cd4369bde9219bcf511bebec944-4644x1551.png?
openai.com

问 GPT-5.5 的 benchmark 是多少，最容易踩坑的是把所有百分比都看成同一张成绩单。更清晰的说法是：如果只需要一个通用、来源最直接的短 benchmark，应该引用 OpenAI 公布的 GDPval 84.9%。

但要注意，GDPval 不是“模型智商分”，也不是覆盖所有能力的总评分。它衡量的是智能体能否完成定义清楚的知识工作，范围覆盖 44 个职业。

一句话答案

据 OpenAI，GPT-5.5 在 GDPval 上得分 84.9%；GDPval 测试智能体生成明确规定的知识工作成果，覆盖 44 个职业。

这句话适合用在快速介绍 GPT-5.5 的整体工作能力时。名字里的 GDPval 可能让人联想到宏观经济里的 GDP，但在这里它是一个 AI 评测名称，重点是“职业化、任务明确的知识工作”。

公开提到的几个关键数字

基准或比较	报告数值	该怎么看
GDPval	84.9%	OpenAI 官方发布；衡量跨 44 个职业的明确知识工作，是最适合一般场景引用的短 benchmark。
Expert-SWE	73.1%	面向编程任务；据报道，这是 OpenAI 内部评测，任务预计需要 20 小时完成，更适合讨论软件开发能力。
BixBench	80.5%	真实世界生物信息学 benchmark；适合生物信息学语境，但与 GDPval 不是同一类测试。
Artificial Analysis Intelligence Index	第一，领先 3 分	第三方综合指数；适合看模型横向排名，但不是 OpenAI 官方单项 benchmark。

为什么不能只比百分比高低

84.9%、73.1%、80.5% 放在一起，看起来像考试分数，可以直接比大小。但它们测的不是同一件事。

GDPval 84.9%：看的是跨职业、说明清楚的知识工作产出。
Expert-SWE 73.1%：看的是编程任务，且是内部评测语境下的数字。
BixBench 80.5%：看的是真实世界生物信息学任务。

所以更有用的问题不是“哪个百分比最高”，而是“你的使用场景对应哪个 benchmark”。写报告、做分析、处理办公室知识工作，GDPval 更贴近；讨论代码能力，Expert-SWE 更相关；讨论生物信息学，BixBench 才更对题。

Artificial Analysis 的第一名意味着什么

第三方评测网站 Artificial Analysis 称，GPT-5.5 在其 Intelligence Index 中领先 3 分，位居第一。同一来源还提到，OpenAI 在 5 个 headline evaluations 中领先，并在另外 3 个评测中落后于 Gemini 3.1 Pro Preview。

这点很关键：第三方综合指数第一，并不等于每一个单项测试都第一。它更像一个按该机构方法汇总后的模型排行榜，而不是某个官方单项成绩。

看到更高分时要先问：测的是什么？

你可能还会看到其他 GPT-5.5 数字，例如与法律 AI 能力相关的 91.7%，或与 agentic coding 相关的 82.7%。这些数字在各自场景里可能有参考价值，但如果没有同时说明测试名称、任务范围、比较对象和评测目标，就不适合拿来当 GPT-5.5 的通用 benchmark。

到底该引用哪个数字？

最稳妥的通用写法是：

GPT-5.5 在 OpenAI 公布的 GDPval 上得分 84.9%；GDPval 测试智能体完成跨 44 个职业的明确知识工作。

如果讨论场景更具体，可以换成更贴近任务的 benchmark：

一般知识工作：GDPval 84.9%。
软件开发：Expert-SWE 73.1%。
生物信息学：BixBench 80.5%。
综合模型排名：Artificial Analysis Intelligence Index 第一，领先 3 分。

结论

GPT-5.5 最适合被短句引用的 benchmark 是 GDPval 84.9%。它来源直接、定义清楚，衡量的是跨 44 个职业的明确知识工作。其他数字不是不能用，而是必须放回各自的评测语境中，否则很容易把不同赛道的成绩混在一起比较。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

人们还问