问 GPT-5.5 的 benchmark 是多少,最容易踩坑的是把所有百分比都看成同一张成绩单。更清晰的说法是:如果只需要一个通用、来源最直接的短 benchmark,应该引用 OpenAI 公布的 GDPval 84.9%。[1]
但要注意,GDPval 不是“模型智商分”,也不是覆盖所有能力的总评分。它衡量的是智能体能否完成定义清楚的知识工作,范围覆盖 44 个职业。[1]
一句话答案
据 OpenAI,GPT-5.5 在 GDPval 上得分 84.9%;GDPval 测试智能体生成明确规定的知识工作成果,覆盖 44 个职业。[
1]
这句话适合用在快速介绍 GPT-5.5 的整体工作能力时。名字里的 GDPval 可能让人联想到宏观经济里的 GDP,但在这里它是一个 AI 评测名称,重点是“职业化、任务明确的知识工作”。[1]
公开提到的几个关键数字
| 基准或比较 | 报告数值 | 该怎么看 |
|---|---|---|
| GDPval | 84.9% | OpenAI 官方发布;衡量跨 44 个职业的明确知识工作,是最适合一般场景引用的短 benchmark。[ |
| Expert-SWE | 73.1% | 面向编程任务;据报道,这是 OpenAI 内部评测,任务预计需要 20 小时完成,更适合讨论软件开发能力。[ |
| BixBench | 80.5% | 真实世界生物信息学 benchmark;适合生物信息学语境,但与 GDPval 不是同一类测试。[ |
| Artificial Analysis Intelligence Index | 第一,领先 3 分 | 第三方综合指数;适合看模型横向排名,但不是 OpenAI 官方单项 benchmark。[ |
为什么不能只比百分比高低
84.9%、73.1%、80.5% 放在一起,看起来像考试分数,可以直接比大小。但它们测的不是同一件事。
- GDPval 84.9%:看的是跨职业、说明清楚的知识工作产出。[
1]
- Expert-SWE 73.1%:看的是编程任务,且是内部评测语境下的数字。[
8]
- BixBench 80.5%:看的是真实世界生物信息学任务。[
10]
所以更有用的问题不是“哪个百分比最高”,而是“你的使用场景对应哪个 benchmark”。写报告、做分析、处理办公室知识工作,GDPval 更贴近;讨论代码能力,Expert-SWE 更相关;讨论生物信息学,BixBench 才更对题。[1][
8][
10]
Artificial Analysis 的第一名意味着什么
第三方评测网站 Artificial Analysis 称,GPT-5.5 在其 Intelligence Index 中领先 3 分,位居第一。[3] 同一来源还提到,OpenAI 在 5 个 headline evaluations 中领先,并在另外 3 个评测中落后于 Gemini 3.1 Pro Preview。[
3]
这点很关键:第三方综合指数第一,并不等于每一个单项测试都第一。它更像一个按该机构方法汇总后的模型排行榜,而不是某个官方单项成绩。[3]
看到更高分时要先问:测的是什么?
你可能还会看到其他 GPT-5.5 数字,例如与法律 AI 能力相关的 91.7%,或与 agentic coding 相关的 82.7%。[4][
5] 这些数字在各自场景里可能有参考价值,但如果没有同时说明测试名称、任务范围、比较对象和评测目标,就不适合拿来当 GPT-5.5 的通用 benchmark。
到底该引用哪个数字?
最稳妥的通用写法是:
GPT-5.5 在 OpenAI 公布的 GDPval 上得分 84.9%;GDPval 测试智能体完成跨 44 个职业的明确知识工作。[
1]
如果讨论场景更具体,可以换成更贴近任务的 benchmark:
- 一般知识工作:GDPval 84.9%。[
1]
- 软件开发:Expert-SWE 73.1%。[
8]
- 生物信息学:BixBench 80.5%。[
10]
- 综合模型排名:Artificial Analysis Intelligence Index 第一,领先 3 分。[
3]
结论
GPT-5.5 最适合被短句引用的 benchmark 是 GDPval 84.9%。[1] 它来源直接、定义清楚,衡量的是跨 44 个职业的明确知识工作。[
1] 其他数字不是不能用,而是必须放回各自的评测语境中,否则很容易把不同赛道的成绩混在一起比较。




