| 模型 | 得分 |
|---|---|
| GPT-5.6 Sol Ultra | 91.9% |
| GPT-5.6 Sol (标准) | 88.8% |
| Claude Mythos 5 | 88.0% |
| GPT-5.6 Terra | 84.3% |
| Claude Fable 5 | 84.3% |
| GPT-5.5 | 83.4% |
| GPT-5.6 Luna | 82.5% |
GPT-5.6 Sol Ultra以91.9%的成绩创下新的最高纪录 。标准版Sol的88.8%也以近一个百分点的优势,击败了Anthropic的受限前沿模型Claude Mythos 5(88.0%)
。
在GeneBench v1基准测试中,该测试主要评估长周期基因组学和定量生物学分析任务,OpenAI报告称Sol在比GPT-5.5使用更少输出token的情况下获得了更好的结果 。这代表着科研工作流在效率上的重大提升。
重要的是,OpenAI表示,根据其准备框架,GPT-5.6 Sol未越过网络安全关键阈值 。在涉及Chromium和Firefox的评估中,该模型识别出了漏洞和利用原语(即构成漏洞利用的基础组件),但在测试条件下并未自主生成一个可用的全链漏洞利用
。整个GPT-5.6系列模型在内部被评定为“高”风险(针对网络安全和生物武器能力),但未达到最高的“临界”级别
。
GPT-5.6的推出方式与OpenAI以往任何一次发布都截然不同。应美国政府要求,OpenAI最初将访问权限限制在一小部分经信任的合作伙伴和组织——据Axios报道,预览阶段仅包含约20家获批公司——同时模型正在接受额外的国家安全审查 。
这次预览并非广泛的自我服务项目。在此期间,GPT-5.6 Sol、Terra和Luna仅通过OpenAI API和Codex向这一受限群体开放 。预览期间,这些模型在ChatGPT中不可用
。OpenAI表示,计划“在未来几周内”在ChatGPT、Codex和API中提供更广泛的可用性
。
OpenAI明确表示,将政府把关的方式视为临时措施:“我们相信广泛访问,这个过程不应成为长期的默认模式” 。在一份内部备忘录中,CEO Sam Altman告诉员工,政府将“在此预览期间逐个客户地审批访问权限”,并希望几周后能进行更广泛的发布
。
| 模型 | 输入 / 100万token | 输出 / 100万token |
|---|---|---|
| GPT-5.6 Sol | $5.00 | $30.00 |
| GPT-5.6 Terra | $2.50 | $15.00 |
| GPT-5.6 Luna | $1.00 | $6.00 |
Sol的定价与GPT-5.5相同,而Terra的成本大约是GPT-5.5的一半 。作为参考,Sol的定价更接近Claude Opus 4.8(5美元/25美元),而非Anthropic的受限模型Mythos 5(10美元/50美元)
。
GPT-5.6系列标志着OpenAI此前发布策略的重大转变。三层架构(Sol、Terra、Luna)引入了可持续的品牌体系,将模型系列与能力层级解耦。基准测试结果——尤其是Sol在Terminal-Bench 2.1上创下新高的编程得分,以及在ExploitBench上的效率提升——展示了有意义的进步,尤其是在网络安全和生物学领域。然而,这次发布最具标志性的一点或许是政府要求的访问限制,这代表了前沿AI部署的一种全新范式。
Comments
0 comments