Terminal-Bench 2.1は、複数ステップの計画、ツールの連携、反復処理を必要とするコマンドライン作業をテストするベンチマークです。89の複雑なプログラミングタスクで構成されています
。結果は以下の通りです。
| モデル | スコア |
|---|---|
| GPT-5.6 Sol Ultra | 91.9% |
| GPT-5.6 Sol(最大) | 88.8% |
| Claude Mythos 5 | 88.0% |
| GPT-5.6 Terra | 84.3% |
| Claude Fable 5 | 84.3% |
| GPT-5.5 | 83.4% |
| GPT-5.6 Luna | 82.5% |
GPT-5.6 Sol Ultraは91.9%で新たな最高記録(State of the Art)を達成しました。標準のSolスコア88.8%は、Anthropicの制限付き最前線モデルであるClaude Mythos 5の88.0%を約1ポイント上回っています
。
GeneBench v1は、長期的なゲノミクス(遺伝子解析)や定量生物学の分析タスクを評価するベンチマークです。OpenAIは、SolがGPT-5.5よりも少ない出力トークンでより強力な結果を達成したと報告しています。これは科学研究のワークフローにおいて、意味のある効率改善を示しています。
サイバーセキュリティ研究ベンチマークの ExploitBench では、GPT-5.6 SolがAnthropicのMythos Previewとほぼ同等の性能を示しながら、出力トークンは約3分の1に抑えられました。
ExploitGym は、UCバークレーの研究者がOpenAIや他の最前線AIラボと協力して構築したベンチマークです。このテストでは、GPT-5.6の全3モデルにおいて、推論能力の向上に伴いサイバーセキュリティ性能が改善されました。
重要なのは、OpenAIがGPT-5.6 Solは自社のPreparedness Framework(準備態勢フレームワーク)のもとでCyber Critical(サイバー重大)閾値を超えていないと明言している点です。ChromiumやFirefoxを対象とした評価では、モデルはバグやエクスプロイトの構成要素を特定しましたが、テスト条件下で自律的に機能する完全なエクスプロイトチェーンを生成することはありませんでした
。GPT-5.6シリーズ全体として、内部評価では(サイバーセキュリティと生物兵器能力の次元で)「High(高)」リスクと評価されましたが、最高レベルの「Critical(重大)」には達していません
。
GPT-5.6の展開は、これまでのOpenAIのリリースとは一線を画すものです。米国政府の要請により、OpenAIは当初、少数の信頼できるパートナーと組織(Axiosの報道によれば約20社)にのみアクセスを制限し、モデルは追加の国家安全保障審査を受けることになりました。
このプレビューは、広くセルフサービスで利用できるプログラムではありません。この期間中、GPT-5.6 Sol、Terra、Lunaは、この限定されたグループに対してのみOpenAI APIとCodexを通じて利用可能です。プレビュー期間中、これらのモデルはChatGPTでは利用できません
。OpenAIは、ChatGPT、Codex、APIでの広範な提供を「数週間以内」に計画していると述べています
。
OpenAIは、政府による承認プロセスを一時的なものと明確に位置づけています。同社は「我々は広範なアクセスを信じており、このプロセスが長期的なデフォルトとなるべきではない」と明言しました。内部メモの中で、CEOのサム・アルトマンはスタッフに対し、政府が「このプレビュー期間中、顧客を一社ごとに承認する」とし、数週間後にはより広範なリリースを期待していると伝えています
。
このプロセスは、米国国家サイバー局長室(Office of the National Cyber Director)および科学技術政策局(Office of Science and Technology Policy)との協議から生まれたものであり、トランプ政権が試験的に導入している新たな最前線モデル枠組みを反映しています
。
| モデル | 入力 / 100万トークン | 出力 / 100万トークン |
|---|---|---|
| GPT-5.6 Sol | $5.00 | $30.00 |
| GPT-5.6 Terra | $2.50 | $15.00 |
| GPT-5.6 Luna | $1.00 | $6.00 |
Solの価格はGPT-5.5と同額ですが、TerraはGPT-5.5と比較して約2倍安価です。参考までに、Solの価格はAnthropicの制限付きモデルMythos 5($10/$50)よりも、Claude Opus 4.8($5/$25)に近い設定となっています
。
GPT-5.6ファミリーは、これまでのOpenAIのローンチから大きく逸脱した発表となりました。3層構造(Sol、Terra、Luna)は、モデルシリーズと能力階層を切り離す、長期間使用可能なブランディングを導入しています。ベンチマークの結果、特にTerminal-Bench 2.1でのSolの最高記録とExploitBenchでの効率改善は、サイバーセキュリティや生物学の分野で意味のある進歩を示しています。しかし、今回のローンチを最も特徴づけるのは、政府によるアクセス制限であり、これは最前線AIの展開における新たなパラダイムを象徴しています。
Comments
0 comments