GPT-5.5の性能を一言で示すなら、まず見るべきは GDPvalで84.9% という数値です。OpenAIはGDPvalを、44の職業にわたって「明確に仕様化された知識労働」をAIエージェントが作成できるかを見るベンチマークだと説明し、GPT-5.5のスコアを84.9%と公表しています。[1]
ただし、この数字は「AIの総合点」や「知能そのものの点数」ではありません。GDPvalが見ているのは、仕事に近い知識作業を、条件に沿って成果物としてまとめる力です。[1] コーディング、バイオインフォマティクス、外部ランキングとは測っているものが違います。
まず引用するなら:GDPval 84.9%
一般向けに短く書くなら、次の表現が最も誤解が少ないでしょう。
GPT-5.5は、OpenAIによるとGDPvalで**84.9%**を記録した。GDPvalは、44の職業にまたがる明確に仕様化された知識労働をAIエージェントが作れるかを測るベンチマークです。[
1]
GDPvalは、GPT-5.5を「業務で使うモデル」として見るときの入口になります。一方で、プログラミングだけの性能、科学分野での性能、モデル全体のランキングを知りたい場合は、別の指標も見なければなりません。
公開されている主な数値
| 指標・比較 | 公表・報告値 | 何を見ているか | 読み方 |
|---|---|---|---|
| GDPval | 84.9% | 44の職業にまたがる、明確に仕様化された知識労働 | OpenAIがGPT-5.5発表で直接示しているため、一般的な短い説明に使いやすい数値です。[ |
| Expert-SWE | 73.1% | 推定20時間の作業を想定したコーディングタスクの社内評価と報告されています | ソフトウェア開発の文脈では重要ですが、GDPvalとは別物です。[ |
| BixBench | 80.5% | 実世界のバイオインフォマティクス・ベンチマーク | バイオインフォマティクス分野では参考になりますが、手元の出典ではOpenAIのGDPval公表値ほど直接的ではありません。[ |
| Artificial Analysis Intelligence Index | 首位、3ポイント差 | Artificial Analysisによる外部モデル指数 | 幅広いモデル比較には便利ですが、OpenAI公式の単一ベンチマークではありません。[ |
%だけを横並びにしない
84.9%、73.1%、80.5%という数字だけを見ると、同じテストの点数のように見えます。しかし、実際には測定対象が異なります。
- **GDPvalの84.9%**は、複数の職業にまたがる知識労働の成果物作成を見ています。[
1]
- **Expert-SWEの73.1%**は、コーディングタスクの評価として報告されています。[
8]
- **BixBenchの80.5%**は、バイオインフォマティクス関連の評価です。[
10]
つまり、見るべき問いは「どの数字が一番高いか」ではなく、「自分の用途に近いベンチマークはどれか」です。一般的な知識労働ならGDPval、ソフトウェア開発ならExpert-SWE、バイオインフォマティクスならBixBenchのほうが文脈に合います。[1][
8][
10]
Artificial Analysisの首位はどう読むべきか
外部評価としては、Artificial AnalysisがGPT-5.5を同社のIntelligence Indexで3ポイント差の首位としています。[3] 同じ記事では、OpenAIが5つの主要評価でリードし、3つの評価ではGemini 3.1 Pro Previewに次ぐ位置だとも説明されています。[
3]
ここで大事なのは、外部指数で首位だからといって、すべての個別テストで勝っているわけではないという点です。Artificial Analysisの順位は、あくまで同社の集計方法に基づく総合的な比較として読むのが自然です。[3]
見出しの数字だけで判断しない
GPT-5.5については、法務AI能力に関連する**91.7%や、agentic codingの文脈での82.7%**といった数字も報じられています。[4][
5] こうした数値は、それぞれの専門領域では意味を持つ可能性があります。
ただし、テストの設計、比較対象、測っている能力がはっきりしないまま、GDPvalの84.9%と並べて「どちらが上か」を判断するのは危険です。一般的なベンチマーク回答としては、OpenAIが直接説明しているGDPvalの数値を基準にするほうが扱いやすいでしょう。[1]
では、どの数字を引用すべきか
多くの場面では、次の言い方が最も安全です。
GPT-5.5は、OpenAIによるとGDPvalで**84.9%**を記録している。GDPvalは、44の職業にまたがる明確に仕様化された知識労働をAIエージェントが作成できるかを測るベンチマークです。[
1]
用途が明確なら、参照する指標も変えるべきです。
- 一般的な知識労働を見るなら: GDPvalの84.9%。[
1]
- ソフトウェア開発を見るなら: Expert-SWEの73.1%。[
8]
- バイオインフォマティクスを見るなら: BixBenchの80.5%。ただし、出典の強さには注意が必要です。[
10]
- モデル全体の外部比較を見るなら: Artificial Analysis Intelligence Indexで3ポイント差の首位。[
3]
結論
GPT-5.5のベンチマークを短く答えるなら、最も使いやすいのは GDPvalで84.9% です。[1] これはOpenAIが直接示している数値で、測定範囲も「44の職業にまたがる、明確に仕様化された知識労働」と説明されています。[
1]
一方で、GPT-5.5の性能を正しく読むには、数字そのものよりも「何を測った数字なのか」が重要です。コーディング、バイオインフォマティクス、外部ランキングを語るなら、それぞれのベンチマーク名と文脈をセットで示すべきです。




