「—」は、そのモデルの該当スコアが引用元で確認できなかったことを示します。0点という意味ではありません。GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Maxは主に同じ比較表から、Kimi K2.6は別のKimi関連ソースからの数値です 。
OpenAIはGPT-5.5を、コーディング、リサーチ、データ分析など複雑なタスク向けのモデルと説明しています 。共同比較では、Terminal-Bench 2.0が82.7%で、Claude Opus 4.7の69.4%、DeepSeek-V4-Pro-Maxの67.9%を上回っています
。同じ表では、GPQA Diamond 93.6%、SWE-Bench Pro 58.6%、BrowseComp 84.4%も報告されています
。
注意点は、GPT-5.5 ProをベースのGPT-5.5と同一視しないことです。GPT-5.5 ProはBrowseCompで90.1%、ツールありHumanity’s Last Examで57.2%と報告されていますが、コスト、レイテンシ、設定を比較する際には別モデルとして扱うべきです 。
調達面では、BenchLMがGPT-5.5を1Mトークンのコンテキストウィンドウ付きモデルとして掲載し、別の価格報道では入力100万トークンあたり$5、出力100万トークンあたり$30とされています 。ただし価格は変わりやすいため、実際の見積もり前に提供元の最新情報を確認する必要があります。
Claude Opus 4.7は、この4候補の中でソフトウェア修正系ベンチマークのシグナルが特に強いモデルです。LLM StatsはSWE-Bench Verifiedで87.6%と掲載し、共同比較ではSWE-Bench Proで64.3%と報告されています 。また、GPQA Diamond 94.2%、ツールなしHumanity’s Last Exam 46.9%、MCP Atlas 79.1%でも首位です
。
LLM StatsはClaude Opus 4.7について、1Mトークンのコンテキストウィンドウと、100万トークンあたり$5/$25の価格を掲載しています 。一方で、Anthropicは一部のベンチマークについて、社内実装や更新された評価ハーネスを使っており、公開リーダーボードのスコアと直接比較できない場合があると説明しています
。
Kimi K2.6の強みは、性能だけでなく、オープンウェイトの選択肢である点です。リリース関連の情報では、1TパラメータのMoE、32Bアクティブパラメータ、384エキスパート、ネイティブマルチモーダル、INT4量子化、256Kコンテキストのモデルとして説明されています 。Hugging Faceのモデルカードでは、SWE-Bench Verified 80.2%、SWE-Bench Pro 58.6%、Terminal-Bench 2.0 66.7%、LiveCodeBench v6 89.6が報告されています
。
同じリリース関連情報では、Kimi K2.6についてツールありHumanity’s Last Exam 54.0、BrowseComp 83.2も示されています 。LLM Statsでは、262Kコンテキスト、価格欄$0.95/$4.00、Open Sourceラベルが掲載されています
。ただし、Kimiの数値はGPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Maxと同じ比較表から来ているわけではないため、僅差の勝敗はそのまま結論にせず、自分のタスクで検証する前提で読むべきです
。
DeepSeek-V4-Pro-Maxは、総合首位というより、価格性能比を検証したい候補です。LLM Statsでは、1.6Tサイズ、1Mコンテキスト、SWE-Bench Verified 80.6%、価格欄$1.74/$3.48とされています 。共同比較では、GPQA Diamond 90.1%、ツールなしHumanity’s Last Exam 37.7%、ツールありHumanity’s Last Exam 48.2%、Terminal-Bench 2.0 67.9%、SWE-Bench Pro 55.4%、BrowseComp 83.4%、MCP Atlas 73.6%が報告されています
。
このため、DeepSeek-V4-Pro-Maxはコスト制約の強いワークロードでは試す価値があります。ただし、同じ比較表では多くの行でGPT-5.5、GPT-5.5 Pro、Claude Opus 4.7のいずれかが上回っています。本番環境でプレミアムモデルを置き換える前に、自社の実タスクで品質を確認する必要があります 。
価格とコンテキスト長は、常に同じ提供元・同じ条件で報告されるわけではありません。以下は見積もりの最終値ではなく、候補を絞るためのシグナルとして見るのが安全です。
ベンチマークは、見ている能力がそれぞれ異なります。GPQA DiamondやHumanity’s Last Examは難問推論、Terminal-Bench 2.0やSWE-Bench系はコーディングやエージェント的なソフトウェア作業、BrowseCompはブラウジング型の検索・照合能力を測る文脈で使われています 。そのため、あるモデルが1つの行で勝っても、別の行では負けることがあります。
さらに、同じ名前のベンチマークでも、評価環境が違えば数値は変わります。たとえばClaude Opus 4.7のSWE-Bench Verifiedについて、LLM Statsは87.6%を掲載していますが、LMCouncilは自社設定の下で83.5% ± 1.7としています 。Anthropicも、一部の結果は社内実装や更新されたハーネスを使っており、公開リーダーボードと直接比較できない場合があるとしています
。
したがって、1〜2ポイントの差だけで採用を決めるのは危険です。公開ベンチマークは候補を絞る材料であり、最終判断は自分のワークロードでの評価に任せるべきです。
高性能モデルをまず絞り込むなら、GPT-5.5とClaude Opus 4.7を並べて試すのが分かりやすい出発点です。GPT-5.5はTerminal-Bench 2.0で最も強い引用値を持ち、Claude Opus 4.7はSWE-Bench ProとSWE-Bench Verifiedで最も強い引用値を持っています 。重み公開が必要ならKimi K2.6から、コストが最優先ならDeepSeek-V4-Pro-Maxを含めて検証するのが現実的です
。
Comments
0 comments