ベンチマーク表だけを見ると、4つのモデルが同じトラックを走っているように見えます。しかし実際には、完全に同じ条件でGPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4を横並び評価した単一の公開表はありません。引用できる範囲で最も近い比較は、GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Maxを並べたものです。Kimi K2.6は、Kimi向けのリリース記事、モデルカード、リーダーボードの数値を別途参照する形になります [1][
6][
24]。
本稿では、DeepSeek V4については、ベンチマークとコストの行が確認できるDeepSeek-V4-Pro-Maxを比較対象として扱います [18][
24]。また、GPT-5.5とGPT-5.5 Proは、数値が別々に報告されている箇所では混ぜずに扱います [
24]。
まず結論:用途別にどれから試すべきか
- ターミナル操作が多いコーディングエージェント:GPT-5.5。共同比較のTerminal-Bench 2.0で82.7%と最も高い数値です [
24]。
- ソフトウェア修正・実リポジトリ系の評価:Claude Opus 4.7。SWE-Bench Proで64.3%、SWE-Bench Verifiedで87.6%と、この比較範囲では強い結果です [
18][
24]。
- ツールなしの難問推論:Claude Opus 4.7。GPQA DiamondとツールなしHumanity’s Last Examで首位です [
24]。
- ツールを使う推論やブラウジング系タスク:GPT-5.5 Pro。ツールありHumanity’s Last Examで57.2%、BrowseCompで90.1%と報告されています [
24]。
- 重み公開モデルを自社環境で試したい場合:Kimi K2.6。1TパラメータのMoE、32Bアクティブパラメータ、256Kコンテキストのオープンウェイトモデルとして説明されています [
1]。
- APIコストを強く抑えたい場合:DeepSeek-V4-Pro-Max。LLM Statsでは1Mコンテキスト、SWE-Bench Verified 80.6%、価格欄は$1.74/$3.48とされています [
18]。
主要ベンチマーク比較
「—」は、そのモデルの該当スコアが引用元で確認できなかったことを示します。0点という意味ではありません。GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Maxは主に同じ比較表から、Kimi K2.6は別のKimi関連ソースからの数値です [1][
6][
24]。
| ベンチマーク | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Kimi K2.6 | DeepSeek-V4-Pro-Max |
|---|---|---|---|---|---|
| GPQA Diamond | 93.6% [ | — | 94.2% [ | 約91% [ | 90.1% [ |
| Humanity’s Last Exam、ツールなし | 41.4% [ | 43.1% [ | 46.9% [ | — | 37.7% [ |
| Humanity’s Last Exam、ツールあり | 52.2% [ | 57.2% [ | 54.7% [ | 54.0% [ | 48.2% [ |
| Terminal-Bench 2.0 | 82.7% [ | — | 69.4% [ | 66.7% [ | 67.9% [ |
| SWE-Bench Pro | 58.6% [ | — | 64.3% [ | 58.6% [ | 55.4% [ |
| BrowseComp | 84.4% [ | 90.1% [ | 79.3% [ | 83.2% [ | 83.4% [ |
| MCP Atlas / MCPAtlas Public | 75.3% [ | — | 79.1% [ | — | 73.6% [ |
| SWE-Bench Verified | — | — | 87.6% [ | 80.2% [ | 80.6% [ |
優先順位別の候補
| 重視すること | 最初に試す候補 | 理由 |
|---|---|---|
| ターミナル型のコーディングエージェント | GPT-5.5 | 共同比較のTerminal-Bench 2.0で82.7%と最も高い数値です [ |
| ソフトウェア修正ベンチマーク | Claude Opus 4.7 | SWE-Bench ProとSWE-Bench Verifiedの引用値で、このグループの中では最も強い結果です [ |
| ツールなしの難問推論 | Claude Opus 4.7 | GPQA DiamondとツールなしHumanity’s Last Examで首位です [ |
| ツールあり推論・ブラウジング | GPT-5.5 Pro | GPT-5.5 Proが別枠で報告されている範囲では、ツールありHLEとBrowseCompで首位です [ |
| オープンウェイト展開 | Kimi K2.6 | 1TパラメータMoEのオープンウェイトモデルとして説明され、Hugging Faceのモデルカードでもコーディング系の強い数値が示されています [ |
| コスト重視のホスト推論 | DeepSeek-V4-Pro-Max | LLM Statsでは1Mコンテキスト、SWE-Bench Verified 80.6%、Claude Opus 4.7より低い価格欄が示されています [ |
| 長いコンテキスト | GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max | 引用元ではGPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Maxに1Mコンテキストが示され、Kimi K2.6はおおむね256K〜262Kです [ |
モデル別の読み方
GPT-5.5
OpenAIはGPT-5.5を、コーディング、リサーチ、データ分析など複雑なタスク向けのモデルと説明しています [38]。共同比較では、Terminal-Bench 2.0が82.7%で、Claude Opus 4.7の69.4%、DeepSeek-V4-Pro-Maxの67.9%を上回っています [
24]。同じ表では、GPQA Diamond 93.6%、SWE-Bench Pro 58.6%、BrowseComp 84.4%も報告されています [
24]。
注意点は、GPT-5.5 ProをベースのGPT-5.5と同一視しないことです。GPT-5.5 ProはBrowseCompで90.1%、ツールありHumanity’s Last Examで57.2%と報告されていますが、コスト、レイテンシ、設定を比較する際には別モデルとして扱うべきです [24]。
調達面では、BenchLMがGPT-5.5を1Mトークンのコンテキストウィンドウ付きモデルとして掲載し、別の価格報道では入力100万トークンあたり$5、出力100万トークンあたり$30とされています [27][
36]。ただし価格は変わりやすいため、実際の見積もり前に提供元の最新情報を確認する必要があります。
Claude Opus 4.7
Claude Opus 4.7は、この4候補の中でソフトウェア修正系ベンチマークのシグナルが特に強いモデルです。LLM StatsはSWE-Bench Verifiedで87.6%と掲載し、共同比較ではSWE-Bench Proで64.3%と報告されています [18][
24]。また、GPQA Diamond 94.2%、ツールなしHumanity’s Last Exam 46.9%、MCP Atlas 79.1%でも首位です [
24]。
LLM StatsはClaude Opus 4.7について、1Mトークンのコンテキストウィンドウと、100万トークンあたり$5/$25の価格を掲載しています [16]。一方で、Anthropicは一部のベンチマークについて、社内実装や更新された評価ハーネスを使っており、公開リーダーボードのスコアと直接比較できない場合があると説明しています [
17]。
Kimi K2.6
Kimi K2.6の強みは、性能だけでなく、オープンウェイトの選択肢である点です。リリース関連の情報では、1TパラメータのMoE、32Bアクティブパラメータ、384エキスパート、ネイティブマルチモーダル、INT4量子化、256Kコンテキストのモデルとして説明されています [1]。Hugging Faceのモデルカードでは、SWE-Bench Verified 80.2%、SWE-Bench Pro 58.6%、Terminal-Bench 2.0 66.7%、LiveCodeBench v6 89.6が報告されています [
6]。
同じリリース関連情報では、Kimi K2.6についてツールありHumanity’s Last Exam 54.0、BrowseComp 83.2も示されています [1]。LLM Statsでは、262Kコンテキスト、価格欄$0.95/$4.00、Open Sourceラベルが掲載されています [
11]。ただし、Kimiの数値はGPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Maxと同じ比較表から来ているわけではないため、僅差の勝敗はそのまま結論にせず、自分のタスクで検証する前提で読むべきです [
1][
6][
24]。
DeepSeek-V4-Pro-Max
DeepSeek-V4-Pro-Maxは、総合首位というより、価格性能比を検証したい候補です。LLM Statsでは、1.6Tサイズ、1Mコンテキスト、SWE-Bench Verified 80.6%、価格欄$1.74/$3.48とされています [18]。共同比較では、GPQA Diamond 90.1%、ツールなしHumanity’s Last Exam 37.7%、ツールありHumanity’s Last Exam 48.2%、Terminal-Bench 2.0 67.9%、SWE-Bench Pro 55.4%、BrowseComp 83.4%、MCP Atlas 73.6%が報告されています [
24]。
このため、DeepSeek-V4-Pro-Maxはコスト制約の強いワークロードでは試す価値があります。ただし、同じ比較表では多くの行でGPT-5.5、GPT-5.5 Pro、Claude Opus 4.7のいずれかが上回っています。本番環境でプレミアムモデルを置き換える前に、自社の実タスクで品質を確認する必要があります [24]。
価格とコンテキスト長は「参考値」として見る
価格とコンテキスト長は、常に同じ提供元・同じ条件で報告されるわけではありません。以下は見積もりの最終値ではなく、候補を絞るためのシグナルとして見るのが安全です。
| モデル | 引用元で確認できるコンテキスト・価格シグナル | 実務上の読み方 |
|---|---|---|
| GPT-5.5 | BenchLMは1Mコンテキストを掲載。価格報道では入力$5、出力$30/100万トークン [ | プレミアムなホスト型候補。最新価格の確認が必須。 |
| Claude Opus 4.7 | LLM Statsは1Mコンテキストと$5/$25/100万トークンを掲載 [ | コーディング、推論、長文コンテキスト用途の高性能候補。 |
| Kimi K2.6 | リリース情報では256Kコンテキスト、LLM Statsでは262Kコンテキストと$0.95/$4.00の価格欄 [ | オープンウェイト重視なら有力。ホスト価格は提供事業者により変わり得る。 |
| DeepSeek-V4-Pro-Max | LLM Statsは1Mコンテキスト、1.6Tサイズ、SWE-Bench Verified 80.6%、価格欄$1.74/$3.48を掲載 [ | 品質が用途に合えば、コスト重視の有力候補。 |
なぜランキングが食い違うのか
ベンチマークは、見ている能力がそれぞれ異なります。GPQA DiamondやHumanity’s Last Examは難問推論、Terminal-Bench 2.0やSWE-Bench系はコーディングやエージェント的なソフトウェア作業、BrowseCompはブラウジング型の検索・照合能力を測る文脈で使われています [24]。そのため、あるモデルが1つの行で勝っても、別の行では負けることがあります。
さらに、同じ名前のベンチマークでも、評価環境が違えば数値は変わります。たとえばClaude Opus 4.7のSWE-Bench Verifiedについて、LLM Statsは87.6%を掲載していますが、LMCouncilは自社設定の下で83.5% ± 1.7としています [18][
30]。Anthropicも、一部の結果は社内実装や更新されたハーネスを使っており、公開リーダーボードと直接比較できない場合があるとしています [
17]。
したがって、1〜2ポイントの差だけで採用を決めるのは危険です。公開ベンチマークは候補を絞る材料であり、最終判断は自分のワークロードでの評価に任せるべきです。
導入前に見るべきチェックリスト
- 実際のプロンプト、ファイル、リポジトリで試す。 ベンチマークの問題は、自社のコードベース、文書、業務ルール、ユーザー行動を完全には再現しません。
- ツール環境をそろえる。 ターミナル、ブラウジング、検索、リポジトリ参照、社内APIの有無で、コーディングエージェントの結果は大きく変わります。
- 同じ設定でコストとレイテンシを測る。 Proモードや高推論設定は品質だけでなく、出力トークン数や応答時間も変えます。
- 失敗例を人間が確認する。 コード生成では、テスト通過だけでなく、差分の保守性、セキュリティ、存在しない依存関係の混入も確認すべきです。
- 低コスト候補を最低1つ入れる。 オープンウェイトや推論コストが重要なら、Kimi K2.6とDeepSeek-V4-Pro-Maxは評価セットに入れる価値があります [
1][
18]。
結論
高性能モデルをまず絞り込むなら、GPT-5.5とClaude Opus 4.7を並べて試すのが分かりやすい出発点です。GPT-5.5はTerminal-Bench 2.0で最も強い引用値を持ち、Claude Opus 4.7はSWE-Bench ProとSWE-Bench Verifiedで最も強い引用値を持っています [18][
24]。重み公開が必要ならKimi K2.6から、コストが最優先ならDeepSeek-V4-Pro-Maxを含めて検証するのが現実的です [
1][
6][
18][
24]。




