2026年4月時点で公開されている報告を見る限り、GPT‑5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4を単純な総合ランキングで選ぶのは危険です。むしろ見るべきなのは、どの仕事にどのモデルを当てるかというワークロード別の地図です。
結論から言えば、エージェント型のコンピューター操作やブラウザー作業ではGPT‑5.5、本番コードベースの修正ではClaude Opus 4.7、オープンウェイトのコーディング基盤ではKimi K2.6、長文コンテキストを含むオープンソース/オープンウェイト実験ではDeepSeek V4が検討候補になります。
ただし、最初に大きな注意点があります。ベンチマークは、実行した研究機関、ツールの有無、推論時の努力量、評価ハーネスによって結果が変わります。LM Councilも、独立実行のベンチマークがAI企業の自己申告スコアと一致しない場合があると明記しています。 [12]
まず結論:用途別の第一候補
- エージェント型のコンピューター操作、ブラウザー作業、ターミナル中心の自律エージェント:GPT‑5.5。 OpenAIのローンチデータでは、Terminal‑Bench 2.0で82.7%、OSWorld‑Verifiedで78.7%、BrowseCompで84.4%、Toolathlonで55.6%が報告されています。 [
5]
- 本番コードベースの修正、SWE‑Bench系のソフトウェア開発タスク:Claude Opus 4.7。 報告値ではSWE‑Bench Verifiedが87.6%、SWE‑Bench Proが64.3%です。 [
17]
- オープンウェイトのコーディング基盤:Kimi K2.6。 Kimiの公式資料では、Terminal‑Bench 2.0が66.7%、SWE‑Bench Proが58.6%、SWE‑Bench Verifiedが80.2%、LiveCodeBench v6が89.6とされています。 [
29]
- 長文コンテキストを含むオープンソース/オープンウェイト実験:DeepSeek V4。 DeepSeekは、V4 Previewを2026年4月24日に公開し、オープンソース化したと発表しています。 [
42]
- 科学推論:Claude Opus 4.7がGPQA Diamondで強い。 Claude Opus 4.7はGPQA Diamondで94.2%と報告されています。Kimi K2.6はGPQA‑Diamondで90.5%、AIME 2026で96.4%、DeepSeek V4-Pro/Pro-Max系の表ではGPQA Diamondが90.1%です。 [
19][
27][
29][
37]
ベンチマークを見る前に押さえたい3つの前提
- ベンチマークの種類が違えば、測っている能力も違う。 Terminal‑Bench、SWE‑Bench、BrowseComp、OSWorld、GPQA、HLEはそれぞれ別の能力を見ています。コーディングで強いモデルが、必ずしもWeb調査、長文検索、コンピューター操作でも最強とは限りません。 [
5][
17][
29]
- ツールアクセスと推論時の努力量で結果は変わる。 OpenAIのシステムカードでは、GPT‑5.5 Proは同じ基盤モデルに対してparallel test-time computeを使う設定だと説明されています。したがって、GPT‑5.5とGPT‑5.5 Proの数値を、同じ推論予算の結果としてそのまま比較すべきではありません。 [
3]
- 公開ベンチマークは候補を絞る材料であって、導入判断そのものではない。 独立実行の結果と自己申告値は異なることがあるため、最終的には自社のワークロードで評価する必要があります。 [
12]
モデル別スナップショット
| モデル | 公開上の位置づけ | 強いシグナル | 主な注意点 |
|---|---|---|---|
| GPT‑5.5 | OpenAIのローンチ資料は、computer use、tool use、agentic workflowsを強調しています。 [ | Terminal‑Bench 2.0で82.7%、OSWorld‑Verifiedで78.7%、BrowseCompで84.4%。GPT‑5.5 ProはBrowseCompで90.1%。 [ | Proの数値は通常版GPT‑5.5と直比較しない。Proは同じ基盤モデルにparallel test-time computeを使う設定です。 [ |
| Claude Opus 4.7 | Anthropicは、コーディングとAIエージェント向けの1M context window搭載hybrid reasoning modelと説明しています。 [ | SWE‑Bench Verifiedで87.6%、SWE‑Bench Proで64.3%が報告されています。 [ | 1M context windowは魅力的ですが、コンテキスト長と極長文での想起品質は別問題です。StationXのまとめでは、1Mトークン端での想起に関する注意点も示されています。 [ |
| Kimi K2.6 | Moonshot/Kimiのオープンソース/オープンウェイト系コーディングモデル。 [ | Terminal‑Bench 2.0で66.7%、SWE‑Bench Proで58.6%、SWE‑Bench Verifiedで80.2%、LiveCodeBench v6で89.6。 [ | Artificial Analysisによれば、Kimi K2.6はネイティブの画像・動画入力と256kの最大コンテキスト長をサポートします。実運用ではサービング構成による差も見ます。 [ |
| DeepSeek V4-Pro/Pro-Max系 | DeepSeek V4 Previewは公式ドキュメントでliveかつopen-sourcedとされ、Hugging FaceのカードではV4シリーズがMoE言語モデルとして紹介されています。 [ | SWE Verified 80.6、SWE Pro 55.4、Terminal Bench 2.0 67.9、GPQA Diamond 90.1が報告されています。 [ | DeepSeek V4という名前の中にvariant差があります。Flash、Pro、Pro-Max系の結果は分けて読むべきです。 [ |
主要ベンチマーク早見表
| ベンチマーク | GPT‑5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro/Pro-Max系 | 読み方 |
|---|---|---|---|---|---|
| Terminal‑Bench 2.0 | 82.7% [ | 69.4% reported [ | 66.7% [ | 67.9% [ | コマンドライン操作や自律型コーディングに近いタスクでは、GPT‑5.5のリードが最もはっきり見えます。 |
| SWE‑Bench Pro | 58.6% [ | 64.3% [ | 58.6% [ | 55.4% [ | 難度の高いソフトウェアエンジニアリング系ベンチマークではClaude Opus 4.7が先行します。 |
| SWE‑Bench Verified | このソース群では明確な比較値を確認できず | 87.6% [ | 80.2% [ | 80.6% [ | GitHub issue解決に近いタスクでは、Claudeの報告値が最も強いシグナルです。 |
| OSWorld‑Verified | 78.7% [ | 78.0% [ | 73.1% [ | 比較値を確認できず | コンピューター操作系ではGPT‑5.5とClaude Opus 4.7がかなり近い位置にあります。 |
| BrowseComp | 84.4%。GPT‑5.5 Proは90.1% [ | 79.3% [ | 83.2%。Agent Swarmは86.3% [ | 比較値を確認できず | ブラウザーエージェントやWeb調査では、GPT‑5.5 ProとKimi Agent Swarmのシグナルが強く見えます。 |
| GPQA Diamond | このソース群では明確な公式比較値を確認できず | 94.2% [ | 90.5% [ | 90.1% [ | 大学院レベルの科学推論では、Claudeの報告値が最も高く出ています。 |
| HLE/難問推論 | 直接比較できる値を確認できず | HLE no-tools 46.9%、with-tools 54.7% [ | HLE-Full 34.7%、with-tools 54.0% [ | HLE 37.7% [ | ツール付きHLEではClaudeとKimiが近く、DeepSeekの掲載値はやや低めです。 |
| 長文コンテキスト | 提供されたローンチ抜粋では公開仕様が明確でない | 1M context window [ | 256k max context length [ | V4資料は長文コンテキスト用途を打ち出しています。 [ | 長文用途ではClaudeとDeepSeekの位置づけが比較的明確ですが、実際の想起性能は別途テストが必要です。 |
用途別に見る:どのモデルを選ぶべきか
1. ターミナル中心の自律型コーディングエージェント:GPT‑5.5
ワークロードにターミナル操作、ブラウザーやツールの利用、OSレベルの操作、多段階のエージェントループが含まれるなら、このデータセットではGPT‑5.5が最も強く見えます。OpenAIの報告値では、Terminal‑Bench 2.0が82.7%、OSWorld‑Verifiedが78.7%、BrowseCompが84.4%、Toolathlonが55.6%です。 [5]
GPT‑5.5 ProはBrowseCompで90.1%ですが、通常版GPT‑5.5と同じ意味のスコアとして読むべきではありません。OpenAIのシステムカードは、Proを同じ基盤モデルにparallel test-time computeを使う設定だと説明しています。 [3][
5]
向く用途: コーディングエージェント、ブラウザー調査エージェント、コンピューター操作の自動化、ツール利用が多い業務アシスタント。
2. 本番コードベースの修正:Claude Opus 4.7
主要KPIが、実リポジトリのバグ修正、pull requestの作成、テスト通過、大規模コードベースの理解なら、Claude Opus 4.7は最有力候補です。SWE‑Bench Verified 87.6%、SWE‑Bench Pro 64.3%という報告値は、ソフトウェアエンジニアリング系ベンチマークでの強さを示しています。 [17]
AnthropicはClaude Opus 4.7を、コーディングとAIエージェント向けの1M context window搭載hybrid reasoning modelと説明しています。大規模コードベースを扱うワークフローで試すのは自然です。 [14]
向く用途: リポジトリ保守、コードレビュー、複雑なリファクタリング、開発者向けcopilot、エンジニアリングエージェント。
3. オープンウェイトのコーディング基盤:Kimi K2.6
セルフホストやオープンウェイトが要件に入るなら、Kimi K2.6は有力候補です。公式Kimiの表では、Terminal‑Bench 2.0が66.7%、SWE‑Bench Proが58.6%、SWE‑Bench Verifiedが80.2%、SciCodeが52.2%、LiveCodeBench v6が89.6とされています。 [29]
Kimi K2.6の公開資料は、エージェント型や検索型のワークロードでも強いシグナルを示しています。BrowseCompは83.2%、Agent Swarm BrowseCompは86.3%です。 [34] Artificial Analysisによれば、Kimi K2.6はネイティブの画像・動画入力と256k context lengthをサポートします。 [
32]
向く用途: オープンモデル導入、コーディングエージェント、調査エージェント、ホスティング制御を重視するチーム。
4. 長文コンテキストを含むオープンソース実験:DeepSeek V4
DeepSeekは、DeepSeek V4 Previewを2026年4月24日にliveかつopen-sourcedにしたと発表しています。 [42] DeepSeek‑V4‑Proのモデルカードは、V4シリーズをMoE language modelsとして紹介しています。 [
37]
DeepSeek V4-Pro/Pro-Max系の報告ベンチマークには、Terminal Bench 2.0の67.9、SWE Verifiedの80.6、SWE Proの55.4、GPQA Diamondの90.1が含まれます。 [37] そのため、オープンソース/オープンウェイト実験や長文コンテキスト用途の戦略的候補になります。ただし、スコアは必ず正確なvariant名とセットで読むべきです。 [
37][
42]
向く用途: 長文コンテキストアプリケーション、オープンソース/オープンウェイト実験、ホステッドなフロンティアモデルとデプロイ可能な代替モデルを比較したいチーム。
5. 科学・数学推論:GPQAではClaudeが先行。ただし全体像は一枚岩ではない
利用可能な報告値では、Claude Opus 4.7はGPQA Diamondで94.2%です。 [19] Kimi K2.6はGPQA‑Diamondで90.5%、AIME 2026で96.4%を報告しています。 [
27][
29] DeepSeek V4-Pro/Pro-Max系はGPQA Diamondで90.1を報告しています。 [
37]
このため、科学推論ではClaudeが強い候補になります。ただし、数学・科学系ワークロードを単一ベンチマークだけで決めるのは避けるべきです。ベンチマーク設定、ツールアクセス、effort modeの違いで結果は変わります。 [12]
導入前チェックリスト
- 公開ベンチマーク1つで決めない。 公開値や自己申告スコアは独立実行の結果と異なることがあります。自社ワークロードで、同じプロンプト、同じツール予算、同じタイムアウト、同じ採点基準をそろえて評価してください。 [
12]
- GPT‑5.5とGPT‑5.5 Proは別トラックで見る。 Proはparallel test-time computeを使う設定なので、通常版と同じ推論予算とは見なせません。 [
3]
- オープンウェイト要件を先に定義する。 データ管理、セルフホスト、モデルのカスタマイズが必須なら、Kimi K2.6とDeepSeek V4は別枠で評価すべきです。 [
29][
34][
37][
42]
- 長文コンテキストはwindow sizeだけで判断しない。 Claude Opus 4.7は1M context windowを明確に打ち出し、Kimi K2.6は256k max context lengthが報告され、DeepSeek V4の資料も長文コンテキストを意識しています。それでも、実際の想起、指示追従、コストは自社文書で確認が必要です。 [
14][
17][
32][
37][
42]
- コーディングエージェントは、公開ベンチマークと社内リポジトリ評価を両方走らせる。 SWE‑Bench系のスコアは有用なシグナルですが、本番リポジトリでは依存関係、flaky test、コーディング規約、レビュー制約が異なります。 [
17]
制約と読み違えやすい点
- このソース群には、4モデルを同じ独立機関、同じハーネス、同じツールアクセス、同じeffort settingで完全比較した公開データは見当たりません。LM Councilも、独立実行のベンチマークと自己申告値がずれる可能性を指摘しています。 [
12]
- GPT‑5.5 ProとGPT‑5.5は同じものとして読めません。OpenAIのシステムカードでは、Proは同じ基盤モデルにparallel test-time computeを使う設定だと説明されています。 [
3]
- DeepSeek V4のスコアはvariant依存です。V4 Preview、V4-Pro、Pro-Max系の呼び方をまとめて、単一のDeepSeek V4スコアにするべきではありません。 [
37][
42]
- Kimi K2.6やDeepSeek V4のようなオープンウェイト導入では、サービング基盤、ハードウェア、量子化、コンテキスト設定が実運用性能に影響します。公開ベンチマークだけでなく、自社のデプロイ構成で評価してください。 [
29][
34][
37]
まとめ
GPT‑5.5は、agentic computer-use、ブラウジング、ツール orchestration、ターミナル中心のコーディングが主戦場なら最初に検討すべきモデルです。 [5]
Claude Opus 4.7は、製品価値の中核がリポジトリ単位のバグ修正、コードベース修復、SWE‑Bench型のソフトウェアエンジニアリングなら優先度が高い候補です。 [14][
17]
Kimi K2.6は、オープンウェイトのコーディングモデルが必要で、SWE‑Bench、Terminal‑Bench、エージェント型検索のシグナルを重視する場合に評価すべきです。 [29][
34]
DeepSeek V4-Pro/Pro-Max系は、長文コンテキスト、オープンソース/オープンウェイト実験、デプロイ可能性が重要な制約なら候補に入ります。ただし、必ず正確なvariantとベンチマーク設定を確認してください。 [37][
42]
最も安全な進め方は、公開ベンチマーク表で候補を絞り、最後は自社の実タスク、レイテンシ、コスト、プライバシー要件、失敗パターンのテストで選ぶことです。 [12]




