ワークロードにターミナル操作、ブラウザーやツールの利用、OSレベルの操作、多段階のエージェントループが含まれるなら、このデータセットではGPT‑5.5が最も強く見えます。OpenAIの報告値では、Terminal‑Bench 2.0が82.7%、OSWorld‑Verifiedが78.7%、BrowseCompが84.4%、Toolathlonが55.6%です。
GPT‑5.5 ProはBrowseCompで90.1%ですが、通常版GPT‑5.5と同じ意味のスコアとして読むべきではありません。OpenAIのシステムカードは、Proを同じ基盤モデルにparallel test-time computeを使う設定だと説明しています。
向く用途: コーディングエージェント、ブラウザー調査エージェント、コンピューター操作の自動化、ツール利用が多い業務アシスタント。
主要KPIが、実リポジトリのバグ修正、pull requestの作成、テスト通過、大規模コードベースの理解なら、Claude Opus 4.7は最有力候補です。SWE‑Bench Verified 87.6%、SWE‑Bench Pro 64.3%という報告値は、ソフトウェアエンジニアリング系ベンチマークでの強さを示しています。
AnthropicはClaude Opus 4.7を、コーディングとAIエージェント向けの1M context window搭載hybrid reasoning modelと説明しています。大規模コードベースを扱うワークフローで試すのは自然です。
向く用途: リポジトリ保守、コードレビュー、複雑なリファクタリング、開発者向けcopilot、エンジニアリングエージェント。
セルフホストやオープンウェイトが要件に入るなら、Kimi K2.6は有力候補です。公式Kimiの表では、Terminal‑Bench 2.0が66.7%、SWE‑Bench Proが58.6%、SWE‑Bench Verifiedが80.2%、SciCodeが52.2%、LiveCodeBench v6が89.6とされています。
Kimi K2.6の公開資料は、エージェント型や検索型のワークロードでも強いシグナルを示しています。BrowseCompは83.2%、Agent Swarm BrowseCompは86.3%です。 Artificial Analysisによれば、Kimi K2.6はネイティブの画像・動画入力と256k context lengthをサポートします。
向く用途: オープンモデル導入、コーディングエージェント、調査エージェント、ホスティング制御を重視するチーム。
DeepSeekは、DeepSeek V4 Previewを2026年4月24日にliveかつopen-sourcedにしたと発表しています。 DeepSeek‑V4‑Proのモデルカードは、V4シリーズをMoE language modelsとして紹介しています。
DeepSeek V4-Pro/Pro-Max系の報告ベンチマークには、Terminal Bench 2.0の67.9、SWE Verifiedの80.6、SWE Proの55.4、GPQA Diamondの90.1が含まれます。 そのため、オープンソース/オープンウェイト実験や長文コンテキスト用途の戦略的候補になります。ただし、スコアは必ず正確なvariant名とセットで読むべきです。
向く用途: 長文コンテキストアプリケーション、オープンソース/オープンウェイト実験、ホステッドなフロンティアモデルとデプロイ可能な代替モデルを比較したいチーム。
利用可能な報告値では、Claude Opus 4.7はGPQA Diamondで94.2%です。 Kimi K2.6はGPQA‑Diamondで90.5%、AIME 2026で96.4%を報告しています。
DeepSeek V4-Pro/Pro-Max系はGPQA Diamondで90.1を報告しています。
このため、科学推論ではClaudeが強い候補になります。ただし、数学・科学系ワークロードを単一ベンチマークだけで決めるのは避けるべきです。ベンチマーク設定、ツールアクセス、effort modeの違いで結果は変わります。
DeepSeek V4-Pro/Pro-Max系は、長文コンテキスト、オープンソース/オープンウェイト実験、デプロイ可能性が重要な制約なら候補に入ります。ただし、必ず正確なvariantとベンチマーク設定を確認してください。
Comments
0 comments