結論から言えば、ベンチマークだけで決まる「一強」はありません。難しいタスクの品質を最優先するならClaude Opus 4.7、ターミナル操作やOpenAI/Codex周辺の流れを重視するならGPT-5.5、安価に強いコーディングモデルを試すならKimi K2.6、大量リクエストと長いコンテキストを低コストで回したいならDeepSeek V4が候補になります [3][
4][
7][
16]。
ただし、ここで出てくる数字はそのまま横並びにできるものばかりではありません。ツールあり/なし、reasoningやhigh effortなどの設定、Pro/Flashのような別バリアントが混ざっているため、順位表ではなく「最初に検証する順番」を決める材料として読むのが安全です [3][
6][
14][
16]。
まず結論:用途別に最初に試すモデル
| 優先したいこと | 最初に試す候補 | 判断材料 |
|---|---|---|
| 難しいタスクでの品質 | Claude Opus 4.7 | VentureBeatの比較ではHLEでGPT-5.5とDeepSeek V4を上回り、CodeRouterのSWE-Bench Proでも64.3%で首位とされる [ |
| ターミナル、エージェント、OpenAI環境 | GPT-5.5 | Terminal-Bench 2.0で82.7%と報告され、Claude Opus 4.7とDeepSeek V4を大きく上回る。ChatGPT/Codex系の作業を続けたい場合の自然な選択肢としても挙げられている [ |
| 低コストで競争力のあるコーディング | Kimi K2.6 | SWE-Bench ProでGPT-5.5と同じ58.6%とされ、料金は100万トークンあたり入力$0.60/出力$4.00と報告されている [ |
| 長いコンテキストを安く大量に使う | DeepSeek V4-Pro/V4 Flash | V4-Proは入力$1.74/出力$3.48、V4 Flashは入力$0.14/出力$0.28で、いずれも100万トークンのコンテキストが示されている。ただしFlashは別バリアントとして扱うべき [ |
| セルフホストの道筋 | Kimi K2.6 | K2.6の重みはHugging Faceにあり、vLLM、SGLang、KTransformersで動かせるとVerdentが説明している [ |
ベンチマークの読み方
Humanity’s Last Exam(HLE)は、数学・人文学・自然科学など2,500問からなるマルチモーダルな学術ベンチマークで、検証可能な解答を使って最先端モデルの能力を見るものです [15]。SWE-Bench Proは、実際のGitHub issueに近い多言語ソフトウェアエンジニアリング課題を評価するベンチマークと説明されています [
18]。Terminal-Bench 2.0は、VentureBeatの記事でエージェント型およびソフトウェアエンジニアリング系の結果として扱われています [
3]。
| ベンチマーク | 読み取れること | 公開されている主な数字 |
|---|---|---|
| HLE、ツールなし | 比較可能な範囲ではClaude Opus 4.7が上位。 | Claude Opus 4.7が46.9%、GPT-5.5が41.4%、DeepSeek V4が37.7%。同じ抜粋内にKimi K2.6の比較値はない [ |
| HLE、ツールあり | ClaudeがGPT-5.5とDeepSeek V4を上回る。Kimiも近い数字を持つが、別ソースの表なので注意。 | VentureBeatではClaude Opus 4.7が54.7%、GPT-5.5が52.2%、DeepSeek V4が48.2%。CodeRouterはKimi K2.6を54.0と載せているが、同じ表での直接比較ではない [ |
| SWE-Bench Pro | Claudeが首位、GPT-5.5とKimi K2.6が第2集団、DeepSeek V4-Proはやや下。 | CodeRouterはClaude Opus 4.7を64.3%、GPT-5.5とKimi K2.6を58.6%、DeepSeek V4-Proを約55%と報告。VentureBeatはDeepSeekの値を55.4%としている [ |
| Terminal-Bench 2.0 | GPT-5.5の最も強い根拠。 | GPT-5.5が82.7%、Claude Opus 4.7が69.4%、DeepSeek V4が67.9%。入手できる抜粋にはKimi K2.6の値はない [ |
実務的には、Claude Opus 4.7は総合品質、GPT-5.5はターミナル系、Kimi K2.6はコーディング性能と価格のバランス、DeepSeek V4は長いコンテキストを安く使う用途で見ると整理しやすくなります [3][
4][
16]。
料金とコンテキスト:ベンチマークは請求書を払ってくれない
AIエージェントや自動化パイプラインでは、1回の回答品質よりも「何回呼ぶか」が支配的になることがあります。小さなベンチマーク差より、100万トークンあたりの入出力料金やコンテキスト長のほうが最終コストに効く場面は少なくありません。公開情報では、Kimi K2.6とDeepSeek V4が低価格寄り、GPT-5.5とClaude Opus 4.7がプレミアム寄りに見えます [4][
16][
19]。
| モデル/バリアント | 報告されている料金 | 報告されているコンテキスト | メモ |
|---|---|---|---|
| Claude Opus 4.7 | Artificial Analysisでは100万トークンあたり入力$5/出力$25 [ | 100万トークン、最大出力128Kトークン [ | Artificial Analysisは、知能面で主要モデルの一つだが、高価で遅め、出力が長くなりがちとも評している [ |
| GPT-5.5 | CodeRouterでは入力$5/出力$30 [ | 100万トークン [ | Terminal-Bench 2.0の強さ、ChatGPT/Codex系の作業継続性を重視する場合に検討しやすい [ |
| Kimi K2.6 | CodeRouterでは入力$0.60/出力$4.00 [ | 256Kトークン [ | Artificial Analysisの比較でも、Kimi K2.6は256K、Claude Opus 4.7は1000Kのコンテキストと示されている [ |
| DeepSeek V4-Pro | CodeRouterでは入力$1.74/出力$3.48 [ | 100万トークン [ | HLEやSWE-Bench Proでは首位ではないが、長いコンテキストを低コストで使う候補になる [ |
| DeepSeek V4 Flash | CodeRouterでは入力$0.14/出力$0.28 [ | 100万トークン [ | V4-Proとは別バリアント。V4-ProやV4-Pro-MaxのベンチマークをそのままFlashに当てはめるのは避けたい [ |
Claude Opus 4.7については、Artificial Analysisの個別記事が入力$5/出力$25、100万トークンのコンテキストを示す一方、Kimi比較に使われたCodeRouterの表では別の値も見られます [16][
19]。本番導入では、必ず自社が使うプロバイダーの最新価格、SLA、契約条件で見積もるべきです。
どれを選ぶべきか
失敗のコストが高いならClaude Opus 4.7
複雑なコードレビュー、長い仕様書の検討、隠れた不具合の発見など、1回のミスが高くつくタスクではClaude Opus 4.7から検証するのが自然です。HLEでGPT-5.5とDeepSeek V4を上回り、CodeRouterのSWE-Bench Proでも64.3%で首位とされ、Artificial Analysisも知能面で主要モデルの一つと評価しています。ただし、コスト、速度、冗長さには注意が必要です [3][
14][
16]。
また、Artificial AnalysisによればClaude Opus 4.7は100万トークンのコンテキストと128Kトークンの最大出力に対応し、Anthropic API、Amazon Bedrock、Microsoft Azure、Google Vertex経由で利用できるとされています [19]。
ターミナル作業やOpenAI環境を重視するならGPT-5.5
GPT-5.5は、VentureBeatのHLE比較ではClaude Opus 4.7を上回っていません。しかしTerminal-Bench 2.0では82.7%と報告され、Claude Opus 4.7の69.4%、DeepSeek V4の67.9%を上回っています [3]。チームがすでにChatGPTやCodexを中心に開発フローを組んでいる場合、別プロバイダーへ全面移行する前にGPT-5.5を試す、という考え方も実務的です [
7]。
低コストで強いコーディング性能を狙うならKimi K2.6
Kimi K2.6は、今回の公開情報の中で費用対効果が最も分かりやすいモデルです。CodeRouterはSWE-Bench ProでGPT-5.5と同じ58.6%としながら、料金は100万トークンあたり入力$0.60/出力$4.00と示しています [16]。コンテキストは256Kトークンで、同じ表にあるGPT-5.5やDeepSeek V4-Proの100万トークンより短いものの、リポジトリやタスクを適切に分割できるなら十分な場面もあります [
16]。
セルフホストを重視する場合もKimi K2.6は目立ちます。Verdentは、K2.6の重みがHugging Faceにあり、vLLM、SGLang、KTransformersで実行できるとし、INT4バリアントを縮小コンテキストで動かす最低限の目安として4×H100を挙げています [5]。
大量処理と長いコンテキストが先ならDeepSeek V4
DeepSeek V4 Pro/Pro-Maxは、VentureBeatのHLE、Terminal-Bench 2.0、SWE-Bench Proの数字ではClaude Opus 4.7やGPT-5.5を上回っていません [3]。それでも、V4-Proは100万トークンのコンテキストと入力$1.74/出力$3.48という価格が示されており、大量のAPI呼び出しを伴う処理では候補になります [
16]。
さらにコストを削りたい場合、DeepSeek V4 Flashは入力$0.14/出力$0.28、100万トークンのコンテキストとされています [4]。ただし、FlashはV4-Proとは別バリアントです。安いから同じ品質、と見なすのではなく、自分のタスクで別途検証する必要があります [
4][
16]。
乗り換える前の注意点
- 設定がそろっていない数字を混ぜない。 HLEにはツールあり/なしがあり、別ソースではhigh effort、max effort、thinkingなどのモードが使われています [
3][
6][
14][
16]。
- モデル名だけでなくバリアントを見る。 GPT-5.5とGPT-5.5 Pro、DeepSeek V4-Pro/V4-Pro-Max/V4 Flashは同一視しないほうが安全です [
3][
4][
16]。
- 価格とリーダーボードはすぐ古くなる。 Verdentも、継続的なリリース環境では数字が早く陳腐化しやすいと注意しています [
5]。
- 最後は自分のワークロードで決める。 実務ガイドは、話題性のある新モデルを選ぶのではなく、同じタスクを実際に走らせてから判断することを勧めています [
7]。
まとめ
品質だけを最優先するなら、まずClaude Opus 4.7。ターミナル操作、エージェント的な作業、OpenAI/Codexとの継続性を重く見るならGPT-5.5。安価に競争力のあるコーディング性能を試すならKimi K2.6。長いコンテキストを低コストで大量に使うならDeepSeek V4-ProまたはV4 Flashを検証する、という選び方が現実的です [3][
4][
7][
16][
19]。
ただし、どれを選んでも本番導入の前には、同じプロンプト、同じコードベース、同じツール設定で小さな評価セットを作るべきです。ベンチマークは出発点にはなりますが、請求額、遅延、失敗時の修正コストまで含めて初めて、自社の「最適なモデル」が見えてきます。




