| Claude Opus 4.7 |
| Anthropicは、内部の研究エージェントベンチマークでOpus 4.7が総合0.715、General Financeで0.813を記録し、Opus 4.6の0.767を上回ったと説明しています。 |
| 大量処理、低単価、予算制約の強いプロダクト | DeepSeek V4 | Mashableの価格整理では、DeepSeek V4は100万入力トークンあたり1.74ドル、100万出力トークンあたり3.48ドルで、同じ表のGPT-5.5やClaude Opus 4.7より大幅に安いです。 |
| 開重みエコシステム、画像・動画入力、256Kの長文脈 | Kimi K2.6 | Artificial AnalysisはKimi K2.6を新しい有力な開重みモデルと位置づけ、画像・動画入力とテキスト出力、最大256K文脈をサポートするとしています。 |
現時点の公開資料では、4モデルを同じ評価者、同じ時期、同じ推論予算、同じツール権限で一括比較した完全な横並び表は見つけにくい状況です。利用できる情報は、モデル提供元の発表、第三者ベンチマーク、メディアの集計、API文書、ルーティング事業者のページ、個人検証などが混在しています。
特に注意したいのが推論強度です。Artificial AnalysisはGPT-5.5 xHigh、GPT-5.5 High、Claude Opus 4.7 Adaptive Reasoning Max Effortを分けて扱っています。OpenAIのAPI文書も、GPT-5.5のreasoning effortとしてnone、low、medium、high、xhighを示しています。 つまり、ある表で上位だからといって、自社のプロンプト、ツール連携、遅延許容、レビュー体制でも必ず上位とは限りません。
OpenAIの発表ページでは、GPT-5.5とGPT-5.5 Proが2026年4月24日に利用可能になったとされています。 OpenAIのAPI文書は、
gpt-5.5をコーディングと専門業務向けのモデルと説明し、100万トークンのコンテキスト、最大128K出力、関数呼び出し、ウェブ検索、ファイル検索、コンピューター操作をサポートするとしています。
公開ベンチマークだけで見れば、GPT-5.5は最初の高性能ベースラインにしやすいモデルです。Artificial Analysisの総合指数ではGPT-5.5 xHighが60、Highが59。VentureBeatの集計ではTerminal-Bench 2.0が82.7%で、Claude Opus 4.7の69.4%、DeepSeek V4の67.9%を上回っています。
一方で、費用は軽くありません。OpenAI文書ではGPT-5.5の価格は100万入力トークンあたり5ドル、100万出力トークンあたり30ドルです。長いレポート生成、多数のエージェント反復、大量の出力を伴う用途では、出力トークン単価が効いてきます。
Claude Opus 4.7は、長時間の作業や多段階の分析、根拠をきちんと扱う文書処理で候補に入れたいモデルです。Anthropicは、内部の研究エージェントベンチマークでOpus 4.7が6モジュール全体で総合0.715を記録し、長文脈で最も一貫した性能を示したと説明しています。General Financeでは0.813で、Opus 4.6の0.767を上回っています。
VentureBeatがまとめたHumanity’s Last Examでは、ツールなし設定でClaude Opus 4.7が46.9%となり、GPT-5.5の41.4%、DeepSeek V4の37.7%を上回りました。ツールありではClaudeが54.7%で、GPT-5.5 baseの52.2%を上回る一方、GPT-5.5 Proの57.2%は下回っています。
ただし、Claudeがあらゆる指標でGPT-5.5を上回るわけではありません。Terminal-Bench 2.0では、GPT-5.5の82.7%に対してClaude Opus 4.7は69.4%です。 また、別資料ではOpus 4.7がSWE-bench Verifiedで82.4%とされますが、これは4モデルを同一条件で比較した表ではないため、SWE-Bench Proなど別の指標と単純に合算すべきではありません。
DeepSeek V4の最大の魅力は価格です。Mashableの整理では、DeepSeek V4 APIは100万入力トークンあたり1.74ドル、100万出力トークンあたり3.48ドル。同じ整理ではGPT-5.5が5ドル/30ドル、Claude Opus 4.7が5ドル/25ドルです。
性能面では、前線級に近い一方で、公開集計上は全面的な首位ではありません。VentureBeatによると、DeepSeek V4はHumanity’s Last Examでツールなし37.7%、ツールあり48.2%で、GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7の対応スコアを下回っています。Terminal-Bench 2.0では67.9%でClaudeの69.4%に近いものの、GPT-5.5の82.7%とは差があります。
そのため、DeepSeek V4は「すべての閉源フロンティアモデルを置き換えるモデル」というより、コスト制約の強い本番システムで最初に費用対品質を検証すべきモデルと見るのが現実的です。重要なのは、自社タスクで許容品質に届くか、安い単価が再試行・人手レビュー・遅延のコストを上回るかです。
Kimi K2.6の見どころは、開重み、マルチモーダル入力、長文脈です。Artificial AnalysisはKimi K2.6を新しい有力な開重みモデルと位置づけ、画像・動画入力とテキスト出力をネイティブにサポートし、最大文脈長は256Kと説明しています。
OpenRouterのページでは、Kimi K2.6についてArtificial Analysis Intelligence 53.9、Coding 47.1、Agentic 66.0が掲載され、最大トークンは256K、最大出力は66Kとされています。 DocsBotの集計ではBrowseCompがKimi K2.6で83.2%、GPT-5.5で84.4%です。
ただし、Kimi K2.6の資料にはGPT-5.4やClaude Opus 4.6との比較を中心にしたものも多く、GPT-5.5、Claude Opus 4.7、DeepSeek V4との完全な同一条件比較とは分けて読む必要があります。
API単価は総コストの一部にすぎません。OpenAIのGPT-5.5 APIガイドは、ツールを多用する長時間ワークフローでは、他モデルと精度、トークン消費、エンドツーエンド遅延を比較するよう勧めています。 またGPT-5.5はreasoning effortをnoneからxhighまで調整できるため、同じモデルでも設定次第でコストと性能のバランスが変わります。
公開ベンチマークは候補を絞るには便利ですが、最終判断は自社の実タスクで行うべきです。少なくとも、次の4点は記録しておきたいところです。
個人検証は参考信号になりますが、標準ランキングとしては扱いに注意が必要です。AkitaOnRailsの2026年4月のコーディングテストでは、Claude Opus 4.7が97点、GPT-5.5 xHigh Codexが96点、Kimi K2.6が87点、DeepSeek V4 Proが69点でした。同じ表では概算コストとして、Claude Opus 4.7が約1.10ドル、GPT-5.5 xHigh Codexが約10ドル、Kimi K2.6が約0.30ドル、DeepSeek V4 Proが約0.50ドルと記録されています。
まず1つだけ検証に入れるなら、GPT-5.5を選ぶのが無難です。Artificial Analysisの総合指数とVentureBeat集計のTerminal-Bench 2.0で、どちらも強い結果が出ています。
ただし、長文書調査、金融資料処理、複雑な多段階分析、根拠とデータの扱いを重視するなら、Claude Opus 4.7は最初から比較対象に入れるべきです。Anthropicの内部研究エージェントデータと、VentureBeat集計のHumanity’s Last Examはその方向での競争力を示しています。
呼び出し量と予算が最大の制約なら、DeepSeek V4で費用対品質の曲線を早めに確認する価値があります。公開価格の整理では、入力・出力単価がGPT-5.5やClaude Opus 4.7より大幅に低いです。
開重み、画像・動画入力、256K文脈が必要なら、Kimi K2.6は重点的に評価すべき候補です。ただし、GPT-5.5、Claude Opus 4.7、DeepSeek V4と完全に同一条件で比較できる公開情報はまだ十分ではありません。
最も堅い結論は、公開ベンチマークで「どこから試すか」を決め、自社の実タスクで「本番に入れるモデル」を決めることです。ランキングは候補を減らしてくれますが、品質、コスト、遅延のトレードオフまでは肩代わりしてくれません。
Comments
0 comments