| API料金の安さ | DeepSeek V4 | MashableはDeepSeek V4を100万入力トークンあたり$1.74、100万出力トークンあたり$3.48とし、GPT-5.5の$5/$30、Claude Opus 4.7の$5/$25を下回るとしています。 |
| 公開されているコーディング指標 | DeepSeek V4 Pro | Together AIはDeepSeek V4 Proについて、LiveCodeBench 93.5%、Codeforces 3206、SWE-Bench Verified 80.6%、SWE-Bench Multilingual 76.2%を掲載しています。 |
| Kimi K2.6の位置づけ | 有望だが、総合勝者とは言いにくい | Kimi K2.6には有用なコーディング・エージェント系の数字がありますが、主なKimi寄りの比較はGPT-5.4やClaude Opus 4.6相手が中心で、GPT-5.5やClaude Opus 4.7との直接比較は限定的です。 |
入手できる出典の中で、最も分かりやすい総合指標はArtificial AnalysisのIntelligence Indexです。同リストでは、GPT-5.5 xhighが60で1位、GPT-5.5 highが59で2位、Claude Opus 4.7 Adaptive Reasoning Max Effortが57とされています。
Kimi K2.6は、利用できる複合指標ではこのGPT-5.5/Claude上位帯より少し下に見えます。OpenRouterはKimi K2.6についてIntelligence 53.9、Coding 47.1、Agentic 66.0を掲載し、LLMBaseのDeepSeek V4 Flash High対Kimi K2.6比較でもKimiはIntelligence 53.9、Coding 47.1です。 同じLLMBase比較ではDeepSeek V4 Flash HighがIntelligence 44.9、Coding 39.8とされていますが、これはDeepSeek V4 ProやPro-MaxではなくFlash系の値です。
ただし、この総合指標だけで4モデル全体の完全な序列を作るのは早計です。今回の出典には、GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro-Max、Kimi K2.6を同じ条件で横一列に並べた完全な総合ランキングはありません。
4モデルを実務目線で比べるなら、VentureBeatが掲載した共通ベンチマーク表が特に参考になります。ここではDeepSeek-V4-Pro-Max、GPT-5.5、表にある場合のGPT-5.5 Pro、Claude Opus 4.7が同じ行に並んでいます。
この表は、どれか1つのモデルが全勝しているわけではありません。Claude Opus 4.7は、GPQA Diamond、HLE no-tools、SWE-Bench Pro、MCP Atlasで強い根拠を持ちます。 一方、GPT-5.5はベースモデルでTerminal-Bench 2.0とBrowseCompが強く、GPT-5.5 Proが示されている行ではHLE with toolsとBrowseCompでさらに上に出ています。
DeepSeek-V4-Pro-Maxは複数行で健闘していますが、このVentureBeat表ではGPT-5.5またはClaude Opus 4.7の最高値を上回る行はありません。最も近いのはBrowseCompで、DeepSeek-V4-Pro-Maxが83.4%、GPT-5.5が84.4%、Claude Opus 4.7が79.3%です。
リポジトリ修正や複数ファイルをまたぐソフトウェア工学タスクを見るなら、VentureBeatの共通表ではClaude Opus 4.7がSWE-Bench Proで64.3%を記録し、GPT-5.5の58.6%、DeepSeek-V4-Pro-Maxの55.4%を上回っています。
一方で、公開されているコーディング指標の量と幅という意味ではDeepSeek V4 Proが目立ちます。Together AIはDeepSeek V4 Proについて、LiveCodeBench 93.5%、Codeforces 3206、SWE-Bench Verified 80.6%、SWE-Bench Multilingual 76.2%を掲載しています。 NVIDIAのモデルカードも、DeepSeek V4 FlashとV4 Proの各バリアントをGPQA Diamond、HLE、LiveCodeBench、Codeforcesなどで分けて示しており、V4-Pro MaxはLiveCodeBench 93.5、Codeforces 3206とされています。
Kimi K2.6にも、コーディング用途で無視できない材料があります。Lorkaの表では、Kimi K2.6はSWE-Bench Pro 58.6%、HLE-Full with tools 54.0%、GPQA-Diamond 90.5%、MMMU-Pro 79.4%です。ただし、この表の比較相手はGPT-5.4、Claude Opus 4.6、Gemini 3.1 Proです。 VerdentはKimi K2.6について、SWE-Bench Verified 80.2%、Terminal-Bench 2.0 66.7%、HLE with tools 54.0%、LiveCodeBench v6 89.6%を掲載し、同時にOpus 4.7がSWE-Bench Verifiedで87.6%をリードすると述べています。
APIコストが重要なら、DeepSeek V4の優位はかなり明確です。Mashableの比較では、DeepSeek V4は100万入力トークンあたり$1.74、100万出力トークンあたり$3.48です。これに対し、GPT-5.5は$5/$30、Claude Opus 4.7は$5/$25とされています。
注意したいのは、同じモデル名でもエンドポイントごとに上限が異なることです。MashableはDeepSeek V4、GPT-5.5、Claude Opus 4.7を100万コンテキストウィンドウとして比較していますが、OpenRouterのDeepSeek V4 Pro掲載では最大トークンが256K、最大出力が66Kと示されています。 本番導入では、モデル名だけでなく、プロバイダー、バリアント、推論モード、出力上限を必ず確認する必要があります。
GPT-5.5は、今回の出典にある総合指標を最重視する場合の最も堅い選択です。Artificial AnalysisはGPT-5.5 xhighを60、GPT-5.5 highを59としており、提示された範囲では上位2枠を占めています。
また、VentureBeatの共通表では、ベースのGPT-5.5がTerminal-Bench 2.0で82.7%、BrowseCompで84.4%を記録しています。GPT-5.5 Proが示されているBrowseCompでは90.1%です。
Claude Opus 4.7は、総合ランキングではGPT-5.5に近い位置にあります。Artificial AnalysisではAdaptive Reasoning Max Effort設定のIntelligence Indexが57です。 VentureBeatの共通表では、GPQA Diamond、HLE no-tools、SWE-Bench Pro、MCP AtlasでGPT-5.5とDeepSeek-V4-Pro-Maxを上回っています。
Anthropicの発表資料にも補足材料があります。同社は内部のresearch-agentベンチマークで、Claude Opus 4.7が6モジュール全体で0.715の同率トップスコアを出し、General FinanceではOpus 4.6の0.767に対して0.813だったとしています。 ただし、これはベンダー内部の結果なので、独立した横比較と同じ重みで読むべきではありません。
DeepSeek V4の最大の魅力は価格です。Mashableの比較では、DeepSeek V4は100万入力トークンあたり$1.74、100万出力トークンあたり$3.48で、GPT-5.5の$5/$30、Claude Opus 4.7の$5/$25を大きく下回ります。
DeepSeek V4 Proはコーディング指標も豊富です。Together AIはLiveCodeBench 93.5%、Codeforces 3206、SWE-Bench Verified 80.6%、SWE-Bench Multilingual 76.2%を掲載しています。 ただし、VentureBeatの共通表ではDeepSeek-V4-Pro-Maxは複数行で健闘しながらも、GPT-5.5またはClaude Opus 4.7の最高値を上回る行はありません。
Kimi K2.6は、4モデルの直接ランキングでは扱いが難しいモデルです。Kimiに焦点を当てた主なベンチマーク表は、GPT-5.5やClaude Opus 4.7ではなく、GPT-5.4やClaude Opus 4.6との比較が中心だからです。
それでも、材料が弱いわけではありません。OpenRouterはKimi K2.6をIntelligence 53.9、Coding 47.1、Agentic 66.0とし、VerdentはSWE-Bench Verified 80.2%、LiveCodeBench v6 89.6%を掲載しています。
実務上の結論は、Kimi K2.6が見劣りするというより、直接証拠がまだ薄いということです。料金、導入経路、エージェント挙動が自社のスタックに合うなら評価対象に入れるべきですが、今回の出典だけでGPT-5.5やClaude Opus 4.7に対する総合勝者とは言えません。
Comments
0 comments