| コスト重視のAPI利用 | DeepSeek V4-Pro | DataCampの表ではDeepSeek V4-Proが100万入力トークンあたり$1.74、100万出力トークンあたり$3.48。Claude Opus 4.7は$5/$25 |
| コンテキスト長 | ほぼ同じ帯域 | AnthropicはClaude Opus 4.7を1Mトークンのcontext window付きと説明し、OpenRouterはDeepSeek V4 Proを1.05Mトークンと記載している |
| 総合リーダーボード | Claude Opus 4.7 | BenchLMではClaude Opus 4.7がoverall score 97/100、DeepSeek V4 Pro Highが83 |
DeepSeek V4にはProとFlashがあり、DeepSeek公式ドキュメントでもDeepSeek-V4-ProとDeepSeek-V4-Flashが示されています。さらに、deepseek-chatとdeepseek-reasonerは現在deepseek-v4-flashにルーティングされていると説明されています 。
そのため、本稿で扱うベンチマークは主にDeepSeek V4-Proの数字として読むべきです。V4-Proのスコアを、そのままV4-Flashや、プロバイダー側で別モデルにルーティングされるエンドポイントへ当てはめるのは危険です。本番環境では、モデル名だけでなく、実際に呼んでいるエンドポイントが何に接続されているかも確認すべきです 。
コードベース内のバグ修正、既存テストを通すパッチ作成、レビュー可能な変更生成を重視するなら、SWE-bench系の数字が最も実務に近い判断材料になります。第三者比較では、Claude Opus 4.7がSWE-bench Verified 87.6%、SWE-bench Pro 64.3%。DeepSeek V4-Proはそれぞれ80.6%、**55.4%**とされています 。
Anthropic自身の位置づけもこの方向です。Claude Opus 4.7の製品ページでは、同モデルをコーディングとAIエージェント向けのhybrid reasoning modelとし、1Mトークンのcontext windowを備えると説明しています 。またAnthropicは、社内の93タスクのコーディングベンチマークでOpus 4.7がOpus 4.6より解決率を13%高めたと述べています
。
ただし、この13%改善はAnthropicの内部ベンチマークです。製品の方向性を示すシグナルとしては有用ですが、DeepSeek V4-Proとの独立した完全な直接比較として扱うべきではありません 。
実務での読み方はシンプルです。CIを通す、pull requestの手戻りを減らす、複数ファイルにまたがる修正を安定させる、といったKPIでは、現時点の公開スコアはClaude Opus 4.7寄りです 。
一方で、競技プログラミングではDeepSeek V4-Proが強く見えます。同じ第三者比較では、DeepSeek V4-ProはLiveCodeBench 93.5で、Claude Opus 4.7の88.8を上回ります。さらにDeepSeek V4-ProのCodeforcesスコアは3206とされています 。
LiveCodeBenchやCodeforcesのような指標は、独立したアルゴリズム問題、解法生成、競プロ向けチューター、コーディングチャレンジ支援を見るには向いています。ただし、これは依存関係、既存設計、テスト環境、レビュー基準を含む実リポジトリのパッチ作成とは別の能力です。
つまり、アルゴリズム問題を大量に解くプロダクトならDeepSeek V4-Proを強く検討すべきです。一方、業務コードの修正品質を見たいなら、SWE-benchと自社リポジトリでのテストを優先すべきです 。
Claude Opus 4.7の分かりやすい強みは、task budgets。
DeepSeek V4にもエージェント用途での期待はあります。CNBCが引用したCounterpointの分析では、V4のベンチマークプロファイルは“excellent agent capability at significantly lower cost”を示唆するとされています 。これは、複数のエージェントを並列に走らせるような構成では重要な論点です。
ただし、低コストでエージェント性能が期待できるという分析と、task budgets。
価格はDeepSeek V4-Proの最大の強みです。DataCampは、DeepSeek V4-ProのAPI価格を100万入力トークンあたり**$1.74**、100万出力トークンあたり**$3.48としています。一方、Claude Opus 4.7は$5**/$25です 。Yahoo/TechCrunchも、Claude Opus 4.7の価格を100万入力トークンあたり$5、100万出力トークンあたり$25と記載しています
。
DataCampの数字だけで単純計算すると、Claude Opus 4.7はDeepSeek V4-Proに比べて入力で約2.9倍、出力で約7.2倍高いことになります 。長い回答を多く生成するバッチ処理、コード生成、エージェントの多段実行では、この差はかなり大きく効きます。
もっとも、本番コストは表示価格だけでは決まりません。キャッシュ、バッチ料金、レイテンシ、リトライ率、出力品質、再実行の回数、コンテキスト長の使い方まで含めて、タスク完了あたりの総コストで見る必要があります。
コンテキスト長は、両者とも1Mトークン前後の帯域です。AnthropicはClaude Opus 4.7について1Mトークンのcontext windowを備えると説明しています 。OpenRouterはDeepSeek V4 Proをcontext length 1.05Mトークン、Mixture-of-Expertsモデル、総パラメータ1.6T、activated parameters 49Bと記載しています
。
Claude側は、モデル規模の情報が限られています。Artificial Analysisは、Claude Opus 4.7をproprietary modelとし、Anthropicはmodel sizeやparameter countを公表していないと説明しています 。
これはDeepSeekがあらゆる意味でオープンだ、という意味ではありません。ただ、今回のソース群だけを見る限り、DeepSeek V4-Proのほうがアーキテクチャに関する具体的な数字が多く出ています 。
BenchLMでは、Claude Opus 4.7がoverall score 97/100で、provisional leaderboardとverified leaderboardの双方で**#2**とされています 。同じBenchLMで、DeepSeek V4 Pro Highはoverall score 83、provisional ranking #15です
。
総合リーダーボードは、全体の立ち位置を見るには便利です。ただし、リーダーボードの重み付けが自社のワークロードと一致するとは限りません。日本語の仕様書、混在する英日コメント、社内フレームワーク、長いログ解析、独自tool useなどを重視するなら、その条件で別途テストする必要があります。
Claude Opus 4.7を優先しやすいのは、次のような場合です。
task budgetsDeepSeek V4-Proを優先しやすいのは、次のような場合です。
現時点のソースだけでは、safety、hallucination、日本語性能、long-context retrieval、multimodal、GPQA、本番tool useのすべてでどちらが上かを断定するには足りません。AnthropicはOpus 4.7について、coding、vision、complex multi-step tasksでより強くなったと説明していますが、これはDeepSeek V4-Proと同一条件で全面的に比較した独立ベンチマークではありません 。
DeepSeek側では、V4 Previewであること、そして一部エンドポイントがV4-Flashへルーティングされている点に注意が必要です 。Claude側では、AnthropicがOpus 4.7のmodel sizeやparameter countを公表していない点も押さえておくべきです
。
最終判断は、公開ベンチマークではなく自社タスクで行うべきです。コーディング用途なら、実際のissue、実際のリポジトリ、実際のテストスイートを使い、pass/fail、レビュー可能なパッチ数、修正のやり直し回数、レイテンシ、トークンコスト、リトライ率を測ります。
エージェント用途では、同じtool set、同じsystem prompt、同じトークン予算、同じタイムアウトで比較することが重要です。公開スコアの読みとしては、Claude Opus 4.7は実務寄りのソフトウェアエンジニアリングと文書化されたエージェント制御に強く、DeepSeek V4-Proは競技プログラミングとAPIコストで強い、という整理になります 。
Comments
0 comments