答え公開済み2026年4月28日Last edited 2026年5月6日12 ソース

DeepSeek V4-ProとClaude Opus 4.7を比較：SWE-bench、エージェント、API価格

Claude Opus 4.7は第三者比較でSWE bench Verified 87.6%、SWE bench Pro 64.3%。DeepSeek V4 Proは80.6%、55.4%で、実リポジトリ寄りの開発タスクはClaudeが優勢です [28]。 DeepSeek V4 ProはLiveCodeBench 93.5（Claude Opus 4.7は88.8）とされ、DataCampのAPI価格でも100万入力／出力トークンあたり$1.74／$3.48と、Claudeの$5／$25を大きく下回ります [28][32]。

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

17K0

Minh họa so sánh DeepSeek V4-Pro và Claude Opus 4.7 về benchmark coding, agent workflow và giá API — DeepSeek V4-Pro vs Claude Opus 4.7: Claude thắng SWE-bench, DeepSeek thắng giáDeepSeek V4-Pro có lợi thế về chi phí và competitive coding; Claude Opus 4.7 đang dẫn ở benchmark software engineering trong repo thật.
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: DeepSeek V4-Pro vs Claude Opus 4.7: Claude thắng SWE-bench, DeepSeek thắng giá. Article summary: Claude Opus 4.7 là lựa chọn an toàn hơn cho sửa code trong repo thật: một so sánh bên thứ ba ghi 87,6% SWE bench Verified và 64,3% SWE bench Pro, cao hơn DeepSeek V4 Pro; caveat là DeepSeek V4 vẫn ở dạng Preview nên c.... Topic tags: ai, deepseek, claude, anthropic, coding. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek-V4 Provs Claude Opus 4.7. Get a detailed comparison of AI language modelsDeepSeek's DeepSeek-V4 ProandAnthropic's Claude Opus 4.7, including model features, token pricin" source context "DeepSeek-V4 Pro vs Claude Opus 4.7 - Detailed Performance & Feature Comparison" Reference image 2: visual subject "# Claude Opus 4.7 vs DeepSeek V4 Pro (High). Verified leader
openai.com

「どちらが勝ちか」ではなく、「何に使うか」で結論が変わります。公開されている数字を素直に読むと、実リポジトリでのバグ修正やパッチ作成はClaude Opus 4.7、競技プログラミングとAPIコストはDeepSeek V4-Proが有利です。

ただし、DeepSeek側には重要な前提があります。DeepSeekの公式ドキュメントはV4をPreviewとして案内しており、deepseek-chatとdeepseek-reasonerは現在deepseek-v4-flashへルーティングされ、2026年7月24日15:59（UTC）以降は完全に利用できなくなると説明しています ^[3]。

用途別の早見表

見たい観点	優勢に見えるモデル	理由
実リポジトリの修正、PR用パッチ、リファクタ	Claude Opus 4.7	第三者比較でClaudeはSWE-bench Verified 87.6%、SWE-bench Pro 64.3%。DeepSeek V4-Proは80.6%、55.4% ^[28]。
競技プログラミング、独立したアルゴリズム問題	DeepSeek V4-Pro	同じ比較でDeepSeek V4-ProはLiveCodeBench 93.5、Claude Opus 4.7は88.8。CodeforcesはDeepSeek V4-Proが3206とされる ^[28]。
エージェント運用、tool use	Claudeは制御方法が明確	Anthropicは `task budgets` を文書化しており、thinking、tool calls、tool results、final outputを含む1回のagentic loopに目標トークン予算を設定できる ^[13]。
コスト重視のAPI利用	DeepSeek V4-Pro	DataCampの表ではDeepSeek V4-Proが100万入力トークンあたり$1.74、100万出力トークンあたり$3.48。Claude Opus 4.7は$5／$25 ^[32]。
コンテキスト長	ほぼ同じ帯域	AnthropicはClaude Opus 4.7を1Mトークンのcontext window付きと説明し、OpenRouterはDeepSeek V4 Proを1.05Mトークンと記載している ^[21]^[27]。
総合リーダーボード	Claude Opus 4.7	BenchLMではClaude Opus 4.7がoverall score 97/100、DeepSeek V4 Pro Highが83 ^[16]^[5]。

前提：ここではDeepSeek V4-Proの数字として読む

DeepSeek V4にはProとFlashがあり、DeepSeek公式ドキュメントでもDeepSeek-V4-ProとDeepSeek-V4-Flashが示されています。さらに、deepseek-chatとdeepseek-reasonerは現在deepseek-v4-flashにルーティングされていると説明されています ^[3]。

そのため、本稿で扱うベンチマークは主にDeepSeek V4-Proの数字として読むべきです。V4-Proのスコアを、そのままV4-Flashや、プロバイダー側で別モデルにルーティングされるエンドポイントへ当てはめるのは危険です。本番環境では、モデル名だけでなく、実際に呼んでいるエンドポイントが何に接続されているかも確認すべきです ^[3]。

実務コーディング：SWE-benchではClaudeが一歩先

コードベース内のバグ修正、既存テストを通すパッチ作成、レビュー可能な変更生成を重視するなら、SWE-bench系の数字が最も実務に近い判断材料になります。第三者比較では、Claude Opus 4.7がSWE-bench Verified 87.6%、SWE-bench Pro 64.3%。DeepSeek V4-Proはそれぞれ80.6%、**55.4%**とされています ^[28]。

Anthropic自身の位置づけもこの方向です。Claude Opus 4.7の製品ページでは、同モデルをコーディングとAIエージェント向けのhybrid reasoning modelとし、1Mトークンのcontext windowを備えると説明しています ^[21]。またAnthropicは、社内の93タスクのコーディングベンチマークでOpus 4.7がOpus 4.6より解決率を13%高めたと述べています ^[19]。

ただし、この13%改善はAnthropicの内部ベンチマークです。製品の方向性を示すシグナルとしては有用ですが、DeepSeek V4-Proとの独立した完全な直接比較として扱うべきではありません ^[19]。

実務での読み方はシンプルです。CIを通す、pull requestの手戻りを減らす、複数ファイルにまたがる修正を安定させる、といったKPIでは、現時点の公開スコアはClaude Opus 4.7寄りです ^[28]。

競技プログラミング：DeepSeek V4-Proが目立つ

一方で、競技プログラミングではDeepSeek V4-Proが強く見えます。同じ第三者比較では、DeepSeek V4-ProはLiveCodeBench 93.5で、Claude Opus 4.7の88.8を上回ります。さらにDeepSeek V4-ProのCodeforcesスコアは3206とされています ^[28]。

LiveCodeBenchやCodeforcesのような指標は、独立したアルゴリズム問題、解法生成、競プロ向けチューター、コーディングチャレンジ支援を見るには向いています。ただし、これは依存関係、既存設計、テスト環境、レビュー基準を含む実リポジトリのパッチ作成とは別の能力です。

つまり、アルゴリズム問題を大量に解くプロダクトならDeepSeek V4-Proを強く検討すべきです。一方、業務コードの修正品質を見たいなら、SWE-benchと自社リポジトリでのテストを優先すべきです ^[28]。

エージェントとtool use：Claudeは仕様が読みやすく、DeepSeekはコスト面が魅力

Claude Opus 4.7の分かりやすい強みは、


task budgets

です。Anthropicはこれを、thinking、tool calls、tool results、final outputを含むagentic loop全体に対して、目標トークン予算を与える仕組みとして説明しています。モデルは残り予算のカウントダウンを見ながら、作業の優先順位を付け、予算消費に合わせてタスクを終えようとします ^[13]。

DeepSeek V4にもエージェント用途での期待はあります。CNBCが引用したCounterpointの分析では、V4のベンチマークプロファイルは“excellent agent capability at significantly lower cost”を示唆するとされています ^[1]。これは、複数のエージェントを並列に走らせるような構成では重要な論点です。

ただし、低コストでエージェント性能が期待できるという分析と、


task budgets

のように具体的な制御機構が文書化されていることは別です。tool callの回数、終了条件、トークン予算を厳密に管理したいなら、現時点ではClaude Opus 4.7のほうが設計を読みやすいモデルです ^[1]^[13]。

API価格：DeepSeekの安さは無視しにくい

価格はDeepSeek V4-Proの最大の強みです。DataCampは、DeepSeek V4-ProのAPI価格を100万入力トークンあたり**$1.74**、100万出力トークンあたり**$3.48としています。一方、Claude Opus 4.7は$5**／$25です ^[32]。Yahoo/TechCrunchも、Claude Opus 4.7の価格を100万入力トークンあたり$5、100万出力トークンあたり$25と記載しています ^[26]。

DataCampの数字だけで単純計算すると、Claude Opus 4.7はDeepSeek V4-Proに比べて入力で約2.9倍、出力で約7.2倍高いことになります ^[32]。長い回答を多く生成するバッチ処理、コード生成、エージェントの多段実行では、この差はかなり大きく効きます。

もっとも、本番コストは表示価格だけでは決まりません。キャッシュ、バッチ料金、レイテンシ、リトライ率、出力品質、再実行の回数、コンテキスト長の使い方まで含めて、タスク完了あたりの総コストで見る必要があります。

コンテキストとアーキテクチャ：どちらも1M前後、公開情報はDeepSeekが具体的

コンテキスト長は、両者とも1Mトークン前後の帯域です。AnthropicはClaude Opus 4.7について1Mトークンのcontext windowを備えると説明しています ^[21]。OpenRouterはDeepSeek V4 Proをcontext length 1.05Mトークン、Mixture-of-Expertsモデル、総パラメータ1.6T、activated parameters 49Bと記載しています ^[27]。

Claude側は、モデル規模の情報が限られています。Artificial Analysisは、Claude Opus 4.7をproprietary modelとし、Anthropicはmodel sizeやparameter countを公表していないと説明しています ^[14]。

これはDeepSeekがあらゆる意味でオープンだ、という意味ではありません。ただ、今回のソース群だけを見る限り、DeepSeek V4-Proのほうがアーキテクチャに関する具体的な数字が多く出ています ^[14]^[27]。

総合リーダーボード：Claudeが上。ただし過信は禁物

BenchLMでは、Claude Opus 4.7がoverall score 97/100で、provisional leaderboardとverified leaderboardの双方で**#2**とされています ^[16]。同じBenchLMで、DeepSeek V4 Pro Highはoverall score 83、provisional ranking #15です ^[5]。

総合リーダーボードは、全体の立ち位置を見るには便利です。ただし、リーダーボードの重み付けが自社のワークロードと一致するとは限りません。日本語の仕様書、混在する英日コメント、社内フレームワーク、長いログ解析、独自tool useなどを重視するなら、その条件で別途テストする必要があります。

Claude Opus 4.7を選びやすいケース

Claude Opus 4.7を優先しやすいのは、次のような場合です。

実リポジトリのソフトウェアエンジニアリング：SWE-bench VerifiedとSWE-bench Proの数字はClaude Opus 4.7が上です ^[28]。
エージェント制御を重視する：
```
task budgets
```
により、thinking、tool calls、tool results、final outputを含む1回のagentic loopに予算を置けます ^[13]。
公式ドキュメントの明確さを重視する：AnthropicはOpus 4.7をコーディング、AIエージェント、1Mトークンcontext window向けに位置づけています ^[21]。
総合ランキングを重視する：BenchLMではClaude Opus 4.7がDeepSeek V4 Pro Highより高いoverall scoreです ^[16]^[5]。

DeepSeek V4-Proを選びやすいケース

DeepSeek V4-Proを優先しやすいのは、次のような場合です。

競技プログラミングやアルゴリズム問題：LiveCodeBenchとCodeforcesの数字ではDeepSeek V4-Proが目立ちます ^[28]。
トークン単価を最優先する：DataCampの価格表では、DeepSeek V4-ProはClaude Opus 4.7より入力・出力ともに安価です ^[32]。
大量リクエストや長い出力を扱う：品質が自社タスクで十分なら、出力トークン単価の差はスケール時に効きます ^[32]。
アーキテクチャ情報を見たい：OpenRouterはDeepSeek V4 Proについて、context length、MoE、総パラメータ、activated parametersを記載しています ^[27]。

まだ断定しないほうがよいこと

現時点のソースだけでは、safety、hallucination、日本語性能、long-context retrieval、multimodal、GPQA、本番tool useのすべてでどちらが上かを断定するには足りません。AnthropicはOpus 4.7について、coding、vision、complex multi-step tasksでより強くなったと説明していますが、これはDeepSeek V4-Proと同一条件で全面的に比較した独立ベンチマークではありません ^[21]。

DeepSeek側では、V4 Previewであること、そして一部エンドポイントがV4-Flashへルーティングされている点に注意が必要です ^[3]。Claude側では、AnthropicがOpus 4.7のmodel sizeやparameter countを公表していない点も押さえておくべきです ^[14]。

本番投入前は、自社タスクでA/Bテストする

最終判断は、公開ベンチマークではなく自社タスクで行うべきです。コーディング用途なら、実際のissue、実際のリポジトリ、実際のテストスイートを使い、pass/fail、レビュー可能なパッチ数、修正のやり直し回数、レイテンシ、トークンコスト、リトライ率を測ります。

エージェント用途では、同じtool set、同じsystem prompt、同じトークン予算、同じタイムアウトで比較することが重要です。公開スコアの読みとしては、Claude Opus 4.7は実務寄りのソフトウェアエンジニアリングと文書化されたエージェント制御に強く、DeepSeek V4-Proは競技プログラミングとAPIコストで強い、という整理になります ^[13]^[28]^[32]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

Claude Opus 4.7は第三者比較でSWE bench Verified 87.6%、SWE bench Pro 64.3%。DeepSeek V4 Proは80.6%、55.4%で、実リポジトリ寄りの開発タスクはClaudeが優勢です [28]。
DeepSeek V4 ProはLiveCodeBench 93.5（Claude Opus 4.7は88.8）とされ、DataCampのAPI価格でも100万入力／出力トークンあたり$1.74／$3.48と、Claudeの$5／$25を大きく下回ります [28][32]。
エージェント用途では、Claudeのtask budgetsはAnthropicが文書化済み。DeepSeekにも低コストなエージェント性能への期待はありますが、本番ワークロードでのA/Bテストが必要です [13][1]。

人々も尋ねます

「DeepSeek V4-ProとClaude Opus 4.7を比較：SWE-bench、エージェント、API価格」の短い答えは何ですか?

Claude Opus 4.7は第三者比較でSWE bench Verified 87.6%、SWE bench Pro 64.3%。DeepSeek V4 Proは80.6%、55.4%で、実リポジトリ寄りの開発タスクはClaudeが優勢です [28]。

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

エージェント用途では、Claudeのtask budgetsはAnthropicが文書化済み。DeepSeekにも低コストなエージェント性能への期待はありますが、本番ワークロードでのA/Bテストが必要です [13][1]。

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか」と照合してください。

関連ページを開く

研究を続けてください

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか

Claude Security公開ベータ版とは：AnthropicがAIで企業コードの脆弱性を探す仕組み

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか

For the part of factors contributing to the issue, please use Logical synthesis of factors And using leadership frameworks, and gap analysis

香港RCHEで「住み慣れた場所での看取り」が進みにくい理由

香港RCHEの看取りを阻む要因：リーダーシップとギャップ分析

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り

Xiaomi Q5はMIX 5なのか？最新リークはXiaomi 18シリーズを示唆

研究に関する会話

あなた2026年4月26日

リサーチクエスチョン

So sánh một cách toàn diện benchmarks của DeepSeek V4 vs Claude Opus 4.7

Studio Global AI2026年4月26日33 ソース

引用された回答

Claude Opus 4.7 hiện có lợi thế rõ hơn ở benchmark “software engineering thật” và tác vụ agent dài hơi; DeepSeek V4 mạnh hơn về chi phí/hiệu năng, competitive coding và khả năng mở/triển khai linh hoạt. Tuy nhiên, so sánh này chưa thể coi là tuyệt đối vì DeepSeek V4 mới ở dạng preview, nhiều số benchmark đến từ leaderboard/bên thứ ba chứ chưa có bộ đánh giá độc lập, đồng nhất và ổn định.

Tóm tắt nhanh

Hạng mục	DeepSeek V4 / V4-Pro	Claude Opus 4.7	Nhận định
Trạng thái phát hành	DeepSeek công bố V4 Preview và cho biết `deepseek-chat`/`deepseek-reasoner` hiện đang route sang `deepseek-v4-flash` trước khi bị retire sau 24/7/2026 ^[11]	Anthropic có tài liệu chính thức cho Claude Opus 4.7 và giới thiệu “task budgets” cho vòng lặp agentic ^[1]	Claude có tài liệu sản phẩm trưởng thành hơn; DeepSeek V4 còn mang tính preview
Software engineering	Theo một so sánh bên thứ ba, V4-Pro đạt 80.6% SWE-bench Verified và 55.4% SWE-bench Pro ^[6]	Cùng nguồn cho Claude Opus 4.7 là 87.6% SWE-bench Verified và 64.3% SWE-bench Pro ^[6]	Opus 4.7 thắng rõ ở sửa lỗi / PR / repo thật
Competitive coding	V4-Pro được báo cáo dẫn trên LiveCodeBench 93.5 và Codeforces 3206 ^[6]	Claude Opus 4.7 được báo cáo LiveCodeBench 88.8 trong cùng so sánh ^[6]	DeepSeek V4 mạnh hơn ở coding kiểu contest
Benchmark coding nội bộ	Chưa thấy số chính thức đủ rộng từ DeepSeek trong kết quả tìm kiếm; nguồn chính thức chỉ xác nhận preview/routing ^[11]	Anthropic nói Opus 4.7 cải thiện 13% so với Opus 4.6 trên benchmark coding 93 tác vụ của họ ^[14]	Opus có claim chính thức mạnh hơn, nhưng là benchmark nội bộ
Lập luận khoa học / GPQA	Một nguồn bên thứ ba ghi V4-Pro đạt GPQA Diamond 90.1% ^[12]	Chưa có số GPQA chính thức rõ trong kết quả tìm kiếm này cho Opus 4.7	Insufficient evidence để kết luận chắc bên nào thắng GPQA
Agentic / tool use	DeepSeek V4 được mô tả là có “excellent agent capability at significantly lower cost” theo phân tích được CNBC trích dẫn ^[2]	Opus 4.7 có “task budgets” để quản lý vòng lặp agent gồm thinking, tool calls, tool results và final output ^[1]	Claude có thiết kế sản phẩm agent rõ hơn; DeepSeek có lợi thế chi phí nếu claim đúng
Context	OpenRouter mô tả DeepSeek V4 Pro hỗ trợ context 1M token và là MoE 1.6T tham số, 49B active ^[14]	Một nguồn so sánh cho biết Claude Opus 4.7 có context 1M token ^[10]	Tương đương về context theo nguồn bên thứ ba, nhưng cần kiểm chứng bằng docs pricing/model card chính thức
Giá	Một nguồn so sánh nêu Claude Opus 4.7 giá $5 / 1M input token và $25 / 1M output token ^[10]	DeepSeek V4 được nhiều nguồn mô tả là cạnh tranh nhờ chi phí thấp hơn, nhưng số giá cụ thể đáng tin cậy chưa đủ trong kết quả này ^[2]	DeepSeek nhiều khả năng rẻ hơn; chưa đủ số chính thức để tính TCO chuẩn
Leaderboard tổng hợp	BenchLM ghi DeepSeek V4 Pro High có overall score 83 và xếp #15 provisional ^[13]	BenchLM ghi Claude Opus 4.7 overall score 97/100, xếp #2 provisional và #2 verified ^[5]	Theo leaderboard này, Opus 4.7 vượt xa tổng thể
Model openness	OpenRouter mô tả DeepSeek V4 Pro là MoE quy mô lớn của DeepSeek ^[14]	Artificial Analysis ghi Anthropic không công bố kích thước/parameter count của Claude Opus 4.7 ^[3]	DeepSeek minh bạch kiến trúc hơn theo nguồn bên thứ ba; Claude đóng hơn

Kết luận theo từng nhu cầu

Chọn Claude Opus 4.7 nếu ưu tiên:
- Sửa code trong repo thật, benchmark SWE-bench Verified / Pro, long-horizon software engineering ^[6].
- Agent workflow có kiểm soát ngân sách tác vụ, tool calls và hoàn tất task ổn định ^[1].
- Độ tin cậy sản phẩm, tài liệu chính thức và tích hợp enterprise.
Chọn DeepSeek V4 nếu ưu tiên:
- Competitive programming, LiveCodeBench, Codeforces và bài toán coding thuật toán ^[6].
- Chi phí thấp hơn cho workload lớn, đặc biệt nếu cần chạy nhiều token hoặc nhiều agent song song ^[2].
- Triển khai qua hệ sinh thái mở/đa provider và muốn mô hình có thông tin kiến trúc rõ hơn ^[14].
Điểm chưa chắc chắn:
- Insufficient evidence để kết luận toàn diện về GPQA, multimodal, safety, hallucination, multilingual tiếng Việt và long-context retrieval giữa hai model vì các nguồn hiện có không dùng cùng harness đánh giá.
- Các con số từ BenchLM, OpenRouter, Vellum, o-mega và blog so sánh là nguồn bên thứ ba; đáng dùng để tham khảo xu hướng, nhưng không mạnh bằng benchmark độc lập có mã nguồn, prompt set và cấu hình inference công khai.

Đánh giá cuối

Nếu lấy benchmark kỹ thuật phần mềm làm trọng tâm, Claude Opus 4.7 đang nhỉnh hơn DeepSeek V4. Nếu lấy hiệu năng/giá, competitive coding và khả năng scale chi phí làm trọng tâm, DeepSeek V4 là lựa chọn hấp dẫn hơn. Với production, nên A/B test trên bộ tác vụ thật của bạn thay vì chỉ dựa vào benchmark công khai.

情報源

[1] China's DeepSeek releases preview of long-awaited V4 model as AI ...cnbc.com
According to Counterpoint’s principal AI analyst, Wei Sun, V4′s benchmark profile suggests it could offer “excellent agent capability at significantly lower cost.” Opt-Out IconYour Privacy Choices CA Notice Terms of Service © 2026 Versant Media, LLC. All Ri...
[3] DeepSeek V4 Preview Releaseapi-docs.deepseek.com
⚠️ Note: deepseek-chat & deepseek-reasoner will be fully retired and inaccessible after Jul 24th, 2026, 15:59 (UTC Time). (Currently routing to deepseek-v4-flash non-thinking/thinking). Image 7 🔹 Amid recent attention, a quick reminder: please rely only on...
[5] DeepSeek V4 Pro (High) Benchmarks 2026 - BenchLM.aibenchlm.ai
Tools Tools Alternative FinderLLM Selector QuizCost CalculatorSelf-host vs APIToken CounterData & Embed BlogAdvertise Search⌘K Search BenchLM Search models, benchmarks, rankings, comparisons, providers, and blog posts. @glevd DeepSeek V4 Pro (High) DeepSeek...
[13] What's new in Claude Opus 4.7platform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[14] Claude Opus 4.7 (max) - Intelligence, Performance & Price Analysisartificialanalysis.ai
Claude Opus 4.7 (Adaptive Reasoning, Max Effort) is a proprietary model and Anthropic has not disclosed the model size or parameter count. How does Claude Opus 4.7 (Adaptive Reasoning, Max Effort) perform on benchmarks? Claude Opus 4.7 (Adaptive Reasoning,...
[16] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...
[19] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 6: logo On our 93-task coding benchmark, Claude Opus 4.7 lifted resolution by 13% over Opus 4.6, including four tasks neither Opus 4.6 nor Sonnet 4.6 could solve. Combined with faster median latency and strict instruction following, it’s particularly...
[21] Claude Opus 4.7 - Anthropicanthropic.com
Skip to main contentSkip to footer []( Research Economic Futures Commitments Learn News Try Claude Claude Opus 4.7 Image 1: Claude Opus 4.7 Image 2: Claude Opus 4.7 Hybrid reasoning model that pushes the frontier for coding and AI agents, featuring a 1M con...
[26] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminitech.yahoo.com
DeepSeek V4 is here: How it compares to ChatGPT, Claude, Gemini GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context window) Claude Opus 4.7costs at $5 per 1 million input tokens and $25 per 1 million output...
[27] DeepSeek V4 Pro vs Claude Opus 4.7 - AI Model Comparison | OpenRouteropenrouter.ai
deepseek Context Length 1.05M Reasoning Providers 2 DeepSeek V4 Pro is a large-scale Mixture-of-Experts model from DeepSeek with 1.6T total parameters and 49B activated parameters, supporting a 1M-token context window. It is designed for advanced reasoning,...
[28] DeepSeek V4 vs Claude Opus 4.7 vs GPT-5.5: Benchmarks & Pricinglushbinary.com
Opus 4.7 leads on SWE-bench Pro (64.3% vs 55.4%) and SWE-bench Verified (87.6% vs 80.6%). V4-Pro leads on LiveCodeBench (93.5 vs 88.8) and Codeforces (3206). Opus is stronger for real-world software engineering; V4-Pro excels at competitive programming. Is...
[32] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...

トレンドを発見する

答え公開済み2026年4月28日Last edited 2026年5月6日12 ソース

DeepSeek V4-ProとClaude Opus 4.7を比較：SWE-bench、エージェント、API価格

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

17K0

用途別の早見表

見たい観点	優勢に見えるモデル	理由
実リポジトリの修正、PR用パッチ、リファクタ	Claude Opus 4.7	第三者比較でClaudeはSWE-bench Verified 87.6%、SWE-bench Pro 64.3%。DeepSeek V4-Proは80.6%、55.4% ^[28]。
競技プログラミング、独立したアルゴリズム問題	DeepSeek V4-Pro	同じ比較でDeepSeek V4-ProはLiveCodeBench 93.5、Claude Opus 4.7は88.8。CodeforcesはDeepSeek V4-Proが3206とされる ^[28]。
エージェント運用、tool use	Claudeは制御方法が明確	Anthropicは `task budgets` を文書化しており、thinking、tool calls、tool results、final outputを含む1回のagentic loopに目標トークン予算を設定できる ^[13]。
コスト重視のAPI利用	DeepSeek V4-Pro	DataCampの表ではDeepSeek V4-Proが100万入力トークンあたり$1.74、100万出力トークンあたり$3.48。Claude Opus 4.7は$5／$25 ^[32]。
コンテキスト長	ほぼ同じ帯域	AnthropicはClaude Opus 4.7を1Mトークンのcontext window付きと説明し、OpenRouterはDeepSeek V4 Proを1.05Mトークンと記載している ^[21]^[27]。
総合リーダーボード	Claude Opus 4.7	BenchLMではClaude Opus 4.7がoverall score 97/100、DeepSeek V4 Pro Highが83 ^[16]^[5]。

前提：ここではDeepSeek V4-Proの数字として読む

実務コーディング：SWE-benchではClaudeが一歩先

競技プログラミング：DeepSeek V4-Proが目立つ

エージェントとtool use：Claudeは仕様が読みやすく、DeepSeekはコスト面が魅力

Claude Opus 4.7の分かりやすい強みは、


task budgets

ただし、低コストでエージェント性能が期待できるという分析と、


task budgets

API価格：DeepSeekの安さは無視しにくい

コンテキストとアーキテクチャ：どちらも1M前後、公開情報はDeepSeekが具体的

総合リーダーボード：Claudeが上。ただし過信は禁物

Claude Opus 4.7を選びやすいケース

Claude Opus 4.7を優先しやすいのは、次のような場合です。

実リポジトリのソフトウェアエンジニアリング：SWE-bench VerifiedとSWE-bench Proの数字はClaude Opus 4.7が上です ^[28]。
エージェント制御を重視する：
```
task budgets
```
により、thinking、tool calls、tool results、final outputを含む1回のagentic loopに予算を置けます ^[13]。
公式ドキュメントの明確さを重視する：AnthropicはOpus 4.7をコーディング、AIエージェント、1Mトークンcontext window向けに位置づけています ^[21]。
総合ランキングを重視する：BenchLMではClaude Opus 4.7がDeepSeek V4 Pro Highより高いoverall scoreです ^[16]^[5]。

DeepSeek V4-Proを選びやすいケース

DeepSeek V4-Proを優先しやすいのは、次のような場合です。

競技プログラミングやアルゴリズム問題：LiveCodeBenchとCodeforcesの数字ではDeepSeek V4-Proが目立ちます ^[28]。
トークン単価を最優先する：DataCampの価格表では、DeepSeek V4-ProはClaude Opus 4.7より入力・出力ともに安価です ^[32]。
大量リクエストや長い出力を扱う：品質が自社タスクで十分なら、出力トークン単価の差はスケール時に効きます ^[32]。
アーキテクチャ情報を見たい：OpenRouterはDeepSeek V4 Proについて、context length、MoE、総パラメータ、activated parametersを記載しています ^[27]。

まだ断定しないほうがよいこと

本番投入前は、自社タスクでA/Bテストする

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

Claude Opus 4.7は第三者比較でSWE bench Verified 87.6%、SWE bench Pro 64.3%。DeepSeek V4 Proは80.6%、55.4%で、実リポジトリ寄りの開発タスクはClaudeが優勢です [28]。
DeepSeek V4 ProはLiveCodeBench 93.5（Claude Opus 4.7は88.8）とされ、DataCampのAPI価格でも100万入力／出力トークンあたり$1.74／$3.48と、Claudeの$5／$25を大きく下回ります [28][32]。
エージェント用途では、Claudeのtask budgetsはAnthropicが文書化済み。DeepSeekにも低コストなエージェント性能への期待はありますが、本番ワークロードでのA/Bテストが必要です [13][1]。

人々も尋ねます

「DeepSeek V4-ProとClaude Opus 4.7を比較：SWE-bench、エージェント、API価格」の短い答えは何ですか?

Claude Opus 4.7は第三者比較でSWE bench Verified 87.6%、SWE bench Pro 64.3%。DeepSeek V4 Proは80.6%、55.4%で、実リポジトリ寄りの開発タスクはClaudeが優勢です [28]。

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか」と照合してください。

関連ページを開く

研究を続けてください

Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか

Claude Security公開ベータ版とは：AnthropicがAIで企業コードの脆弱性を探す仕組み

Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか

香港RCHEで「住み慣れた場所での看取り」が進みにくい理由

香港RCHEの看取りを阻む要因：リーダーシップとギャップ分析

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り

Xiaomi Q5はMIX 5なのか？最新リークはXiaomi 18シリーズを示唆

研究に関する会話

あなた2026年4月26日

リサーチクエスチョン

So sánh một cách toàn diện benchmarks của DeepSeek V4 vs Claude Opus 4.7

Studio Global AI2026年4月26日33 ソース

引用された回答

Tóm tắt nhanh

Hạng mục	DeepSeek V4 / V4-Pro	Claude Opus 4.7	Nhận định
Trạng thái phát hành	DeepSeek công bố V4 Preview và cho biết `deepseek-chat`/`deepseek-reasoner` hiện đang route sang `deepseek-v4-flash` trước khi bị retire sau 24/7/2026 ^[11]	Anthropic có tài liệu chính thức cho Claude Opus 4.7 và giới thiệu “task budgets” cho vòng lặp agentic ^[1]	Claude có tài liệu sản phẩm trưởng thành hơn; DeepSeek V4 còn mang tính preview
Software engineering	Theo một so sánh bên thứ ba, V4-Pro đạt 80.6% SWE-bench Verified và 55.4% SWE-bench Pro ^[6]	Cùng nguồn cho Claude Opus 4.7 là 87.6% SWE-bench Verified và 64.3% SWE-bench Pro ^[6]	Opus 4.7 thắng rõ ở sửa lỗi / PR / repo thật
Competitive coding	V4-Pro được báo cáo dẫn trên LiveCodeBench 93.5 và Codeforces 3206 ^[6]	Claude Opus 4.7 được báo cáo LiveCodeBench 88.8 trong cùng so sánh ^[6]	DeepSeek V4 mạnh hơn ở coding kiểu contest
Benchmark coding nội bộ	Chưa thấy số chính thức đủ rộng từ DeepSeek trong kết quả tìm kiếm; nguồn chính thức chỉ xác nhận preview/routing ^[11]	Anthropic nói Opus 4.7 cải thiện 13% so với Opus 4.6 trên benchmark coding 93 tác vụ của họ ^[14]	Opus có claim chính thức mạnh hơn, nhưng là benchmark nội bộ
Lập luận khoa học / GPQA	Một nguồn bên thứ ba ghi V4-Pro đạt GPQA Diamond 90.1% ^[12]	Chưa có số GPQA chính thức rõ trong kết quả tìm kiếm này cho Opus 4.7	Insufficient evidence để kết luận chắc bên nào thắng GPQA
Agentic / tool use	DeepSeek V4 được mô tả là có “excellent agent capability at significantly lower cost” theo phân tích được CNBC trích dẫn ^[2]	Opus 4.7 có “task budgets” để quản lý vòng lặp agent gồm thinking, tool calls, tool results và final output ^[1]	Claude có thiết kế sản phẩm agent rõ hơn; DeepSeek có lợi thế chi phí nếu claim đúng
Context	OpenRouter mô tả DeepSeek V4 Pro hỗ trợ context 1M token và là MoE 1.6T tham số, 49B active ^[14]	Một nguồn so sánh cho biết Claude Opus 4.7 có context 1M token ^[10]	Tương đương về context theo nguồn bên thứ ba, nhưng cần kiểm chứng bằng docs pricing/model card chính thức
Giá	Một nguồn so sánh nêu Claude Opus 4.7 giá $5 / 1M input token và $25 / 1M output token ^[10]	DeepSeek V4 được nhiều nguồn mô tả là cạnh tranh nhờ chi phí thấp hơn, nhưng số giá cụ thể đáng tin cậy chưa đủ trong kết quả này ^[2]	DeepSeek nhiều khả năng rẻ hơn; chưa đủ số chính thức để tính TCO chuẩn
Leaderboard tổng hợp	BenchLM ghi DeepSeek V4 Pro High có overall score 83 và xếp #15 provisional ^[13]	BenchLM ghi Claude Opus 4.7 overall score 97/100, xếp #2 provisional và #2 verified ^[5]	Theo leaderboard này, Opus 4.7 vượt xa tổng thể
Model openness	OpenRouter mô tả DeepSeek V4 Pro là MoE quy mô lớn của DeepSeek ^[14]	Artificial Analysis ghi Anthropic không công bố kích thước/parameter count của Claude Opus 4.7 ^[3]	DeepSeek minh bạch kiến trúc hơn theo nguồn bên thứ ba; Claude đóng hơn

Kết luận theo từng nhu cầu

Chọn Claude Opus 4.7 nếu ưu tiên:
- Sửa code trong repo thật, benchmark SWE-bench Verified / Pro, long-horizon software engineering ^[6].
- Agent workflow có kiểm soát ngân sách tác vụ, tool calls và hoàn tất task ổn định ^[1].
- Độ tin cậy sản phẩm, tài liệu chính thức và tích hợp enterprise.
Chọn DeepSeek V4 nếu ưu tiên:
- Competitive programming, LiveCodeBench, Codeforces và bài toán coding thuật toán ^[6].
- Chi phí thấp hơn cho workload lớn, đặc biệt nếu cần chạy nhiều token hoặc nhiều agent song song ^[2].
- Triển khai qua hệ sinh thái mở/đa provider và muốn mô hình có thông tin kiến trúc rõ hơn ^[14].
Điểm chưa chắc chắn:
- Insufficient evidence để kết luận toàn diện về GPQA, multimodal, safety, hallucination, multilingual tiếng Việt và long-context retrieval giữa hai model vì các nguồn hiện có không dùng cùng harness đánh giá.
- Các con số từ BenchLM, OpenRouter, Vellum, o-mega và blog so sánh là nguồn bên thứ ba; đáng dùng để tham khảo xu hướng, nhưng không mạnh bằng benchmark độc lập có mã nguồn, prompt set và cấu hình inference công khai.

Đánh giá cuối

情報源

[1] China's DeepSeek releases preview of long-awaited V4 model as AI ...cnbc.com
According to Counterpoint’s principal AI analyst, Wei Sun, V4′s benchmark profile suggests it could offer “excellent agent capability at significantly lower cost.” Opt-Out IconYour Privacy Choices CA Notice Terms of Service © 2026 Versant Media, LLC. All Ri...
[3] DeepSeek V4 Preview Releaseapi-docs.deepseek.com
⚠️ Note: deepseek-chat & deepseek-reasoner will be fully retired and inaccessible after Jul 24th, 2026, 15:59 (UTC Time). (Currently routing to deepseek-v4-flash non-thinking/thinking). Image 7 🔹 Amid recent attention, a quick reminder: please rely only on...
[5] DeepSeek V4 Pro (High) Benchmarks 2026 - BenchLM.aibenchlm.ai
Tools Tools Alternative FinderLLM Selector QuizCost CalculatorSelf-host vs APIToken CounterData & Embed BlogAdvertise Search⌘K Search BenchLM Search models, benchmarks, rankings, comparisons, providers, and blog posts. @glevd DeepSeek V4 Pro (High) DeepSeek...
[13] What's new in Claude Opus 4.7platform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[14] Claude Opus 4.7 (max) - Intelligence, Performance & Price Analysisartificialanalysis.ai
Claude Opus 4.7 (Adaptive Reasoning, Max Effort) is a proprietary model and Anthropic has not disclosed the model size or parameter count. How does Claude Opus 4.7 (Adaptive Reasoning, Max Effort) perform on benchmarks? Claude Opus 4.7 (Adaptive Reasoning,...
[16] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...
[19] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 6: logo On our 93-task coding benchmark, Claude Opus 4.7 lifted resolution by 13% over Opus 4.6, including four tasks neither Opus 4.6 nor Sonnet 4.6 could solve. Combined with faster median latency and strict instruction following, it’s particularly...
[21] Claude Opus 4.7 - Anthropicanthropic.com
Skip to main contentSkip to footer []( Research Economic Futures Commitments Learn News Try Claude Claude Opus 4.7 Image 1: Claude Opus 4.7 Image 2: Claude Opus 4.7 Hybrid reasoning model that pushes the frontier for coding and AI agents, featuring a 1M con...
[26] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminitech.yahoo.com
DeepSeek V4 is here: How it compares to ChatGPT, Claude, Gemini GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context window) Claude Opus 4.7costs at $5 per 1 million input tokens and $25 per 1 million output...
[27] DeepSeek V4 Pro vs Claude Opus 4.7 - AI Model Comparison | OpenRouteropenrouter.ai
deepseek Context Length 1.05M Reasoning Providers 2 DeepSeek V4 Pro is a large-scale Mixture-of-Experts model from DeepSeek with 1.6T total parameters and 49B activated parameters, supporting a 1M-token context window. It is designed for advanced reasoning,...
[28] DeepSeek V4 vs Claude Opus 4.7 vs GPT-5.5: Benchmarks & Pricinglushbinary.com
Opus 4.7 leads on SWE-bench Pro (64.3% vs 55.4%) and SWE-bench Verified (87.6% vs 80.6%). V4-Pro leads on LiveCodeBench (93.5 vs 88.8) and Codeforces (3206). Opus is stronger for real-world software engineering; V4-Pro excels at competitive programming. Is...
[32] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...

トレンドを発見する

答え公開済み2026年4月28日Last edited 2026年5月6日12 ソース

DeepSeek V4-ProとClaude Opus 4.7を比較：SWE-bench、エージェント、API価格

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

17K0

用途別の早見表

見たい観点	優勢に見えるモデル	理由
実リポジトリの修正、PR用パッチ、リファクタ	Claude Opus 4.7	第三者比較でClaudeはSWE-bench Verified 87.6%、SWE-bench Pro 64.3%。DeepSeek V4-Proは80.6%、55.4% ^[28]。
競技プログラミング、独立したアルゴリズム問題	DeepSeek V4-Pro	同じ比較でDeepSeek V4-ProはLiveCodeBench 93.5、Claude Opus 4.7は88.8。CodeforcesはDeepSeek V4-Proが3206とされる ^[28]。
エージェント運用、tool use	Claudeは制御方法が明確	Anthropicは `task budgets` を文書化しており、thinking、tool calls、tool results、final outputを含む1回のagentic loopに目標トークン予算を設定できる ^[13]。
コスト重視のAPI利用	DeepSeek V4-Pro	DataCampの表ではDeepSeek V4-Proが100万入力トークンあたり$1.74、100万出力トークンあたり$3.48。Claude Opus 4.7は$5／$25 ^[32]。
コンテキスト長	ほぼ同じ帯域	AnthropicはClaude Opus 4.7を1Mトークンのcontext window付きと説明し、OpenRouterはDeepSeek V4 Proを1.05Mトークンと記載している ^[21]^[27]。
総合リーダーボード	Claude Opus 4.7	BenchLMではClaude Opus 4.7がoverall score 97/100、DeepSeek V4 Pro Highが83 ^[16]^[5]。

前提：ここではDeepSeek V4-Proの数字として読む

実務コーディング：SWE-benchではClaudeが一歩先

競技プログラミング：DeepSeek V4-Proが目立つ

エージェントとtool use：Claudeは仕様が読みやすく、DeepSeekはコスト面が魅力

Claude Opus 4.7の分かりやすい強みは、


task budgets

ただし、低コストでエージェント性能が期待できるという分析と、


task budgets

API価格：DeepSeekの安さは無視しにくい

コンテキストとアーキテクチャ：どちらも1M前後、公開情報はDeepSeekが具体的

総合リーダーボード：Claudeが上。ただし過信は禁物

Claude Opus 4.7を選びやすいケース

Claude Opus 4.7を優先しやすいのは、次のような場合です。

実リポジトリのソフトウェアエンジニアリング：SWE-bench VerifiedとSWE-bench Proの数字はClaude Opus 4.7が上です ^[28]。
エージェント制御を重視する：
```
task budgets
```
により、thinking、tool calls、tool results、final outputを含む1回のagentic loopに予算を置けます ^[13]。
公式ドキュメントの明確さを重視する：AnthropicはOpus 4.7をコーディング、AIエージェント、1Mトークンcontext window向けに位置づけています ^[21]。
総合ランキングを重視する：BenchLMではClaude Opus 4.7がDeepSeek V4 Pro Highより高いoverall scoreです ^[16]^[5]。

DeepSeek V4-Proを選びやすいケース

DeepSeek V4-Proを優先しやすいのは、次のような場合です。

競技プログラミングやアルゴリズム問題：LiveCodeBenchとCodeforcesの数字ではDeepSeek V4-Proが目立ちます ^[28]。
トークン単価を最優先する：DataCampの価格表では、DeepSeek V4-ProはClaude Opus 4.7より入力・出力ともに安価です ^[32]。
大量リクエストや長い出力を扱う：品質が自社タスクで十分なら、出力トークン単価の差はスケール時に効きます ^[32]。
アーキテクチャ情報を見たい：OpenRouterはDeepSeek V4 Proについて、context length、MoE、総パラメータ、activated parametersを記載しています ^[27]。

まだ断定しないほうがよいこと

本番投入前は、自社タスクでA/Bテストする

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

Claude Opus 4.7は第三者比較でSWE bench Verified 87.6%、SWE bench Pro 64.3%。DeepSeek V4 Proは80.6%、55.4%で、実リポジトリ寄りの開発タスクはClaudeが優勢です [28]。
DeepSeek V4 ProはLiveCodeBench 93.5（Claude Opus 4.7は88.8）とされ、DataCampのAPI価格でも100万入力／出力トークンあたり$1.74／$3.48と、Claudeの$5／$25を大きく下回ります [28][32]。
エージェント用途では、Claudeのtask budgetsはAnthropicが文書化済み。DeepSeekにも低コストなエージェント性能への期待はありますが、本番ワークロードでのA/Bテストが必要です [13][1]。

人々も尋ねます

「DeepSeek V4-ProとClaude Opus 4.7を比較：SWE-bench、エージェント、API価格」の短い答えは何ですか?

Claude Opus 4.7は第三者比較でSWE bench Verified 87.6%、SWE bench Pro 64.3%。DeepSeek V4 Proは80.6%、55.4%で、実リポジトリ寄りの開発タスクはClaudeが優勢です [28]。

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた2026年4月26日

リサーチクエスチョン

So sánh một cách toàn diện benchmarks của DeepSeek V4 vs Claude Opus 4.7

Studio Global AI2026年4月26日33 ソース

引用された回答

Tóm tắt nhanh

Hạng mục	DeepSeek V4 / V4-Pro	Claude Opus 4.7	Nhận định
Trạng thái phát hành	DeepSeek công bố V4 Preview và cho biết `deepseek-chat`/`deepseek-reasoner` hiện đang route sang `deepseek-v4-flash` trước khi bị retire sau 24/7/2026 ^[11]	Anthropic có tài liệu chính thức cho Claude Opus 4.7 và giới thiệu “task budgets” cho vòng lặp agentic ^[1]	Claude có tài liệu sản phẩm trưởng thành hơn; DeepSeek V4 còn mang tính preview
Software engineering	Theo một so sánh bên thứ ba, V4-Pro đạt 80.6% SWE-bench Verified và 55.4% SWE-bench Pro ^[6]	Cùng nguồn cho Claude Opus 4.7 là 87.6% SWE-bench Verified và 64.3% SWE-bench Pro ^[6]	Opus 4.7 thắng rõ ở sửa lỗi / PR / repo thật
Competitive coding	V4-Pro được báo cáo dẫn trên LiveCodeBench 93.5 và Codeforces 3206 ^[6]	Claude Opus 4.7 được báo cáo LiveCodeBench 88.8 trong cùng so sánh ^[6]	DeepSeek V4 mạnh hơn ở coding kiểu contest
Benchmark coding nội bộ	Chưa thấy số chính thức đủ rộng từ DeepSeek trong kết quả tìm kiếm; nguồn chính thức chỉ xác nhận preview/routing ^[11]	Anthropic nói Opus 4.7 cải thiện 13% so với Opus 4.6 trên benchmark coding 93 tác vụ của họ ^[14]	Opus có claim chính thức mạnh hơn, nhưng là benchmark nội bộ
Lập luận khoa học / GPQA	Một nguồn bên thứ ba ghi V4-Pro đạt GPQA Diamond 90.1% ^[12]	Chưa có số GPQA chính thức rõ trong kết quả tìm kiếm này cho Opus 4.7	Insufficient evidence để kết luận chắc bên nào thắng GPQA
Agentic / tool use	DeepSeek V4 được mô tả là có “excellent agent capability at significantly lower cost” theo phân tích được CNBC trích dẫn ^[2]	Opus 4.7 có “task budgets” để quản lý vòng lặp agent gồm thinking, tool calls, tool results và final output ^[1]	Claude có thiết kế sản phẩm agent rõ hơn; DeepSeek có lợi thế chi phí nếu claim đúng
Context	OpenRouter mô tả DeepSeek V4 Pro hỗ trợ context 1M token và là MoE 1.6T tham số, 49B active ^[14]	Một nguồn so sánh cho biết Claude Opus 4.7 có context 1M token ^[10]	Tương đương về context theo nguồn bên thứ ba, nhưng cần kiểm chứng bằng docs pricing/model card chính thức
Giá	Một nguồn so sánh nêu Claude Opus 4.7 giá $5 / 1M input token và $25 / 1M output token ^[10]	DeepSeek V4 được nhiều nguồn mô tả là cạnh tranh nhờ chi phí thấp hơn, nhưng số giá cụ thể đáng tin cậy chưa đủ trong kết quả này ^[2]	DeepSeek nhiều khả năng rẻ hơn; chưa đủ số chính thức để tính TCO chuẩn
Leaderboard tổng hợp	BenchLM ghi DeepSeek V4 Pro High có overall score 83 và xếp #15 provisional ^[13]	BenchLM ghi Claude Opus 4.7 overall score 97/100, xếp #2 provisional và #2 verified ^[5]	Theo leaderboard này, Opus 4.7 vượt xa tổng thể
Model openness	OpenRouter mô tả DeepSeek V4 Pro là MoE quy mô lớn của DeepSeek ^[14]	Artificial Analysis ghi Anthropic không công bố kích thước/parameter count của Claude Opus 4.7 ^[3]	DeepSeek minh bạch kiến trúc hơn theo nguồn bên thứ ba; Claude đóng hơn

Kết luận theo từng nhu cầu

Chọn Claude Opus 4.7 nếu ưu tiên:
- Sửa code trong repo thật, benchmark SWE-bench Verified / Pro, long-horizon software engineering ^[6].
- Agent workflow có kiểm soát ngân sách tác vụ, tool calls và hoàn tất task ổn định ^[1].
- Độ tin cậy sản phẩm, tài liệu chính thức và tích hợp enterprise.
Chọn DeepSeek V4 nếu ưu tiên:
- Competitive programming, LiveCodeBench, Codeforces và bài toán coding thuật toán ^[6].
- Chi phí thấp hơn cho workload lớn, đặc biệt nếu cần chạy nhiều token hoặc nhiều agent song song ^[2].
- Triển khai qua hệ sinh thái mở/đa provider và muốn mô hình có thông tin kiến trúc rõ hơn ^[14].
Điểm chưa chắc chắn:
- Insufficient evidence để kết luận toàn diện về GPQA, multimodal, safety, hallucination, multilingual tiếng Việt và long-context retrieval giữa hai model vì các nguồn hiện có không dùng cùng harness đánh giá.
- Các con số từ BenchLM, OpenRouter, Vellum, o-mega và blog so sánh là nguồn bên thứ ba; đáng dùng để tham khảo xu hướng, nhưng không mạnh bằng benchmark độc lập có mã nguồn, prompt set và cấu hình inference công khai.

Đánh giá cuối

情報源

[1] China's DeepSeek releases preview of long-awaited V4 model as AI ...cnbc.com
According to Counterpoint’s principal AI analyst, Wei Sun, V4′s benchmark profile suggests it could offer “excellent agent capability at significantly lower cost.” Opt-Out IconYour Privacy Choices CA Notice Terms of Service © 2026 Versant Media, LLC. All Ri...
[3] DeepSeek V4 Preview Releaseapi-docs.deepseek.com
⚠️ Note: deepseek-chat & deepseek-reasoner will be fully retired and inaccessible after Jul 24th, 2026, 15:59 (UTC Time). (Currently routing to deepseek-v4-flash non-thinking/thinking). Image 7 🔹 Amid recent attention, a quick reminder: please rely only on...
[5] DeepSeek V4 Pro (High) Benchmarks 2026 - BenchLM.aibenchlm.ai
Tools Tools Alternative FinderLLM Selector QuizCost CalculatorSelf-host vs APIToken CounterData & Embed BlogAdvertise Search⌘K Search BenchLM Search models, benchmarks, rankings, comparisons, providers, and blog posts. @glevd DeepSeek V4 Pro (High) DeepSeek...
[13] What's new in Claude Opus 4.7platform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[14] Claude Opus 4.7 (max) - Intelligence, Performance & Price Analysisartificialanalysis.ai
Claude Opus 4.7 (Adaptive Reasoning, Max Effort) is a proprietary model and Anthropic has not disclosed the model size or parameter count. How does Claude Opus 4.7 (Adaptive Reasoning, Max Effort) perform on benchmarks? Claude Opus 4.7 (Adaptive Reasoning,...
[16] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...
[19] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 6: logo On our 93-task coding benchmark, Claude Opus 4.7 lifted resolution by 13% over Opus 4.6, including four tasks neither Opus 4.6 nor Sonnet 4.6 could solve. Combined with faster median latency and strict instruction following, it’s particularly...
[21] Claude Opus 4.7 - Anthropicanthropic.com
Skip to main contentSkip to footer []( Research Economic Futures Commitments Learn News Try Claude Claude Opus 4.7 Image 1: Claude Opus 4.7 Image 2: Claude Opus 4.7 Hybrid reasoning model that pushes the frontier for coding and AI agents, featuring a 1M con...
[26] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminitech.yahoo.com
DeepSeek V4 is here: How it compares to ChatGPT, Claude, Gemini GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context window) Claude Opus 4.7costs at $5 per 1 million input tokens and $25 per 1 million output...
[27] DeepSeek V4 Pro vs Claude Opus 4.7 - AI Model Comparison | OpenRouteropenrouter.ai
deepseek Context Length 1.05M Reasoning Providers 2 DeepSeek V4 Pro is a large-scale Mixture-of-Experts model from DeepSeek with 1.6T total parameters and 49B activated parameters, supporting a 1M-token context window. It is designed for advanced reasoning,...
[28] DeepSeek V4 vs Claude Opus 4.7 vs GPT-5.5: Benchmarks & Pricinglushbinary.com
Opus 4.7 leads on SWE-bench Pro (64.3% vs 55.4%) and SWE-bench Verified (87.6% vs 80.6%). V4-Pro leads on LiveCodeBench (93.5 vs 88.8) and Codeforces (3206). Opus is stronger for real-world software engineering; V4-Pro excels at competitive programming. Is...
[32] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...

用途別の早見表

前提：ここではDeepSeek V4-Proの数字として読む

実務コーディング：SWE-benchではClaudeが一歩先

競技プログラミング：DeepSeek V4-Proが目立つ

エージェントとtool use：Claudeは仕様が読みやすく、DeepSeekはコスト面が魅力

API価格：DeepSeekの安さは無視しにくい

コンテキストとアーキテクチャ：どちらも1M前後、公開情報はDeepSeekが具体的

総合リーダーボード：Claudeが上。ただし過信は禁物

Claude Opus 4.7を選びやすいケース

DeepSeek V4-Proを選びやすいケース

まだ断定しないほうがよいこと

本番投入前は、自社タスクでA/Bテストする

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「DeepSeek V4-ProとClaude Opus 4.7を比較：SWE-bench、エージェント、API価格」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか

Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか

香港RCHEで「住み慣れた場所での看取り」が進みにくい理由

Xiaomi Q5はMIX 5ではなさそう 最新情報はXiaomi 18シリーズ寄り

研究に関する会話

リサーチクエスチョン

引用された回答

Tóm tắt nhanh

Kết luận theo từng nhu cầu

Đánh giá cuối

情報源

用途別の早見表

前提：ここではDeepSeek V4-Proの数字として読む

実務コーディング：SWE-benchではClaudeが一歩先

競技プログラミング：DeepSeek V4-Proが目立つ

エージェントとtool use：Claudeは仕様が読みやすく、DeepSeekはコスト面が魅力

API価格：DeepSeekの安さは無視しにくい

コンテキストとアーキテクチャ：どちらも1M前後、公開情報はDeepSeekが具体的

総合リーダーボード：Claudeが上。ただし過信は禁物

Claude Opus 4.7を選びやすいケース

DeepSeek V4-Proを選びやすいケース

まだ断定しないほうがよいこと

本番投入前は、自社タスクでA/Bテストする

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「DeepSeek V4-ProとClaude Opus 4.7を比較：SWE-bench、エージェント、API価格」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか

Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか

香港RCHEで「住み慣れた場所での看取り」が進みにくい理由

Xiaomi Q5はMIX 5ではなさそう 最新情報はXiaomi 18シリーズ寄り

研究に関する会話

リサーチクエスチョン

引用された回答

Tóm tắt nhanh

Kết luận theo từng nhu cầu

Đánh giá cuối

情報源

用途別の早見表

前提：ここではDeepSeek V4-Proの数字として読む

実務コーディング：SWE-benchではClaudeが一歩先

競技プログラミング：DeepSeek V4-Proが目立つ

エージェントとtool use：Claudeは仕様が読みやすく、DeepSeekはコスト面が魅力

API価格：DeepSeekの安さは無視しにくい

コンテキストとアーキテクチャ：どちらも1M前後、公開情報はDeepSeekが具体的

総合リーダーボード：Claudeが上。ただし過信は禁物

Claude Opus 4.7を選びやすいケース

DeepSeek V4-Proを選びやすいケース

まだ断定しないほうがよいこと

本番投入前は、自社タスクでA/Bテストする

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「DeepSeek V4-ProとClaude Opus 4.7を比較：SWE-bench、エージェント、API価格」の短い答えは何ですか?

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り