| Anthropic đã tài liệu hóa task budgets cho một vòng agentic gồm thinking, tool calls, tool results và final output |
| Workload nhạy cảm chi phí | DeepSeek V4-Pro | DataCamp ghi DeepSeek V4-Pro ở mức $1,74/1M input token và $3,48/1M output token, thấp hơn Claude Opus 4.7 ở $5 và $25 |
| Context window | Gần tương đương theo nguồn hiện có | Anthropic mô tả Claude Opus 4.7 có context 1M token; OpenRouter mô tả DeepSeek V4 Pro có context 1,05M token |
| Leaderboard tổng hợp | Claude Opus 4.7 | BenchLM ghi Claude Opus 4.7 đạt overall score 97/100, trong khi DeepSeek V4 Pro High đạt 83 trên cùng hệ thống |
DeepSeek V4 không chỉ có một biến thể. Tài liệu DeepSeek nêu DeepSeek-V4-Pro và DeepSeek-V4-Flash, đồng thời ghi chú rằng deepseek-chat và deepseek-reasoner hiện đang route sang deepseek-v4-flash . Vì các bảng benchmark công khai trong bộ nguồn chủ yếu so sánh DeepSeek V4-Pro với Claude Opus 4.7, bài viết này dùng V4-Pro làm đại diện cho phần benchmark DeepSeek.
Điều đó có nghĩa là không nên lấy mọi con số của V4-Pro rồi áp dụng nguyên xi cho V4-Flash hoặc cho một endpoint được provider route theo cách khác. Với production, endpoint thực tế quan trọng không kém tên model trên bảng benchmark .
Nếu mục tiêu là sửa lỗi trong codebase thật, tạo patch có thể review, refactor hoặc xử lý issue có test suite, SWE-bench là nhóm số đáng chú ý nhất trong so sánh này. Một nguồn so sánh bên thứ ba ghi Claude Opus 4.7 đạt 87,6% SWE-bench Verified và 64,3% SWE-bench Pro, trong khi DeepSeek V4-Pro đạt 80,6% và 55,4% ở hai mục tương ứng .
Định vị chính thức của Anthropic cũng đi theo hướng này: trang Claude Opus 4.7 mô tả model là hybrid reasoning model cho coding và AI agents, với context window 1M token . Anthropic còn nói Opus 4.7 cải thiện 13% so với Opus 4.6 trên benchmark coding nội bộ gồm 93 tác vụ
. Tuy nhiên, vì đây là benchmark nội bộ của Anthropic, nên nên xem nó là tín hiệu sản phẩm, không phải bằng chứng độc lập để kết luận Claude luôn thắng DeepSeek trong mọi bài toán coding
.
Cách đọc thực tế: nếu KPI của bạn là pass test trong repo, giảm lỗi ở pull request, hoặc hoàn thành chuỗi tác vụ software engineering dài hơi, Claude Opus 4.7 hiện có cơ sở benchmark tốt hơn .
Bức tranh đảo chiều ở competitive programming. Cùng nguồn so sánh ghi DeepSeek V4-Pro đạt 93,5 trên LiveCodeBench, cao hơn 88,8 của Claude Opus 4.7; nguồn này cũng ghi V4-Pro đạt Codeforces 3206 .
Các benchmark như LiveCodeBench và Codeforces phù hợp hơn với bài toán thuật toán, coding challenge, sinh lời giải độc lập hoặc tutor lập trình. Nhưng chúng không thay thế hoàn toàn cho SWE-bench, vì SWE-bench gần hơn với môi trường repo thật, dependency thật và yêu cầu tạo patch có thể merge .
Cách đọc thực tế: nếu sản phẩm của bạn là hệ thống giải bài coding, trợ giảng thuật toán, tạo lời giải contest hoặc xử lý bài toán lập trình độc lập, DeepSeek V4-Pro nên nằm rất cao trong shortlist .
Claude Opus 4.7 có một điểm mạnh sản phẩm cụ thể: task budgets. Anthropic mô tả task budget là cách đặt ngân sách token mục tiêu cho một vòng agentic đầy đủ, bao gồm thinking, tool calls, tool results và final output; model thấy countdown và dùng nó để ưu tiên công việc khi ngân sách bị tiêu thụ .
DeepSeek V4 cũng có tín hiệu tích cực ở hướng agent, nhưng bằng chứng hiện thiên về nhận định phân tích và benchmark tổng hợp hơn là tài liệu sản phẩm chi tiết. CNBC dẫn phân tích của Counterpoint rằng profile benchmark của V4 gợi ý model có thể đem lại “excellent agent capability at significantly lower cost” . Đây là một luận điểm đáng chú ý, đặc biệt với hệ thống chạy nhiều agent song song, nhưng không tương đương với việc đã có cùng mức tài liệu hóa về cơ chế điều khiển agent như task budgets của Claude
.
Cách đọc thực tế: nếu bạn cần kiểm soát vòng tool-call, ngân sách token và cách agent kết thúc task, Claude Opus 4.7 có nền tảng tài liệu rõ ràng hơn . Nếu chi phí token là nút thắt lớn nhất, DeepSeek V4-Pro đáng được A/B test nghiêm túc trên task agent thật
.
Chi phí là nơi DeepSeek V4-Pro có lợi thế rõ nhất. DataCamp ghi giá DeepSeek V4-Pro là $1,74 cho 1M input token và $3,48 cho 1M output token, trong khi Claude Opus 4.7 là $5 cho 1M input token và $25 cho 1M output token . Yahoo/TechCrunch cũng ghi Claude Opus 4.7 ở mức $5/1M input token và $25/1M output token
.
Nếu lấy các số DataCamp làm phép tính tham khảo, Claude Opus 4.7 đắt hơn khoảng 2,9 lần ở input và khoảng 7,2 lần ở output so với DeepSeek V4-Pro . Chênh lệch này đặc biệt quan trọng với batch coding, workflow sinh nhiều output token hoặc hệ thống agent chạy nhiều bước.
Dù vậy, tổng chi phí production không chỉ là giá niêm yết mỗi token. Khi so sánh thật, nên tính thêm cache, batch pricing, latency, retry rate, giới hạn context, chất lượng output và số lần phải gọi lại model trước khi một task đạt chuẩn.
Về context, hai model nằm gần cùng một vùng theo các nguồn hiện có. Anthropic mô tả Claude Opus 4.7 có context window 1M token . OpenRouter mô tả DeepSeek V4 Pro có context length 1,05M token và là Mixture-of-Experts model với 1,6T total parameters cùng 49B activated parameters
.
Sự khác biệt nằm ở mức độ thông tin kiến trúc được công bố trong các nguồn này. Artificial Analysis ghi Claude Opus 4.7 là model proprietary và Anthropic chưa công bố model size hoặc parameter count . Điều đó không tự động nói DeepSeek “mở” hơn theo mọi nghĩa pháp lý hoặc triển khai, nhưng trong bộ nguồn hiện có, DeepSeek V4-Pro có nhiều thông tin kiến trúc cụ thể hơn
.
BenchLM ghi Claude Opus 4.7 đạt overall score 97/100, xếp #2 provisional và #2 verified trong leaderboard của họ . Cùng hệ thống này ghi DeepSeek V4 Pro High đạt overall score 83 và xếp #15 provisional
.
Leaderboard tổng hợp hữu ích để nhìn xu hướng, nhưng không nên dùng một bảng duy nhất làm phán quyết cuối. Trọng số benchmark của leaderboard có thể không giống workload của bạn: một model xếp cao tổng thể vẫn có thể không phải lựa chọn tối ưu cho competitive coding, tiếng Việt, long-context retrieval, hay pipeline tool-use riêng.
Chọn Claude Opus 4.7 nếu ưu tiên chính là:
Chọn DeepSeek V4-Pro nếu ưu tiên chính là:
Các nguồn hiện có chưa đủ để kết luận chắc model nào tốt hơn về safety, hallucination, tiếng Việt, long-context retrieval, multimodal, GPQA hoặc tool-use production trong mọi môi trường. Anthropic có tuyên bố chính thức rằng Opus 4.7 mạnh hơn ở coding, vision và complex multi-step tasks, nhưng đó không phải là một head-to-head độc lập đầy đủ với DeepSeek V4-Pro trên cùng harness .
Với DeepSeek, cần đặc biệt lưu ý trạng thái V4 Preview và việc một số endpoint đang route sang V4-Flash theo tài liệu chính thức . Với Claude, cần lưu ý rằng Anthropic chưa công bố kích thước hoặc parameter count của Opus 4.7 theo Artificial Analysis
.
Cách chọn an toàn nhất là chạy A/B test trên chính workload của bạn. Với coding, hãy dùng issue thật, repo thật, test suite thật và tiêu chí chấm điểm rõ ràng: pass/fail, số patch hợp lệ, số lần cần sửa lại, latency, token cost và tỷ lệ retry. Với agent, hãy giữ cùng tool set, cùng ngân sách token, cùng system prompt và cùng giới hạn thời gian để so sánh công bằng.
Kết luận ngắn: Claude Opus 4.7 hiện là lựa chọn mạnh hơn cho software engineering và agent workflow được tài liệu hóa; DeepSeek V4-Pro đáng chọn hơn nếu bạn tối ưu competitive coding và chi phí token. Benchmark công khai là điểm bắt đầu tốt, nhưng quyết định production nên đến từ bài test trên task thật của chính bạn .
Comments
0 comments