GPT-5.5 là lựa chọn “toàn diện” có nhiều bằng chứng nhất. Trong lát cắt Artificial Analysis được trích dẫn, GPT-5.5 bản xhigh đạt 60 điểm, GPT-5.5 bản high đạt 59 điểm, còn Claude Opus 4.7 đạt 57 điểm . Ở BrowseComp, GPT-5.5 đạt 84,4%, DeepSeek V4 đạt 83,4% và Claude Opus 4.7 đạt 79,3%
.
Claude Opus 4.7 đặc biệt mạnh ở phần mềm và kiến thức chuyên sâu. Claude dẫn ở SWE-Bench Pro với 64,3% so với 58,6% của GPT-5.5, và ở GPQA Diamond với 94,2% so với 93,6% của GPT-5.5 . Tuy nhiên, GPT-5.5 lại dẫn rõ ở Terminal-Bench 2.0 với 82,7% so với 69,4% của Claude Opus 4.7
.
DeepSeek V4 là đối thủ đáng chú ý về giá/hiệu năng. VentureBeat nêu DeepSeek V4 đạt 83,4% trên BrowseComp, chỉ thấp hơn GPT-5.5 đúng 1,0 điểm phần trăm và cao hơn Claude Opus 4.7 . Mashable đồng thời trích giá API của DeepSeek V4 là 1,74 USD cho 1 triệu token đầu vào và 3,48 USD cho 1 triệu token đầu ra, so với 5/30 USD của GPT-5.5 và 5/25 USD của Claude Opus 4.7
.
Kimi K2.6 đáng theo dõi, nhưng không nên xếp hạng vội. DocsBot mô tả Kimi K2.6 là mô hình mã nguồn mở, đa phương thức gốc, thiên về tác vụ agent, dùng kiến trúc MoE 1T tham số, 32B tham số được kích hoạt và cửa sổ ngữ cảnh 256K . Tuy nhiên, các nguồn được cung cấp chưa có đủ điểm benchmark trực tiếp giữa Kimi K2.6 với GPT-5.5, Claude Opus 4.7 và DeepSeek V4 để so sánh công bằng
.
Điểm cần nhớ đầu tiên: benchmark không phải lúc nào cũng được chạy trong cùng điều kiện. DataCamp từng lưu ý trong một so sánh mô hình frontier liên quan rằng một số điểm benchmark là do nhà cung cấp báo cáo và có thể dùng cấu hình harness khác nhau . Nói đơn giản, cùng một mô hình có thể trông rất mạnh ở một thiết lập, nhưng kém nổi bật hơn ở thiết lập khác.
Biến thể mô hình cũng là vấn đề. Artificial Analysis nhắc đến GPT-5.5 xhigh, GPT-5.5 high và Claude Opus 4.7 với Adaptive Reasoning, Max Effort . VentureBeat lại nói đến DeepSeek-V4-Pro-Max
. Những khác biệt như mức “suy luận”, cách dùng công cụ, cấu hình test harness hoặc phiên bản Pro/Max có thể ảnh hưởng mạnh đến kết quả, nhất là trong các bài coding, reasoning và agent.
Vì vậy, câu hỏi hữu ích hơn không phải là “mô hình nào vô địch?”, mà là: với công việc cụ thể của bạn, mô hình nào có bằng chứng tốt nhất?
Chỉ báo tổng thể rõ nhất trong các nguồn là lát cắt Artificial Analysis Intelligence Index. Ở đó, GPT-5.5 xhigh đứng đầu với 60 điểm, GPT-5.5 high đứng thứ hai với 59 điểm, và Claude Opus 4.7 ở cấu hình Adaptive Reasoning, Max Effort đạt 57 điểm .
Điều này củng cố nhận định rằng GPT-5.5 có lợi thế nhẹ nhưng nhìn thấy được so với Claude Opus 4.7 trong chỉ số này . Tuy nhiên, cùng lát cắt đó không cung cấp đủ điểm trực tiếp, đầy đủ cho DeepSeek V4 và Kimi K2.6 để lập một bảng xếp hạng bốn mô hình thật sạch
.
BrowseComp là phần có dữ liệu so sánh trực tiếp rõ nhất giữa GPT-5.5, Claude Opus 4.7 và DeepSeek V4. VentureBeat nêu GPT-5.5 Pro đạt 90,1%, GPT-5.5 đạt 84,4%, DeepSeek V4 đạt 83,4% và Claude Opus 4.7 đạt 79,3% .
VentureBeat cũng nhận định DeepSeek-V4-Pro-Max chưa thể “hạ bệ” GPT-5.5 hoặc Claude Opus 4.7 nếu xét các benchmark có thể so sánh trực tiếp giữa các công ty . Cách đọc hợp lý hơn là: DeepSeek V4 rất mạnh ở BrowseComp, nhưng một benchmark tốt chưa đủ để kết luận thắng toàn diện
.
Ở mảng coding, không có người thắng tuyệt đối. Claude Opus 4.7 dẫn SWE-Bench Pro với 64,3%, trong khi GPT-5.5 đạt 58,6% . Vellum cũng nêu Claude Opus 4.7 đạt 87,6% trên SWE-Bench Verified
. Nhưng ở Terminal-Bench 2.0, tình thế đảo chiều: GPT-5.5 đạt 82,7%, còn Claude Opus 4.7 đạt 69,4%
.
Với DeepSeek V4 và Kimi K2.6, dữ liệu được cung cấp chưa đủ để đưa vào cùng bảng coding như trên. VentureBeat nói DeepSeek V4 tiến gần nhóm đầu ở một số benchmark có thể so sánh trực tiếp, nhưng các con số rõ nhất trong phần trích dẫn vẫn là BrowseComp . Với Kimi K2.6, DocsBot chủ yếu cung cấp mô tả kiến trúc và năng lực mô hình, không phải ma trận benchmark đầy đủ với ba mô hình còn lại
.
Ở các bài kiến thức và reasoning, GPT-5.5 và Claude Opus 4.7 bám khá sát nhau. Vellum nêu GPQA Diamond là 93,6% cho GPT-5.5 và 94,2% cho Claude Opus 4.7 . Mashable cũng nêu các điểm GPQA Diamond này, đồng thời bổ sung Humanity’s Last Exam: nếu không dùng công cụ, GPT-5.5 đạt 40,6% so với 31,2% của Claude Opus 4.7; nếu có công cụ, Claude Opus 4.7 đạt 54,7%, nhỉnh hơn GPT-5.5 ở mức 52,2%
.
Ở nhóm benchmark chuyên nghiệp và agent, bức tranh cũng không một chiều. Vellum nêu GPT-5.5 đạt 84,9% ở GDPval so với 80,3% của Claude Opus 4.7, đạt 78,7% ở OSWorld-Verified so với 78,0%, và đạt 75,3% ở MCP Atlas so với 79,1% của Claude . OpenAI nêu FinanceAgent v1.1 là 60,0% cho GPT-5.5 và 64,4% cho Claude Opus 4.7
.
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Kết luận |
|---|---|---|---|
| GDPval | 84,9% | 80,3% | GPT-5.5 dẫn |
| OSWorld-Verified | 78,7% | 78,0% | GPT-5.5 nhỉnh hơn |
| MCP Atlas | 75,3% | 79,1% | Claude Opus 4.7 dẫn |
| FinanceAgent v1.1 | 60,0% | 64,4% | Claude Opus 4.7 dẫn |
Anthropic còn nhắc đến một benchmark research-agent nội bộ, trong đó Claude Opus 4.7 theo Anthropic đồng hạng điểm tổng cao nhất 0,715 trên sáu module và đạt 0,813 ở module General Finance, so với 0,767 của Opus 4.6 . Vì đây là benchmark nội bộ và không bao phủ đồng đều cả bốn mô hình trong dữ liệu được cung cấp, nên nên xem nó như tín hiệu về sức mạnh agent của Claude hơn là một bảng xếp hạng độc lập bốn mô hình
.
Khi đưa mô hình vào sản phẩm thật, một vài điểm benchmark hơn kém không phải yếu tố duy nhất. Chi phí API có thể quyết định việc một ứng dụng có chạy nổi ở quy mô lớn hay không.
Mashable nêu DeepSeek V4 có giá 1,74 USD cho 1 triệu token đầu vào và 3,48 USD cho 1 triệu token đầu ra, với cửa sổ ngữ cảnh 1 triệu token . Cùng nguồn nêu GPT-5.5 là 5 USD cho 1 triệu token đầu vào và 30 USD cho 1 triệu token đầu ra; Claude Opus 4.7 là 5 USD đầu vào và 25 USD đầu ra cho 1 triệu token, cũng với cửa sổ ngữ cảnh 1 triệu token
.
Kimi K2.6 là trường hợp riêng. DocsBot mô tả mô hình này có ngữ cảnh 256K, kiến trúc MoE 1T tham số, 32B tham số được kích hoạt, cùng khả năng điều phối tác vụ agent lên tới 300 sub-agent và 4.000 bước phối hợp . Đây là thông tin kỹ thuật quan trọng, nhưng không thay thế được các điểm benchmark và giá API trực tiếp khi so với GPT-5.5, Claude Opus 4.7 và DeepSeek V4
.
Không có mô hình nào “ăn trọn” mọi bài kiểm tra. Trong dữ liệu hiện có, GPT-5.5 là mô hình toàn diện có bằng chứng mạnh nhất vì dẫn lát cắt Artificial Analysis, mạnh ở BrowseComp và đạt kết quả tốt trên nhiều benchmark chuyên nghiệp . Claude Opus 4.7 vẫn là mô hình hàng đầu, nhất là với SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond và một số tác vụ tài chính/agent
. DeepSeek V4 là ứng viên giá/hiệu năng nổi bật, vì gần chạm GPT-5.5 ở BrowseComp trong khi giá API được trích dẫn thấp hơn nhiều
. Kimi K2.6 chưa nên bị đánh giá thấp hay thổi phồng: để xếp hạng công bằng, vẫn cần thêm benchmark và giá API trực tiếp, cùng điều kiện so sánh
.
Comments
0 comments