Đặt bốn mô hình này vào một bảng xếp hạng duy nhất nghe có vẻ gọn, nhưng dễ gây hiểu nhầm. Dữ liệu công khai không dày như nhau: Claude Opus 4.7 có cả tín hiệu chính thức từ Anthropic lẫn leaderboard bên ngoài; GPT-5.5 có điểm reasoning rất cao nhưng chủ yếu từ nguồn thứ cấp; DeepSeek V4/V4 Pro có nhiều claim kỹ thuật và đánh giá cộng đồng; còn Kimi K2.6 hiện mới có vài tín hiệu lẻ.
Cách đọc hợp lý hơn là tách hai câu hỏi: mô hình nào có điểm tốt, và điểm đó đáng tin đến đâu.
Kết luận nhanh
| Mô hình | Cách đọc thận trọng nhất | Độ tin cậy của bằng chứng |
|---|---|---|
| Claude Opus 4.7 | Ứng viên có hồ sơ công khai mạnh nhất cho coding, agent và tác vụ nhiều bước. Anthropic báo 0,715 trong benchmark research-agent nội bộ, còn Vals AI xếp Claude Opus 4.7 đứng đầu SWE-bench với 82,00% [ | Cao - trung bình |
| GPT-5.5 | Rất mạnh ở reasoning tổng quát: O-Mega báo 92,4% MMLU, 93,6% GPQA Diamond, 85,0% ARC-AGI-2 và 95,0% ARC-AGI-1 [ | Trung bình |
| DeepSeek V4 / V4 Pro | Hứa hẹn cho coding và thử nghiệm kỹ thuật, nhưng nguồn dữ liệu đang lẫn giữa V4, V4 Pro và V4 Pro High [ | Trung bình - thấp |
| Kimi K2.6 | Có tín hiệu ban đầu — LLM Stats ghi 0,91 GPQA và WhatLLM đưa vào top 10 theo Quality Index — nhưng chưa đủ phủ nhiều benchmark để so ngang hàng [ | Thấp |
Bảng benchmark đối sánh được, nhưng không nên gộp máy móc
| Benchmark hoặc chỉ số | Claude Opus 4.7 | GPT-5.5 | DeepSeek V4 / V4 Pro | Kimi K2.6 | Nên hiểu thế nào |
|---|---|---|---|---|---|
| SWE-bench | 82,00% trên Vals AI, cập nhật 24/4/2026 [ | Chưa có số liệu đối sánh trong bộ nguồn | 81% được NxCode nêu cho DeepSeek V4 [ | Chưa có số liệu đối sánh | Tín hiệu công khai sạch nhất đang nghiêng về Claude. |
| SWE-bench Verified | 87,6% theo Vellum; 83,5% ± 1,7 theo LMCouncil [ | Chưa có số liệu đối sánh | Hugging Face có nhắc SWE-bench Verified trong đánh giá cộng đồng cho DeepSeek-V4-Pro, nhưng phần tóm tắt không hiển thị con số [ | Chưa có số liệu đối sánh | Điểm thay đổi theo nguồn, cấu hình, tập con và biến thể mô hình. |
| SWE-bench Pro | 64,3% theo Vellum [ | Chưa có số liệu đối sánh | Hugging Face có nhắc SWE-bench Pro trong đánh giá cộng đồng, nhưng phần tóm tắt không hiển thị con số [ | Chưa có số liệu đối sánh | Phù hợp hơn nếu đánh giá agent phần mềm làm việc dài hơi. |
| GPQA Diamond | 94,2% theo O-Mega, Vellum và TNW [ | 93,6% theo O-Mega và Vellum [ | Có trong các bộ đánh giá cộng đồng, nhưng chưa thấy con số đối sánh trong phần tóm tắt [ | 0,91 trên LLM Stats [ | Claude và GPT-5.5 quá sát nhau để kết luận chỉ bằng GPQA. |
| MMLU | Chưa có số liệu đối sánh trong bộ nguồn | 92,4% theo O-Mega [ | MMLU-Pro xuất hiện trong đánh giá cộng đồng, nhưng chưa có số visible trong tóm tắt [ | Chưa có số liệu đối sánh | Nên cho trọng số thấp vì MMLU đã bão hòa ở nhóm mô hình mạnh. |
| ARC-AGI | Chưa có số liệu đối sánh | ARC-AGI-2: 85,0%; ARC-AGI-1: 95,0% theo O-Mega [ | Chưa có số liệu đối sánh | Chưa có số liệu đối sánh | Củng cố luận điểm GPT-5.5 mạnh về reasoning, nhưng vẫn cần lưu ý nguồn. |
| Research-agent / tác vụ nhiều bước | 0,715 trong benchmark nội bộ của Anthropic [ | Chưa có số liệu đối sánh | BenchLM báo 83,8/100 ở mục Agentic cho DeepSeek V4 Pro High [ | Chưa có số liệu đối sánh | Có ích để định hướng năng lực, nhưng hai thang đo không tương đương. |
| Long context / Needle-in-a-Haystack | Anthropic nói Opus 4.7 có hiệu năng long-context ổn định nhất trong nhóm mô hình họ thử [ | Chưa có số liệu đối sánh | NxCode nêu 97% ở 1 triệu token, nhưng chính cách diễn đạt cần đọc như claim chờ kiểm chứng độc lập [ | Chưa có số liệu đối sánh | DeepSeek có claim đáng chú ý, chưa phải kết luận đóng. |
| LiveCodeBench / Codeforces | Chưa có số liệu đối sánh | Chưa có số liệu đối sánh | Redreamality báo LiveCodeBench 93,5 và Codeforces 3206 cho DeepSeek V4 [ | Chưa có số liệu đối sánh | Tốt cho coding thuần, nhưng chưa trả lời hết bài toán agentic dài hơi. |
Đừng để một con số dẫn dắt toàn bộ quyết định
Các benchmark này không đo cùng một thứ. SWE-bench tập trung vào khả năng xử lý nhiệm vụ kỹ thuật phần mềm thực tế; Vals AI mô tả đây là benchmark cho việc giải quyết các tác vụ phần mềm trong môi trường production [17]. SWE-bench Pro lại cần tách riêng: paper giới thiệu nó như một biến thể khó hơn đáng kể, nhắm vào các tác vụ kỹ thuật phần mềm dài hơi [
38].
GPQA Diamond hữu ích để nhìn vào reasoning khoa học, nhưng ở nhóm mô hình tuyến đầu, nó không còn tách biệt quá rõ. TNW nhận xét rằng điểm GPQA Diamond của các mô hình như Opus 4.7, GPT-5.4 Pro và Gemini 3.1 Pro đã sát nhau đến mức chênh lệch nằm trong nhiễu đo lường [15]. Với MMLU còn phải thận trọng hơn: Nanonets cho rằng đến năm 2026, các mô hình hàng đầu đều vượt 88%, khiến benchmark này quá bão hòa để phân định tinh tế giữa các mô hình mạnh [
1].
Nguồn của từng con số cũng quan trọng. Một công bố chính thức từ phòng lab, một leaderboard độc lập, một trang tổng hợp và một thảo luận cộng đồng không có trọng lượng như nhau. Ngay cả BenchLM cũng ghi rằng hồ sơ Claude Opus 4.7 đang bị loại khỏi leaderboard công khai vì chưa đủ độ phủ benchmark công khai không do máy sinh ra để xếp hạng an toàn [14].
Claude Opus 4.7: trường hợp mạnh nhất cho coding và agent
Claude Opus 4.7 là mô hình có nền tảng bằng chứng công khai tốt nhất trong nhóm này. Anthropic cho biết Opus 4.7 đồng hạng điểm tổng thể cao nhất trong benchmark research-agent nội bộ với 0,715, đồng thời có hiệu năng long-context ổn định nhất trong các mô hình được họ đánh giá [16]. Vì đây là benchmark nội bộ, không nên xem nó như kiểm định độc lập; nhưng nó vẫn là tín hiệu chính thức về hướng tối ưu của mô hình: làm việc nhiều bước, xử lý ngữ cảnh dài và tác vụ dạng agent.
Ở phía nguồn ngoài, SWE-bench là tín hiệu rõ nhất. Vals AI xếp Claude Opus 4.7 đứng đầu với 82,00% trên trang cập nhật ngày 24/4/2026 [17]. Vellum báo 87,6% trên SWE-bench Verified và 64,3% trên SWE-bench Pro [
20]. LMCouncil lại ghi 83,5% ± 1,7 cho Claude Opus 4.7 trên SWE-bench Verified [
9].
Cách đọc đúng không phải là chọn một con số rồi bỏ qua các số còn lại. Hợp lý hơn là nói Claude xuất hiện ở nhóm dẫn đầu, hoặc dẫn đầu, trong nhiều nguồn về software engineering; đồng thời ghi rõ SWE-bench, SWE-bench Verified và SWE-bench Pro không phải cùng một bài kiểm tra và có thể khác nhau vì phương pháp, ngày cập nhật, tập con hoặc cấu hình [17][
20][
38].
Về reasoning khoa học, Claude Opus 4.7 được O-Mega, Vellum và TNW ghi 94,2% trên GPQA Diamond [3][
12][
15]. Tuy nhiên, chính TNW cũng cảnh báo GPQA đã rất nén ở nhóm mô hình frontier, nên không nên dùng riêng GPQA để tuyên bố người thắng tuyệt đối [
15].
GPT-5.5: reasoning rất mạnh, nhưng dấu vết chính thức ít hơn
GPT-5.5 nổi bật trong nhóm số liệu reasoning thu được. O-Mega báo 92,4% trên MMLU, 93,6% trên GPQA Diamond, 85,0% trên ARC-AGI-2 và 95,0% trên ARC-AGI-1 [3]. Vellum cũng liệt kê GPT-5.5 ở mức 93,6% GPQA Diamond, thấp hơn Claude Opus 4.7 trong bảng cụ thể đó [
12]. BenchLM đặt GPT-5.5 vào nhóm cao, với 89/100 trên leaderboard tạm thời và hạng 2/16 trên leaderboard đã xác minh [
6].
Điểm cần dè chừng là khả năng truy vết. Trong bộ nguồn dùng cho so sánh này, GPT-5.5 xuất hiện qua bài viết, trang tổng hợp và benchmark page; chưa có một benchmark card chính thức của OpenAI với bộ số liệu đối sánh đầy đủ tương tự nguồn Anthropic dành cho Claude Opus 4.7. Appwrite mô tả việc GPT-5.5 ra mắt ngày 24/4/2026, còn Vals liệt kê openai/gpt-5.5 với ngày phát hành 23/4/2026 và Vals Index 67,76% ± 1,79; nhưng các nguồn này không thay thế được một benchmark card chính thức [2][
11].
Vì vậy, trong một báo cáo điều hành, GPT-5.5 nên được đặt là đối thủ hàng đầu về reasoning tổng quát, đặc biệt nhờ GPQA và ARC-AGI. Nhưng nếu tiêu chí là bằng chứng công khai đồng nhất giữa mọi mô hình, chưa nên gọi GPT-5.5 là mô hình thắng toàn cục [3][
6][
12].
DeepSeek V4 / V4 Pro: đáng chú ý, nhưng phải tách biến thể
DeepSeek là trường hợp dễ gây lẫn nhất. Các nguồn đang dùng luân phiên DeepSeek V4, DeepSeek V4 Pro và DeepSeek V4 Pro High; vì vậy không nên tự động lấy điểm của một biến thể rồi gán cho biến thể khác [25][
26][
27].
Hugging Face có một thảo luận cộng đồng cho DeepSeek-V4-Pro, bổ sung kết quả đánh giá ở GPQA, GSM8K, HLE, MMLU-Pro, SWE-bench Pro, SWE-bench Verified và Terminal-Bench 2.0 [25]. BenchLM báo DeepSeek V4 Pro High đạt 83,8/100 ở mục Agentic, 88,8/100 ở mục Coding và 72,1/100 ở mục Knowledge [
27]. NxCode cho rằng DeepSeek V4 đạt 81% trên SWE-bench và 97% ở Needle-in-a-Haystack tại ngữ cảnh 1 triệu token, nhưng cũng khiến người đọc phải hiểu con số 97% như kết quả cần kiểm chứng độc lập [
26].
Redreamality đưa thêm tín hiệu tích cực cho coding thuần: LiveCodeBench 93,5 và Codeforces 3206 cho DeepSeek V4 [30]. Tuy vậy, cùng nguồn này cũng tóm tắt rằng với công việc agentic dài hơi như SWE-bench Pro và Terminal-Bench 2.0, các mô hình frontier đóng vẫn đang dẫn trước [
30].
Cách dùng thực tế: DeepSeek V4/V4 Pro xứng đáng được thử nội bộ, nhất là khi đội kỹ thuật muốn tự đo trên workload của mình. Nhưng với bộ nguồn hiện có, DeepSeek chưa đạt độ chắc công khai ngang Claude trong SWE-bench và tín hiệu research-agent từ Anthropic [16][
17][
25][
27].
Kimi K2.6: có tín hiệu, chưa đủ để xếp hạng ngang hàng
Kimi K2.6 không nên bị loại khỏi cuộc thảo luận, nhưng cũng không nên được trình bày như thể có độ phủ benchmark tương đương ba mô hình còn lại. LLM Stats liệt kê Kimi K2.6 với 0,91 trên GPQA, còn WhatLLM đưa Kimi K2.6 vào top 10 mô hình theo Quality Index [7][
21]. Các tín hiệu này cho thấy mô hình đã xuất hiện trong hệ sinh thái benchmark, nhưng chưa đủ để so sánh toàn diện với Claude Opus 4.7, GPT-5.5 và DeepSeek V4/V4 Pro.
Cũng cần tránh thay thế âm thầm Kimi K2.6 bằng Kimi K2.5. Simon Willison ghi nhận vào tháng 2/2026 một kết quả Kimi K2.5 trên SWE-bench Verified, nhưng đó là phiên bản khác của mô hình [8]. Với một bảng so sánh nghiêm túc, Kimi K2.6 nên được ghi là thiếu bằng chứng hoặc đang chờ xác thực đa benchmark.
Khuyến nghị theo tình huống sử dụng
| Nhu cầu | Nên ưu tiên | Độ tin cậy | Lý do |
|---|---|---|---|
| Sửa issue thực tế và coding agentic | Claude Opus 4.7 | Cao - trung bình | Dẫn đầu SWE-bench trên Vals AI với 82,00% và xuất hiện mạnh ở SWE-bench Verified, SWE-bench Pro theo Vellum [ |
| Tác vụ nhiều bước, research-agent | Claude Opus 4.7 | Trung bình | Anthropic báo 0,715 trong benchmark nội bộ và long-context ổn định nhất trong các mô hình họ thử [ |
| Reasoning khoa học kiểu GPQA | Claude Opus 4.7 hoặc GPT-5.5 | Trung bình | Claude ở 94,2%, GPT-5.5 ở 93,6%; chênh lệch nhỏ và GPQA đã nén ở nhóm mô hình frontier [ |
| Reasoning tổng quát rộng | GPT-5.5 | Trung bình - thấp | Điểm MMLU, GPQA và ARC-AGI rất mạnh, nhưng chủ yếu đến từ O-Mega, Vellum, BenchLM và các trang tổng hợp [ |
| Thử nghiệm kỹ thuật, tự kiểm chứng trong môi trường riêng | DeepSeek V4 / V4 Pro | Trung bình - thấp | Có tín hiệu từ Hugging Face, BenchLM, NxCode và Redreamality, nhưng còn lẫn biến thể và cần xác thực độc lập [ |
| Xếp hạng định lượng đầy đủ | Không dùng Kimi K2.6 như mô hình đã đối sánh đầy đủ | Thấp | Có tín hiệu như GPQA 0,91 trên LLM Stats, nhưng thiếu độ phủ benchmark tương đương [ |
Cách trình bày mà không hứa quá đà
Nếu cần đưa vào slide hoặc báo cáo, nên tách phần hiệu năng và phần chất lượng bằng chứng. Một slide có thể là ranking theo tình huống sử dụng; slide thứ hai là bảng điểm; slide thứ ba là ghi chú phương pháp.
Thông điệp chính nên ngắn gọn: Claude Opus 4.7 là mô hình có bằng chứng tốt nhất cho coding và agent; GPT-5.5 là đối thủ rất mạnh ở reasoning tổng quát; DeepSeek V4/V4 Pro là lựa chọn kỹ thuật đáng thử nhưng cần benchmark nội bộ; Kimi K2.6 hiện chưa đủ dữ liệu đối sánh.
Ba cảnh báo phương pháp nên đi kèm mọi bảng xếp hạng. Thứ nhất, không trộn SWE-bench, SWE-bench Verified và SWE-bench Pro như cùng một bài test, vì SWE-bench Pro được thiết kế cho các tác vụ kỹ thuật phần mềm dài hơi và khó hơn [38]. Thứ hai, không ra quyết định chỉ dựa vào MMLU, vì nhóm mô hình hàng đầu đã tụ lại trên mốc 88% [
1]. Thứ ba, mỗi con số nên được gắn nhãn nguồn: chính thức, leaderboard, trang tổng hợp, cộng đồng hay claim từ bài phân tích.
Kết luận
Nếu mục tiêu là chọn mô hình cho một báo cáo có thể bảo vệ trước đội kỹ thuật hoặc ban điều hành, Claude Opus 4.7 nên đứng đầu nhờ kết hợp giữa nguồn chính thức, vị trí dẫn đầu trên Vals SWE-bench và các kết quả mạnh ở biến thể SWE-bench do bên thứ ba báo cáo [16][
17][
20]. GPT-5.5 nên được trình bày như đối thủ hàng đầu về reasoning, nhưng cần ghi rõ rằng các điểm thu được chủ yếu là từ nguồn thứ cấp [
3][
6][
12]. DeepSeek V4/V4 Pro đáng được thử nội bộ, chưa nên tuyên bố dẫn đầu [
25][
26][
27][
30]. Kimi K2.6 hiện nên nằm ở nhóm thiếu dữ liệu cho một so sánh đầy đủ [
7][
21].




