Đọc benchmark của các mô hình AI frontier rất dễ bị lệch nếu coi một bảng điểm là lời phán quyết cuối cùng. Cách nhìn thực dụng hơn là: GPT-5.5 có tín hiệu xếp hạng tổng hợp mạnh nhất, Claude Opus 4.7 thắng nhiều bài reasoning và kỹ thuật phần mềm khó, DeepSeek V4 có lợi thế giá API rõ nhất, còn Kimi K2.6 đáng chú ý cho coding và tác vụ agent nhưng chưa có đủ bằng chứng đối đầu trực tiếp với GPT-5.5 và Opus 4.7.[2][
16][
15][
18][
19]
Nói ngắn gọn: đừng hỏi mô hình nào thắng tuyệt đối. Hãy hỏi mô hình nào thắng đúng loại việc, đúng biến thể, đúng ngân sách.
Kết luận nhanh
| Bạn ưu tiên điều gì? | Lựa chọn có bằng chứng mạnh nhất | Vì sao |
|---|---|---|
| Tín hiệu trí tuệ tổng hợp cao nhất | GPT-5.5 | Artificial Analysis xếp GPT-5.5 xhigh ở mức 60 và GPT-5.5 high ở mức 59, cao hơn Claude Opus 4.7 Adaptive Reasoning Max Effort ở mức 57.[ |
| Reasoning khó và kỹ thuật phần mềm | Claude Opus 4.7, GPT-5.5 bám sát | Trong bảng chung của VentureBeat, Claude dẫn GPQA Diamond, HLE không dùng công cụ, SWE-Bench Pro và MCP Atlas; GPT-5.5 dẫn Terminal-Bench 2.0 và BrowseComp bản cơ sở, còn GPT-5.5 Pro dẫn HLE có công cụ và BrowseComp ở các hàng có biến thể này.[ |
| Chi phí API thấp nhất trong nhóm flagship được liệt kê | DeepSeek V4 | Mashable liệt kê DeepSeek V4 ở mức 1,74 USD / 1 triệu token đầu vào và 3,48 USD / 1 triệu token đầu ra, thấp hơn GPT-5.5 ở mức 5 USD / 30 USD và Claude Opus 4.7 ở mức 5 USD / 25 USD.[ |
| Số liệu coding và competitive programming được công bố rõ | DeepSeek V4 Pro | Together AI liệt kê DeepSeek V4 Pro đạt 93,5% LiveCodeBench, Codeforces 3206, 80,6% SWE-Bench Verified và 76,2% SWE-Bench Multilingual.[ |
| Đánh giá Kimi K2.6 | Hứa hẹn, nhưng chưa ngã ngũ | Kimi K2.6 có số liệu coding và agentic đáng chú ý, nhưng nhiều bằng chứng tập trung vào so sánh với GPT-5.4 và Claude Opus 4.6 thay vì GPT-5.5 và Claude Opus 4.7.[ |
Vì sao không nên gọi một mô hình là thắng tất cả
Các tên biến thể và chế độ suy luận rất quan trọng. GPT-5.5 có các mức high, xhigh và Pro trong một số bảng; Claude Opus 4.7 có Adaptive Reasoning Max Effort; DeepSeek V4 xuất hiện dưới dạng V4, V4 Flash, V4 Pro và V4-Pro-Max. Kết quả benchmark, giá và giới hạn ngữ cảnh có thể thay đổi theo đúng biến thể được gọi.[1][
15][
25][
31]
Vì vậy, cách đọc hợp lý là tách ba câu hỏi: mô hình nào có tín hiệu tổng hợp tốt nhất, mô hình nào hợp với tác vụ cụ thể, và mô hình nào đem lại chi phí chấp nhận được khi chạy thật.
Xếp hạng tổng hợp: GPT-5.5 đang có lợi thế rõ nhất
Tín hiệu tổng hợp sạch nhất trong các nguồn hiện có đến từ Artificial Analysis. Nguồn này liệt kê GPT-5.5 xhigh đứng đầu với Intelligence Index 60, GPT-5.5 high đứng thứ hai với 59, và Claude Opus 4.7 Adaptive Reasoning Max Effort ở mức 57.[2]
Kimi K2.6 nằm dưới nhóm GPT-5.5/Claude trong các đoạn tổng hợp hiện có. OpenRouter liệt kê Kimi K2.6 ở mức 53,9 Intelligence, 47,1 Coding và 66,0 Agentic; LLMBase cũng nêu Kimi K2.6 ở mức 53,9 Intelligence và 47,1 Coding trong so sánh với DeepSeek V4 Flash High.[3][
1] Cùng bảng LLMBase đó ghi DeepSeek V4 Flash High đạt 44,9 Intelligence và 39,8 Coding, nhưng đây là biến thể Flash, không phải DeepSeek V4 Pro hay Pro-Max.[
1]
Điểm cần nhớ: nguồn tổng hợp cho tín hiệu khá rõ khi so GPT-5.5 với Claude Opus 4.7, nhưng không có một hàng xếp hạng bốn chiều hoàn chỉnh cho GPT-5.5, Claude Opus 4.7, DeepSeek V4 Pro-Max và Kimi K2.6 cùng lúc.[2]
Cùng hàng benchmark: Claude và GPT-5.5 chia nhau vị trí đầu
Bảng benchmark chung của VentureBeat là nguồn hữu ích nhất để đặt DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro ở các hàng có nêu và Claude Opus 4.7 lên cùng mặt bằng so sánh.[16]
| Benchmark | DeepSeek-V4-Pro-Max | GPT-5.5 | GPT-5.5 Pro, nếu có | Claude Opus 4.7 | Kết quả cao nhất trong nguồn |
|---|---|---|---|---|---|
| GPQA Diamond | 90,1% | 93,6% | — | 94,2% | Claude Opus 4.7[ |
| Humanity’s Last Exam, không dùng công cụ | 37,7% | 41,4% | 43,1% | 46,9% | Claude Opus 4.7[ |
| Humanity’s Last Exam, có công cụ | 48,2% | 52,2% | 57,2% | 54,7% | GPT-5.5 Pro[ |
| Terminal-Bench 2.0 | 67,9% | 82,7% | — | 69,4% | GPT-5.5[ |
| SWE-Bench Pro / SWE Pro | 55,4% | 58,6% | — | 64,3% | Claude Opus 4.7[ |
| BrowseComp | 83,4% | 84,4% | 90,1% | 79,3% | GPT-5.5 Pro[ |
| MCP Atlas / MCPAtlas Public | 73,6% | 75,3% | — | 79,1% | Claude Opus 4.7[ |
Đọc bảng này như một kết quả chia điểm, không phải một cú quét sạch. Claude Opus 4.7 có lợi thế trong GPQA Diamond, HLE không dùng công cụ, SWE-Bench Pro và MCP Atlas.[16] GPT-5.5 lại mạnh hơn ở Terminal-Bench 2.0 và BrowseComp bản cơ sở; GPT-5.5 Pro cao hơn ở HLE có công cụ và BrowseComp trong các hàng VentureBeat có đưa biến thể này.[
16]
DeepSeek-V4-Pro-Max cạnh tranh ở vài hàng nhưng không vượt kết quả tốt nhất của GPT-5.5 hoặc Claude Opus 4.7 trong bảng chung này. Hàng gần nhất là BrowseComp, nơi DeepSeek-V4-Pro-Max đạt 83,4% so với GPT-5.5 ở mức 84,4% và Claude Opus 4.7 ở mức 79,3%.[16]
Coding: tùy bài toán, không thể chỉ nhìn một con số
Với tác vụ kỹ thuật phần mềm kiểu sửa lỗi trong repository, Claude Opus 4.7 có kết quả SWE-Bench Pro mạnh nhất trong bảng chung của VentureBeat: 64,3%, so với GPT-5.5 ở mức 58,6% và DeepSeek-V4-Pro-Max ở mức 55,4%.[16]
DeepSeek V4 Pro lại có hồ sơ coding được công bố dày nhất trong các nguồn model listing hiện có. Together AI liệt kê DeepSeek V4 Pro đạt 93,5% LiveCodeBench, Codeforces 3206, 80,6% SWE-Bench Verified và 76,2% SWE-Bench Multilingual.[25] Model card của NVIDIA cũng tách các biến thể DeepSeek V4 Flash và V4 Pro theo nhiều benchmark như GPQA Diamond, HLE, LiveCodeBench và Codeforces, trong đó V4-Pro Max được nêu ở mức 93,5 trên LiveCodeBench và 3206 trên Codeforces.[
31]
Kimi K2.6 cũng có tín hiệu coding đáng chú ý, nhưng các bảng tập trung vào Kimi trong nguồn hiện có chủ yếu so với thế hệ trước. Lorka liệt kê Kimi K2.6 ở mức 58,6% trên SWE-Bench Pro, 54,0% trên HLE-Full có công cụ, 90,5% trên GPQA-Diamond và 79,4% trên MMMU-Pro trong bảng so với GPT-5.4, Claude Opus 4.6 và Gemini 3.1 Pro.[18] Verdent liệt kê Kimi K2.6 ở mức 80,2% trên SWE-Bench Verified, 66,7% trên Terminal-Bench 2.0, 54,0% trên HLE có công cụ và 89,6% trên LiveCodeBench v6, đồng thời ghi chú Opus 4.7 dẫn SWE-Bench Verified ở mức 87,6%.[
19]
Kết luận thực tế: Kimi K2.6 đáng được đưa vào vòng thử nghiệm cho coding và workflow agent, nhưng bằng chứng hiện có chưa đủ để gọi đây là mô hình thắng chung cuộc trước GPT-5.5 hoặc Claude Opus 4.7.[18][
19]
Giá API: DeepSeek V4 có lợi thế rõ nhất
Nếu chi phí API là yếu tố sống còn, DeepSeek V4 có lập luận mạnh nhất trong các nguồn được nêu. Mashable liệt kê DeepSeek V4 ở mức 1,74 USD / 1 triệu token đầu vào và 3,48 USD / 1 triệu token đầu ra, so với GPT-5.5 ở mức 5 USD / 30 USD và Claude Opus 4.7 ở mức 5 USD / 25 USD.[15]
| Mô hình hoặc biến thể | Giá đầu vào được liệt kê | Giá đầu ra được liệt kê | Ghi chú |
|---|---|---|---|
| GPT-5.5 | 5 USD / 1 triệu token | 30 USD / 1 triệu token | Mashable liệt kê cửa sổ ngữ cảnh 1 triệu token trong phép so sánh này.[ |
| Claude Opus 4.7 | 5 USD / 1 triệu token | 25 USD / 1 triệu token | Mashable liệt kê cửa sổ ngữ cảnh 1 triệu token trong phép so sánh này.[ |
| DeepSeek V4 | 1,74 USD / 1 triệu token | 3,48 USD / 1 triệu token | Mashable liệt kê cửa sổ ngữ cảnh 1 triệu token trong phép so sánh này.[ |
| DeepSeek V4 Flash | 0,14 USD / 1 triệu token | 0,28 USD / 1 triệu token | LLMBase liệt kê giá pha trộn 0,18 USD / 1 triệu token theo tỷ lệ 3:1.[ |
| Kimi K2.6 | 0,95 USD / 1 triệu token | 4,00 USD / 1 triệu token | LLMBase liệt kê giá pha trộn 1,71 USD / 1 triệu token trong cùng phép so sánh.[ |
Một lưu ý quan trọng: đừng mặc định mọi endpoint đều có cùng giới hạn ngữ cảnh. Mashable liệt kê cửa sổ ngữ cảnh 1 triệu token cho DeepSeek V4, GPT-5.5 và Claude Opus 4.7 trong so sánh giá, trong khi một listing DeepSeek V4 Pro trên OpenRouter ghi 256K token tối đa và 66K token đầu ra tối đa.[15][
3] Khi đưa vào sản phẩm, cần kiểm tra đúng nhà cung cấp, đúng biến thể và đúng chế độ suy luận.
Nên chọn mô hình nào?
GPT-5.5: lựa chọn mặc định khi cần tín hiệu tổng hợp mạnh
GPT-5.5 là lựa chọn an toàn nhất nếu tiêu chí chính là xếp hạng tổng hợp. Artificial Analysis liệt kê GPT-5.5 xhigh ở mức 60 và GPT-5.5 high ở mức 59, hai vị trí Intelligence Index cao nhất trong đoạn nguồn được cung cấp.[2]
GPT-5.5 cũng nổi bật ở hai hàng tác vụ chung trong bảng VentureBeat: 82,7% trên Terminal-Bench 2.0 và 84,4% trên BrowseComp ở bản GPT-5.5 cơ sở; GPT-5.5 Pro được nêu ở mức 90,1% trên BrowseComp khi biến thể này xuất hiện.[16]
Claude Opus 4.7: hợp với reasoning khó và kỹ thuật phần mềm phức tạp
Claude Opus 4.7 bám sát GPT-5.5 trong xếp hạng tổng hợp, với điểm Intelligence Index 57 cho thiết lập Adaptive Reasoning Max Effort của Artificial Analysis.[2] Trong bảng chung của VentureBeat, Claude dẫn GPT-5.5 và DeepSeek-V4-Pro-Max ở GPQA Diamond, HLE không dùng công cụ, SWE-Bench Pro và MCP Atlas.[
16]
Tài liệu ra mắt của Anthropic cũng nêu kết quả benchmark research-agent nội bộ, gồm điểm tổng thể đồng hạng cao nhất 0,715 trên sáu module và điểm General Finance 0,813 so với 0,767 của Opus 4.6.[17] Vì đây là tuyên bố benchmark nội bộ, nên nên xem như bối cảnh bổ trợ hơn là một leaderboard trung lập.[
17]
DeepSeek V4: đáng chú ý nhất khi bài toán là hiệu năng trên chi phí
Lợi thế dễ thấy nhất của DeepSeek V4 là giá. Trong so sánh của Mashable, giá đầu vào và đầu ra của DeepSeek V4 thấp hơn nhiều so với GPT-5.5 và Claude Opus 4.7: 1,74 USD đầu vào và 3,48 USD đầu ra / 1 triệu token, trong khi GPT-5.5 là 5 USD / 30 USD và Claude Opus 4.7 là 5 USD / 25 USD.[15]
DeepSeek V4 Pro cũng có số liệu coding được công bố mạnh, gồm 93,5% LiveCodeBench, Codeforces 3206, 80,6% SWE-Bench Verified và 76,2% SWE-Bench Multilingual trong listing của Together AI.[25] Đổi lại, DeepSeek-V4-Pro-Max vẫn thua kết quả tốt nhất của GPT-5.5 hoặc Claude Opus 4.7 trên các hàng chung của VentureBeat, dù có hàng BrowseComp khá sát.[
16]
Kimi K2.6: đáng thử cho coding và agent, nhưng bằng chứng đối đầu còn mỏng
Kimi K2.6 khó xếp hạng trực tiếp trong cuộc đua bốn mô hình này vì nhiều bảng benchmark tập trung vào Kimi lại so sánh với GPT-5.4 và Claude Opus 4.6, không phải GPT-5.5 và Claude Opus 4.7.[18][
19] Dù vậy, tín hiệu không hề yếu: OpenRouter liệt kê Kimi K2.6 ở mức 53,9 Intelligence, 47,1 Coding và 66,0 Agentic, còn Verdent liệt kê 80,2% SWE-Bench Verified và 89,6% LiveCodeBench v6.[
3][
19]
Kết luận thực dụng không phải Kimi K2.6 yếu. Đúng hơn, bằng chứng trực tiếp còn ít hơn. Nếu giá, đường triển khai hoặc hành vi agentic của Kimi phù hợp với hệ thống của bạn, mô hình này đáng được benchmark nội bộ; nhưng các nguồn hiện có chưa đủ để gọi Kimi K2.6 là người thắng chung cuộc trước GPT-5.5 hoặc Claude Opus 4.7.[18][
19]
Những điểm cần kiểm tra trước khi chọn
- Tên biến thể rất quan trọng. DeepSeek V4 xuất hiện trong nguồn dưới dạng V4, V4 Flash, V4 Pro và DeepSeek-V4-Pro-Max; giá, giới hạn và điểm benchmark thay đổi theo biến thể và chế độ suy luận.[
1][
15][
25][
31]
- So sánh của Kimi ít trực tiếp hơn. Các bảng Kimi K2.6 mạnh nhất trong nguồn hiện có thường so với GPT-5.4 và Claude Opus 4.6, không phải GPT-5.5 và Claude Opus 4.7.[
18][
19]
- Số liệu HLE không dùng công cụ không đồng nhất giữa các nguồn. LLM Stats và VentureBeat nêu GPT-5.5 ở mức 41,4% và Claude Opus 4.7 ở mức 46,9%, trong khi đoạn so sánh GPT với Claude của Mashable nêu GPT-5.5 ở mức 40,6% và Opus 4.7 ở mức 31,2%.[
7][
16][
9]
- Benchmark nội bộ không giống leaderboard độc lập. Bài ra mắt Opus 4.7 của Anthropic nêu cải thiện trong benchmark research-agent nội bộ, nhưng kết quả đó nên được đọc khác với so sánh công khai giữa nhiều nhà cung cấp.[
17]
- Giá và giới hạn ngữ cảnh phụ thuộc nhà cung cấp. Cùng một họ mô hình có thể xuất hiện với cửa sổ ngữ cảnh, giới hạn token và trần đầu ra khác nhau tùy endpoint và listing.[
3][
15]
Chốt lại
Chọn GPT-5.5 nếu tiêu chí số một là tín hiệu trí tuệ tổng hợp trong các bảng hiện có.[2] Chọn Claude Opus 4.7 nếu công việc giống các hàng reasoning khó và kỹ thuật phần mềm nơi Claude đang dẫn, như GPQA Diamond, HLE không dùng công cụ, SWE-Bench Pro và MCP Atlas.[
16] Chọn DeepSeek V4 nếu giá trên hiệu năng là trọng tâm và bạn có thể xác thực đúng biến thể V4 cần dùng; giá API được liệt kê thấp hơn nhiều so với GPT-5.5 và Claude Opus 4.7, còn DeepSeek V4 Pro có hồ sơ coding mạnh.[
15][
25] Xem Kimi K2.6 là ứng viên đáng thử cho coding và agent, nhưng chưa phải người thắng tổng thể đã được chứng minh trước GPT-5.5 hoặc Claude Opus 4.7 theo bằng chứng trực tiếp hiện có.[
18][
19]




