Nhìn qua các bảng benchmark, cuộc so găng giữa GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 tưởng như chỉ cần chọn điểm cao nhất. Thực tế phức tạp hơn. Bảng đối chiếu chung sạch nhất hiện bao gồm GPT-5.5, GPT-5.5 Pro ở một số dòng, Claude Opus 4.7 và DeepSeek-V4-Pro-Max; Kimi K2.6 chủ yếu xuất hiện trong các so sánh riêng, nên khó xếp hạng ngang hàng ở mọi hạng mục [4][
11][
13].
Cách đọc hữu ích hơn là hỏi: benchmark nào giống việc mình cần làm nhất? Nếu bạn đang xây agent thao tác terminal, điểm OCR không nói lên nhiều. Nếu bạn xử lý tài liệu, biểu đồ hoặc scan chữ, điểm Terminal-Bench lại không phải tín hiệu chính. Kết luận ngắn gọn: không có một mô hình thắng tất cả.
Kết quả nhanh theo nhu cầu
| Nhu cầu | Nên thử trước | Lý do |
|---|---|---|
| Suy luận khoa học | Claude Opus 4.7 | 94,2% trên GPQA Diamond, nhỉnh hơn GPT-5.5 ở 93,6% và DeepSeek-V4-Pro-Max ở 90,1% [ |
| Suy luận chuyên gia không dùng công cụ | Claude Opus 4.7 | 46,9% trên Humanity’s Last Exam không công cụ, cao hơn GPT-5.5 Pro 43,1%, GPT-5.5 41,4% và DeepSeek-V4-Pro-Max 37,7% [ |
| Bài thi có hỗ trợ công cụ | GPT-5.5 Pro | 57,2% trên Humanity’s Last Exam có công cụ, cao hơn Claude Opus 4.7 ở 54,7% [ |
| Agent dùng terminal | GPT-5.5 | 82,7% trên Terminal-Bench 2.0, cao hơn Claude Opus 4.7 69,4% và DeepSeek-V4-Pro-Max 67,9% [ |
| Thao tác môi trường máy tính/OS | GPT-5.5 | 78,7% trên OSWorld-Verified, nhỉnh hơn Claude Opus 4.7 ở 78,0% [ |
| Toán frontier | GPT-5.5 | 51,7% trên FrontierMath Tiers 1–3, so với Claude Opus 4.7 ở 43,8% [ |
| Kỹ nghệ phần mềm trong bảng chung | Claude Opus 4.7 | 64,3% trên SWE-Bench Pro / SWE Pro, cao hơn GPT-5.5 58,6% và DeepSeek-V4-Pro-Max 55,4% [ |
| Duyệt web/tìm hiểu qua web | GPT-5.5 Pro | 90,1% trên BrowseComp, cao hơn GPT-5.5 84,4%, DeepSeek-V4-Pro-Max 83,4% và Claude Opus 4.7 79,3% [ |
| Workflow dùng công cụ kiểu MCP | Claude Opus 4.7 | 79,1% trên MCP Atlas / MCPAtlas Public, cao hơn GPT-5.5 75,3% và DeepSeek-V4-Pro-Max 73,6% [ |
| Thị giác máy tính và phân tích tài liệu | Claude Opus 4.7 | Được báo cáo đứng số 1 trong Vision & Document Arena, thắng các nhóm phụ như diagram, homework và OCR [ |
| Tối ưu chi phí | DeepSeek V4 | VentureBeat mô tả DeepSeek V4 đạt gần mức state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5; tuy vậy cần kiểm chứng trên workload thật của bạn [ |
| So sánh kém sạch nhất | Kimi K2.6 | Có nhiều điểm số đáng chú ý, nhưng bằng chứng được trích dẫn chủ yếu nằm ngoài bảng chung với GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max [ |
Bảng điểm chi tiết
| Benchmark / năng lực | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | DeepSeek V4 / V4 Pro Max | Kimi K2.6 | Cách đọc hợp lý nhất |
|---|---|---|---|---|---|---|
| GPQA Diamond | 93,6% [ | Không có trong nguồn trích dẫn | 94,2% [ | 90,1% cho DeepSeek-V4-Pro-Max [ | Không có trong nguồn trích dẫn | Claude dẫn trong bảng chung [ |
| Humanity’s Last Exam, không công cụ | 41,4% [ | 43,1% [ | 46,9% [ | 37,7% cho DeepSeek-V4-Pro-Max [ | Không có trong nguồn trích dẫn | Claude dẫn trong bảng chung [ |
| Humanity’s Last Exam, có công cụ | 52,2% [ | 57,2% [ | 54,7% [ | 48,2% cho DeepSeek-V4-Pro-Max [ | 54,0% trong so sánh Kimi riêng [ | GPT-5.5 Pro dẫn trong bảng chung [ |
| Terminal-Bench 2.0 | 82,7% [ | Không có trong nguồn trích dẫn | 69,4% [ | 67,9% cho DeepSeek-V4-Pro-Max [ | 66,7% trong so sánh Kimi riêng [ | GPT-5.5 dẫn rõ [ |
| SWE-Bench Pro / SWE Pro | 58,6% [ | Không có trong nguồn trích dẫn | 64,3% [ | 55,4% cho DeepSeek-V4-Pro-Max [ | 58,6% trong so sánh Kimi riêng [ | Claude dẫn trong bảng chung [ |
| BrowseComp | 84,4% [ | 90,1% [ | 79,3% [ | 83,4% cho DeepSeek-V4-Pro-Max trong bảng chung [ | 83,2% trong so sánh Kimi với DeepSeek [ | GPT-5.5 Pro dẫn trong bảng chung [ |
| MCP Atlas / MCPAtlas Public | 75,3% [ | Không có trong nguồn trích dẫn | 79,1% [ | 73,6% cho DeepSeek-V4-Pro-Max [ | Không có trong nguồn trích dẫn | Claude dẫn [ |
| OSWorld-Verified | 78,7% [ | Không có trong nguồn trích dẫn | 78,0% [ | Không có trong nguồn trích dẫn | Không có trong nguồn trích dẫn | GPT-5.5 nhỉnh hơn Claude một khoảng nhỏ [ |
| FrontierMath Tiers 1–3 | 51,7% [ | Không có trong nguồn trích dẫn | 43,8% [ | Không có trong nguồn trích dẫn | Không có trong nguồn trích dẫn | GPT-5.5 dẫn Claude [ |
| Vision & Document Arena | Không có trong nguồn trích dẫn | Không có trong nguồn trích dẫn | Được báo cáo đứng số 1 tổng thể [ | Không có trong nguồn trích dẫn | Không có trong nguồn trích dẫn | Claude có tín hiệu được trích dẫn rõ nhất [ |
| AIME 2026 | Không có trong nguồn trích dẫn | Không có trong nguồn trích dẫn | Không có trong nguồn trích dẫn | Không có trong bảng Kimi vs DeepSeek được trích dẫn [ | 96,4% ở chế độ Thinking [ | Tín hiệu hữu ích cho Kimi, không phải xếp hạng bốn bên [ |
| APEX Agents | Không có trong nguồn trích dẫn | Không có trong nguồn trích dẫn | Không có trong nguồn trích dẫn | Không có trong bảng Kimi vs DeepSeek được trích dẫn [ | 27,9% ở chế độ Thinking [ | Tín hiệu hữu ích cho Kimi, không phải xếp hạng bốn bên [ |
| Cửa sổ ngữ cảnh | Không có trong nguồn trích dẫn | Không có trong nguồn trích dẫn | 1.000k token trong một so sánh Artificial Analysis [ | 1.000k token cho DeepSeek V4 Pro trong cùng so sánh [ | Không có trong nguồn trích dẫn | Claude và DeepSeek V4 Pro ngang nhau ở cấu hình được liệt kê [ |
Các hàng trộn nhiều nguồn cần đọc thận trọng. Một điểm Kimi xuất hiện trong so sánh riêng vẫn có giá trị tham khảo, nhưng không mạnh bằng kết quả được chạy trong cùng bảng, cùng harness và cùng điều kiện với GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max [4][
11][
13].
GPT-5.5: nổi bật khi tác vụ giống agent và môi trường máy tính
Chiến thắng rõ nhất của GPT-5.5 là Terminal-Bench 2.0: 82,7%, so với Claude Opus 4.7 ở 69,4% và DeepSeek-V4-Pro-Max ở 67,9% trong bảng chung [4][
5]. Đây là một trong những khoảng cách lớn nhất trong tập benchmark được trích dẫn.
GPT-5.5 cũng dẫn Claude Opus 4.7 trên OSWorld-Verified, nhưng khoảng cách rất nhỏ: 78,7% so với 78,0% [5]. Với FrontierMath Tiers 1–3, khoảng cách lớn hơn: GPT-5.5 đạt 51,7%, còn Claude đạt 43,8% [
5].
Khi có công cụ hoặc duyệt web, GPT-5.5 Pro mới là cấu hình đáng chú ý hơn. GPT-5.5 Pro dẫn Humanity’s Last Exam có công cụ với 57,2%, cao hơn Claude Opus 4.7 54,7%, GPT-5.5 52,2% và DeepSeek-V4-Pro-Max 48,2% [4]. Trên BrowseComp, GPT-5.5 Pro cũng dẫn với 90,1%, cao hơn GPT-5.5 84,4%, DeepSeek-V4-Pro-Max 83,4% và Claude Opus 4.7 79,3% [
4].
Điểm cần nhớ: GPT-5.5 không thắng mọi bài suy luận. Claude Opus 4.7 nhỉnh hơn trên GPQA Diamond, 94,2% so với 93,6% của GPT-5.5 trong bảng chung [4]. Một hướng dẫn riêng về GPT-5.5 còn nêu các kết quả theo miền như 91,7% trên Harvey BigLaw Bench, 88,5% trên một benchmark nội bộ về ngân hàng đầu tư và 80,5% trên BixBench, nhưng không nên xem đó là chiến thắng bốn bên vì đoạn trích không có điểm tương ứng cho Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 [
7].
Claude Opus 4.7: mạnh ở suy luận không công cụ, SWE và tài liệu
Claude Opus 4.7 có hồ sơ suy luận không dùng công cụ tốt nhất trong bảng chung chính. Mô hình này dẫn GPQA Diamond với 94,2% và Humanity’s Last Exam không công cụ với 46,9% [4]. Claude cũng dẫn SWE-Bench Pro / SWE Pro với 64,3% và MCP Atlas / MCPAtlas Public với 79,1% trong cùng bảng [
4].
Điểm yếu tương đối của Claude trong dữ liệu được trích dẫn là các tác vụ kiểu terminal. GPT-5.5 dẫn Claude hơn 13 điểm trên Terminal-Bench 2.0, 82,7% so với 69,4%; GPT-5.5 cũng dẫn Claude trên OSWorld-Verified và FrontierMath Tiers 1–3 [4][
5].
Ở mảng đa phương thức và tài liệu, Claude có tín hiệu mạnh nhất trong nguồn được trích dẫn. Một nguồn báo cáo Claude Opus 4.7 đứng số 1 trong Vision & Document Arena, cải thiện 4 điểm so với Opus 4.6 ở Document Arena, đồng thời thắng các hạng mục phụ gồm diagram, homework và OCR [1]. Tuy nhiên, nguồn này không đưa điểm Vision & Document Arena có thể so trực tiếp cho GPT-5.5, DeepSeek V4 hoặc Kimi K2.6, nên kết luận hợp lý là Claude có lợi thế tài liệu rõ trong bằng chứng được trích dẫn, chứ chưa phải một bảng xếp hạng đa phương thức bốn bên đầy đủ [
1].
DeepSeek V4: cạnh tranh, nhưng luận điểm mạnh nhất là chi phí/hiệu năng
Các nguồn dùng nhiều nhãn DeepSeek khác nhau. Bảng chung báo cáo DeepSeek-V4-Pro-Max, trong khi so sánh của Artificial Analysis nói về DeepSeek V4 Pro với cửa sổ ngữ cảnh 1.000k token [4][
3]. Không nên tự động xem các nhãn này là cùng một cấu hình.
Trong bảng chung, DeepSeek-V4-Pro-Max cạnh tranh nhưng không đứng đầu hàng nào. Mô hình này đạt 90,1% trên GPQA Diamond, 37,7% trên Humanity’s Last Exam không công cụ, 48,2% trên Humanity’s Last Exam có công cụ, 67,9% trên Terminal-Bench 2.0, 55,4% trên SWE-Bench Pro / SWE Pro, 83,4% trên BrowseComp và 73,6% trên MCP Atlas / MCPAtlas Public [4].
Điểm đáng chú ý nhất của DeepSeek trong các nguồn là chi phí/hiệu năng. VentureBeat mô tả DeepSeek V4 là đạt gần mức trí tuệ state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [4]. Đây là lý do tốt để đưa DeepSeek vào vòng thử nghiệm nếu bạn nhạy cảm với chi phí, nhưng không thay thế được việc đo chất lượng trên chính dữ liệu và prompt của bạn.
Về ngữ cảnh dài, một so sánh của Artificial Analysis liệt kê cả DeepSeek V4 Pro và Claude Opus 4.7 ở mức cửa sổ ngữ cảnh 1.000k token [3]. Điều này cho thấy hai cấu hình được nêu ngang nhau ở chỉ số đó, không phải tuyên bố rộng hơn cho mọi chế độ DeepSeek hoặc Claude [
3].
Kimi K2.6: nhiều tín hiệu hứa hẹn, nhưng khó xếp hạng sạch
Kimi K2.6 là mô hình khó xếp hạng nhất trong nhóm này vì không có mặt trong bảng chung chính với GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max [4]. Một so sánh tập trung vào Kimi báo cáo K2.6 đạt 58,6% trên SWE-Bench Pro, 80,2% trên SWE-Bench Verified, 66,7% trên Terminal-Bench 2.0, 54,0% trên Humanity’s Last Exam có công cụ và 89,6% trên LiveCodeBench v6 [
13]. Nguồn này nói các điểm K2.6 đến từ model card chính thức của Moonshot AI, nhưng bộ so sánh chủ yếu là Claude Opus 4.6 và GPT-5.4, không phải đúng bốn mô hình đang xét ở đây [
13].
Một so sánh riêng giữa Kimi và DeepSeek báo cáo Kimi K2.6 đạt 96,4% trên AIME 2026 ở chế độ Thinking, 27,9% trên APEX Agents ở chế độ Thinking và 83,2% trên BrowseComp với Thinking mode và quản lý ngữ cảnh [11]. Trong cùng nguồn, DeepSeek-V4 Pro được liệt kê 83,4% trên BrowseComp, còn điểm DeepSeek cho AIME 2026 và APEX Agents không có sẵn [
11].
Vì vậy, Kimi K2.6 rất đáng thử nếu bạn quan tâm đến coding, agent, toán hoặc duyệt web. Nhưng với bằng chứng hiện có, chưa nên tuyên bố Kimi thắng hoặc thua GPT-5.5 và Claude Opus 4.7 trên toàn bộ bộ benchmark như một bảng xếp hạng chung [11][
13].
Nên thử mô hình nào trước?
- Thử GPT-5.5 trước nếu workload của bạn nặng terminal, thao tác OS hoặc giống FrontierMath; mô hình này dẫn các kết quả được trích dẫn trên Terminal-Bench 2.0, OSWorld-Verified và FrontierMath [
4][
5].
- Thử GPT-5.5 Pro trước nếu trọng tâm là suy luận có công cụ hoặc duyệt web; cấu hình này dẫn Humanity’s Last Exam có công cụ và BrowseComp trong bảng chung [
4].
- Thử Claude Opus 4.7 trước nếu bạn cần suy luận khoa học kiểu GPQA, hỏi đáp chuyên gia không dùng công cụ, kỹ nghệ phần mềm kiểu SWE-Bench Pro, workflow MCP hoặc xử lý tài liệu/đa phương thức nặng [
4][
1].
- Thử DeepSeek V4 trước nếu ràng buộc lớn nhất là chi phí và bạn có quy trình kiểm tra chất lượng riêng; lợi thế được trích dẫn là hiệu năng gần frontier với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [
4].
- Thử Kimi K2.6 nếu bạn muốn kiểm chứng các điểm coding, agent, toán và browsing được báo cáo, nhưng hãy dùng cùng prompt, công cụ, giới hạn ngữ cảnh, mục tiêu độ trễ và quy tắc chấm điểm với các mô hình còn lại [
11][
13].
Các lưu ý quan trọng khi đọc benchmark
Đây không phải một bảng xếp hạng tuyệt đối. Các nguồn đang trộn nhiều biến thể và chế độ: GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 và Kimi K2.6 [3][
4][
11][
13]. Một số kết quả cũng là vendor-reported; OpenAI lưu ý rằng các đánh giá GPT cho ARC được chạy với reasoning effort đặt ở mức xhigh trong môi trường nghiên cứu, có thể cho đầu ra hơi khác với ChatGPT sản xuất trong một số trường hợp [
5][
8].
Các khoảng cách nhỏ chỉ nên xem là tín hiệu định hướng. Claude dẫn GPT-5.5 trên GPQA Diamond 0,6 điểm, còn GPT-5.5 dẫn Claude trên OSWorld-Verified 0,7 điểm [4][
5]. Khoảng cách lớn đáng hành động hơn: GPT-5.5 dẫn Claude hơn 13 điểm trên Terminal-Bench 2.0 và dẫn 7,9 điểm trên FrontierMath [
5].
Kết luận thực dụng: đừng chọn mô hình chỉ vì một hàng điểm số đẹp. Hãy chọn benchmark gần nhất với việc thật của bạn, rút ra 2–3 ứng viên, rồi chạy lại cùng bài kiểm tra trên prompt, dữ liệu, công cụ và ngân sách mà bạn thực sự sẽ dùng.




