| Bài thi có hỗ trợ công cụ | GPT-5.5 Pro | 57,2% trên Humanity’s Last Exam có công cụ, cao hơn Claude Opus 4.7 ở 54,7% |
| Agent dùng terminal | GPT-5.5 | 82,7% trên Terminal-Bench 2.0, cao hơn Claude Opus 4.7 69,4% và DeepSeek-V4-Pro-Max 67,9% |
| Thao tác môi trường máy tính/OS | GPT-5.5 | 78,7% trên OSWorld-Verified, nhỉnh hơn Claude Opus 4.7 ở 78,0% |
| Toán frontier | GPT-5.5 | 51,7% trên FrontierMath Tiers 1–3, so với Claude Opus 4.7 ở 43,8% |
| Kỹ nghệ phần mềm trong bảng chung | Claude Opus 4.7 | 64,3% trên SWE-Bench Pro / SWE Pro, cao hơn GPT-5.5 58,6% và DeepSeek-V4-Pro-Max 55,4% |
| Duyệt web/tìm hiểu qua web | GPT-5.5 Pro | 90,1% trên BrowseComp, cao hơn GPT-5.5 84,4%, DeepSeek-V4-Pro-Max 83,4% và Claude Opus 4.7 79,3% |
| Workflow dùng công cụ kiểu MCP | Claude Opus 4.7 | 79,1% trên MCP Atlas / MCPAtlas Public, cao hơn GPT-5.5 75,3% và DeepSeek-V4-Pro-Max 73,6% |
| Thị giác máy tính và phân tích tài liệu | Claude Opus 4.7 | Được báo cáo đứng số 1 trong Vision & Document Arena, thắng các nhóm phụ như diagram, homework và OCR |
| Tối ưu chi phí | DeepSeek V4 | VentureBeat mô tả DeepSeek V4 đạt gần mức state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5; tuy vậy cần kiểm chứng trên workload thật của bạn |
| So sánh kém sạch nhất | Kimi K2.6 | Có nhiều điểm số đáng chú ý, nhưng bằng chứng được trích dẫn chủ yếu nằm ngoài bảng chung với GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max |
Các hàng trộn nhiều nguồn cần đọc thận trọng. Một điểm Kimi xuất hiện trong so sánh riêng vẫn có giá trị tham khảo, nhưng không mạnh bằng kết quả được chạy trong cùng bảng, cùng harness và cùng điều kiện với GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max .
Chiến thắng rõ nhất của GPT-5.5 là Terminal-Bench 2.0: 82,7%, so với Claude Opus 4.7 ở 69,4% và DeepSeek-V4-Pro-Max ở 67,9% trong bảng chung . Đây là một trong những khoảng cách lớn nhất trong tập benchmark được trích dẫn.
GPT-5.5 cũng dẫn Claude Opus 4.7 trên OSWorld-Verified, nhưng khoảng cách rất nhỏ: 78,7% so với 78,0% . Với FrontierMath Tiers 1–3, khoảng cách lớn hơn: GPT-5.5 đạt 51,7%, còn Claude đạt 43,8%
.
Khi có công cụ hoặc duyệt web, GPT-5.5 Pro mới là cấu hình đáng chú ý hơn. GPT-5.5 Pro dẫn Humanity’s Last Exam có công cụ với 57,2%, cao hơn Claude Opus 4.7 54,7%, GPT-5.5 52,2% và DeepSeek-V4-Pro-Max 48,2% . Trên BrowseComp, GPT-5.5 Pro cũng dẫn với 90,1%, cao hơn GPT-5.5 84,4%, DeepSeek-V4-Pro-Max 83,4% và Claude Opus 4.7 79,3%
.
Điểm cần nhớ: GPT-5.5 không thắng mọi bài suy luận. Claude Opus 4.7 nhỉnh hơn trên GPQA Diamond, 94,2% so với 93,6% của GPT-5.5 trong bảng chung . Một hướng dẫn riêng về GPT-5.5 còn nêu các kết quả theo miền như 91,7% trên Harvey BigLaw Bench, 88,5% trên một benchmark nội bộ về ngân hàng đầu tư và 80,5% trên BixBench, nhưng không nên xem đó là chiến thắng bốn bên vì đoạn trích không có điểm tương ứng cho Claude Opus 4.7, DeepSeek V4 và Kimi K2.6
.
Claude Opus 4.7 có hồ sơ suy luận không dùng công cụ tốt nhất trong bảng chung chính. Mô hình này dẫn GPQA Diamond với 94,2% và Humanity’s Last Exam không công cụ với 46,9% . Claude cũng dẫn SWE-Bench Pro / SWE Pro với 64,3% và MCP Atlas / MCPAtlas Public với 79,1% trong cùng bảng
.
Điểm yếu tương đối của Claude trong dữ liệu được trích dẫn là các tác vụ kiểu terminal. GPT-5.5 dẫn Claude hơn 13 điểm trên Terminal-Bench 2.0, 82,7% so với 69,4%; GPT-5.5 cũng dẫn Claude trên OSWorld-Verified và FrontierMath Tiers 1–3 .
Ở mảng đa phương thức và tài liệu, Claude có tín hiệu mạnh nhất trong nguồn được trích dẫn. Một nguồn báo cáo Claude Opus 4.7 đứng số 1 trong Vision & Document Arena, cải thiện 4 điểm so với Opus 4.6 ở Document Arena, đồng thời thắng các hạng mục phụ gồm diagram, homework và OCR . Tuy nhiên, nguồn này không đưa điểm Vision & Document Arena có thể so trực tiếp cho GPT-5.5, DeepSeek V4 hoặc Kimi K2.6, nên kết luận hợp lý là Claude có lợi thế tài liệu rõ trong bằng chứng được trích dẫn, chứ chưa phải một bảng xếp hạng đa phương thức bốn bên đầy đủ
.
Các nguồn dùng nhiều nhãn DeepSeek khác nhau. Bảng chung báo cáo DeepSeek-V4-Pro-Max, trong khi so sánh của Artificial Analysis nói về DeepSeek V4 Pro với cửa sổ ngữ cảnh 1.000k token . Không nên tự động xem các nhãn này là cùng một cấu hình.
Trong bảng chung, DeepSeek-V4-Pro-Max cạnh tranh nhưng không đứng đầu hàng nào. Mô hình này đạt 90,1% trên GPQA Diamond, 37,7% trên Humanity’s Last Exam không công cụ, 48,2% trên Humanity’s Last Exam có công cụ, 67,9% trên Terminal-Bench 2.0, 55,4% trên SWE-Bench Pro / SWE Pro, 83,4% trên BrowseComp và 73,6% trên MCP Atlas / MCPAtlas Public .
Điểm đáng chú ý nhất của DeepSeek trong các nguồn là chi phí/hiệu năng. VentureBeat mô tả DeepSeek V4 là đạt gần mức trí tuệ state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 . Đây là lý do tốt để đưa DeepSeek vào vòng thử nghiệm nếu bạn nhạy cảm với chi phí, nhưng không thay thế được việc đo chất lượng trên chính dữ liệu và prompt của bạn.
Về ngữ cảnh dài, một so sánh của Artificial Analysis liệt kê cả DeepSeek V4 Pro và Claude Opus 4.7 ở mức cửa sổ ngữ cảnh 1.000k token . Điều này cho thấy hai cấu hình được nêu ngang nhau ở chỉ số đó, không phải tuyên bố rộng hơn cho mọi chế độ DeepSeek hoặc Claude
.
Kimi K2.6 là mô hình khó xếp hạng nhất trong nhóm này vì không có mặt trong bảng chung chính với GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max . Một so sánh tập trung vào Kimi báo cáo K2.6 đạt 58,6% trên SWE-Bench Pro, 80,2% trên SWE-Bench Verified, 66,7% trên Terminal-Bench 2.0, 54,0% trên Humanity’s Last Exam có công cụ và 89,6% trên LiveCodeBench v6
. Nguồn này nói các điểm K2.6 đến từ model card chính thức của Moonshot AI, nhưng bộ so sánh chủ yếu là Claude Opus 4.6 và GPT-5.4, không phải đúng bốn mô hình đang xét ở đây
.
Một so sánh riêng giữa Kimi và DeepSeek báo cáo Kimi K2.6 đạt 96,4% trên AIME 2026 ở chế độ Thinking, 27,9% trên APEX Agents ở chế độ Thinking và 83,2% trên BrowseComp với Thinking mode và quản lý ngữ cảnh . Trong cùng nguồn, DeepSeek-V4 Pro được liệt kê 83,4% trên BrowseComp, còn điểm DeepSeek cho AIME 2026 và APEX Agents không có sẵn
.
Vì vậy, Kimi K2.6 rất đáng thử nếu bạn quan tâm đến coding, agent, toán hoặc duyệt web. Nhưng với bằng chứng hiện có, chưa nên tuyên bố Kimi thắng hoặc thua GPT-5.5 và Claude Opus 4.7 trên toàn bộ bộ benchmark như một bảng xếp hạng chung .
Đây không phải một bảng xếp hạng tuyệt đối. Các nguồn đang trộn nhiều biến thể và chế độ: GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 và Kimi K2.6 . Một số kết quả cũng là vendor-reported; OpenAI lưu ý rằng các đánh giá GPT cho ARC được chạy với reasoning effort đặt ở mức xhigh trong môi trường nghiên cứu, có thể cho đầu ra hơi khác với ChatGPT sản xuất trong một số trường hợp
.
Các khoảng cách nhỏ chỉ nên xem là tín hiệu định hướng. Claude dẫn GPT-5.5 trên GPQA Diamond 0,6 điểm, còn GPT-5.5 dẫn Claude trên OSWorld-Verified 0,7 điểm . Khoảng cách lớn đáng hành động hơn: GPT-5.5 dẫn Claude hơn 13 điểm trên Terminal-Bench 2.0 và dẫn 7,9 điểm trên FrontierMath
.
Kết luận thực dụng: đừng chọn mô hình chỉ vì một hàng điểm số đẹp. Hãy chọn benchmark gần nhất với việc thật của bạn, rút ra 2–3 ứng viên, rồi chạy lại cùng bài kiểm tra trên prompt, dữ liệu, công cụ và ngân sách mà bạn thực sự sẽ dùng.
Comments
0 comments