Đừng đọc các benchmark AI như một cuộc đua 100 mét có một vạch đích duy nhất. Các nguồn hiện có dùng bộ test, chế độ chạy và phiên bản model khác nhau; phần giao nhau giữa GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4 cũng không đầy đủ. Cách nhìn thực dụng hơn là: GPT-5.5 nổi bật ở ARC và các tác vụ tác nhân chạy trong terminal, Claude Opus 4.7 mạnh ở HLE và SWE-Bench Pro, Kimi K2.6 là ứng viên coding/agentic đáng chú ý, đặc biệt nếu cần hướng open-weight, còn DeepSeek V4 thường không đứng đầu điểm thô nhưng có lợi thế lớn về giá API.[1][
2][
3][
4][
6][
8][
9][
13]
Kết luận nhanh theo từng model
- GPT-5.5: nên được thử trước nếu bài toán giống ARC hoặc tác vụ agent dùng terminal. DocsBot ghi GPT-5.5 đạt 85% trên ARC-AGI-2 so với 75,8% của Claude Opus 4.7; VentureBeat ghi 82,7% trên Terminal-Bench 2.0, cao hơn 69,4% của Claude và 67,9% của DeepSeek.[
1][
3]
- Claude Opus 4.7: nổi bật ở các bài kiểm tra suy luận khó và rà soát phần mềm. VentureBeat cho Claude cao hơn GPT-5.5 và DeepSeek trên Humanity’s Last Exam, cả khi không dùng công cụ lẫn khi có công cụ; DataCamp ghi Claude đạt 64,3% trên SWE-Bench Pro so với 58,6% của GPT-5.5 và 55,4% của DeepSeek V4 Pro.[
3][
9]
- Kimi K2.6: là lựa chọn coding/agentic cạnh tranh, nhưng xuất hiện ít hơn trong các bảng so sánh trực tiếp với cả ba đối thủ. Trong Artificial Analysis, Kimi đạt 54, so với 57 của GPT-5.5 medium và 52 của Claude Opus 4.7 non-reasoning high; trong coding benchmark của AkitaOnRails, Kimi đạt 87.[
13][
8]
- DeepSeek V4: trong các nguồn này giống một lựa chọn price-performance hơn là model dẫn đầu benchmark. Mashable ghi giá API của DeepSeek V4 là $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra, so với $5/$30 của GPT-5.5 và $5/$25 của Claude Opus 4.7.[
2]
Bảng so sánh benchmark
Dấu — nghĩa là phần nguồn được cung cấp không có kết quả đủ tương đồng cho model đó.
| Benchmark / nguồn | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | Cách đọc nhanh |
|---|---|---|---|---|---|
| ARC-AGI-2, DocsBot | 85% | 75,8% | — | — | GPT-5.5 hơn Claude 9,2 điểm phần trăm.[ |
| ARC-AGI-1, DocsBot | 95% | 93,5% | — | — | GPT-5.5 nhỉnh hơn Claude.[ |
| Artificial Analysis leaderboard | 57, GPT-5.5 medium | 52, Claude Opus 4.7 non-reasoning high | 54 | — | Ở lát cắt này, GPT-5.5 cao hơn Kimi và chế độ Claude được ghi; DeepSeek V4 không xuất hiện trong đoạn nguồn.[ |
| Humanity’s Last Exam, không dùng công cụ, VentureBeat | 41,4% | 46,9% | — | 37,7% | Claude dẫn trong các dòng cơ bản được hiển thị.[ |
| Humanity’s Last Exam, có công cụ, VentureBeat | 52,2%; GPT-5.5 Pro — 57,2% | 54,7% | — | 48,2% | Claude cao hơn GPT-5.5 cơ bản, nhưng dòng GPT-5.5 Pro cao hơn Claude.[ |
| Terminal-Bench 2.0, VentureBeat | 82,7% | 69,4% | — | 67,9% | Đây là khoảng cách rõ nhất nghiêng về GPT-5.5 trong nhóm nguồn này.[ |
| SWE-Bench Pro, DataCamp | 58,6% | 64,3% | — | 55,4%, DeepSeek V4 Pro | Claude cao hơn GPT-5.5 và DeepSeek V4 Pro.[ |
| SWE-Bench Verified, Verdent | — | 87,6% | 80,2% | — | Claude cao hơn Kimi ở lát cắt coding này.[ |
| Coding benchmark, AkitaOnRails | 96, GPT-5.5 xHigh/Codex | 97 | 87 | 78, V4 Flash; 69, V4 Pro | Claude và GPT-5.5 gần như ngang nhau; Kimi cao hơn cả hai dòng DeepSeek V4.[ |
Vì sao không thể tuyên bố một nhà vô địch duy nhất
Vấn đề không nằm ở chỗ thiếu model mạnh, mà ở chỗ các dòng kết quả không hoàn toàn cùng hệ quy chiếu. Artificial Analysis so sánh GPT-5.5 medium, Kimi K2.6 và Claude Opus 4.7 non-reasoning high; AkitaOnRails dùng GPT-5.5 xHigh/Codex và tách riêng DeepSeek V4 Flash với DeepSeek V4 Pro; VentureBeat lại có cả GPT-5.5 và GPT-5.5 Pro.[13][
8][
3]
Ngay cả cặp GPT-5.5 và Claude Opus 4.7 cũng không cho ra một đáp án gọn gàng. LLM Stats viết rằng trong 10 benchmark mà cả hai nhà cung cấp cùng báo cáo, Opus 4.7 dẫn 6 bài, còn GPT-5.5 dẫn 4 bài; lợi thế của Claude tập trung ở các bài reasoning-heavy và review-grade, trong khi lợi thế của GPT-5.5 tập trung ở long-running tool-use và tác vụ shell-driven.[4]
Nói cách khác: nếu bạn chỉ nhìn một con số tổng, rất dễ chọn nhầm model cho công việc thật.
GPT-5.5 mạnh nhất ở đâu?
Các tín hiệu rõ nhất cho GPT-5.5 nằm ở ARC và Terminal-Bench. Trên ARC-AGI-2, GPT-5.5 đạt 85% so với 75,8% của Claude Opus 4.7; trên ARC-AGI-1, GPT-5.5 đạt 95% so với 93,5% của Claude.[1] Đây là nhóm bài thiên về nhận dạng quy luật, suy luận trừu tượng và giải quyết puzzle thị giác.
Ở Terminal-Bench 2.0, GPT-5.5 đạt 82,7%, cao hơn đáng kể so với 69,4% của Claude Opus 4.7 và 67,9% của DeepSeek.[3] Nếu workflow của bạn là agent chạy lệnh, đọc log, sửa file, dùng công cụ và xử lý nhiều bước trong môi trường giống terminal, đây là điểm cộng lớn.
Artificial Analysis cũng đặt GPT-5.5 medium trên hai đối thủ có mặt trong đoạn nguồn: 57 điểm, so với 54 của Kimi K2.6 và 52 của Claude Opus 4.7 non-reasoning high.[13] Tuy nhiên, đây không phải là bảng xếp hạng phổ quát cho mọi chế độ chạy; LLM Stats vẫn cho thấy Claude Opus 4.7 thắng GPT-5.5 ở một số bài reasoning và software-engineering.[
4]
Claude Opus 4.7 mạnh nhất ở đâu?
Claude Opus 4.7 trông tốt nhất ở các bài cần suy luận nặng và kiểm tra phần mềm phức tạp. Trên Humanity’s Last Exam không dùng công cụ, VentureBeat ghi Claude đạt 46,9%, GPT-5.5 đạt 41,4% và DeepSeek đạt 37,7%; khi bật công cụ, Claude đạt 54,7%, GPT-5.5 đạt 52,2% và DeepSeek đạt 48,2%.[3]
Trên SWE-Bench Pro, DataCamp ghi Claude Opus 4.7 đạt 64,3%, so với 58,6% của GPT-5.5 và 55,4% của DeepSeek V4 Pro.[9] Điều này khớp với bức tranh tổng quát của LLM Stats: Claude dẫn GPT-5.5 ở GPQA, HLE không công cụ, HLE có công cụ, SWE-Bench Pro, MCP Atlas và FinanceAgent v1.1.[
4]
Nếu bạn cần model đóng vai trò người rà soát code, bắt lỗi logic, đánh giá thay đổi lớn trong repo hoặc xử lý yêu cầu có rủi ro cao, Claude Opus 4.7 là ứng viên nên thử sớm.
Nên hiểu Kimi K2.6 như thế nào?
Kimi K2.6 khó được xếp vào một bảng tổng duy nhất cùng GPT-5.5, Claude Opus 4.7 và DeepSeek V4, vì model này không luôn xuất hiện trong cùng các bảng benchmark. Trong đoạn nguồn của Artificial Analysis, Kimi K2.6 đạt 54, thấp hơn GPT-5.5 medium với 57 nhưng cao hơn Claude Opus 4.7 non-reasoning high với 52.[13]
Trong coding benchmark của AkitaOnRails, Kimi K2.6 đạt 87: thấp hơn Claude Opus 4.7 với 97 và GPT-5.5 xHigh/Codex với 96, nhưng cao hơn DeepSeek V4 Flash với 78 và DeepSeek V4 Pro với 69.[8] Ở một so sánh khác của Verdent trên SWE-Bench Verified, Claude Opus 4.7 đạt 87,6%, còn Kimi K2.6 đạt 80,2%.[
6]
Khác biệt đáng chú ý của Kimi là hướng open-weight — tức có thể tải trọng số và tự triển khai, thay vì chỉ gọi qua API. Verdent viết rằng weights của K2.6 có trên Hugging Face và có thể chạy qua vLLM, SGLang hoặc KTransformers; cùng nguồn này nêu cấu hình tối thiểu khả dụng là 4× H100 cho biến thể INT4 khi giảm context.[6]
README trên Hugging Face cũng nêu một số chỉ số agentic của Kimi K2.6, như HLE-Full có công cụ 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 và MCPMark 55,9. Nhưng bảng đó chủ yếu so Kimi với GPT-5.4, Claude Opus 4.6 và Gemini 3.1 Pro, không phải đầy đủ bốn model trong bài này.[25]
DeepSeek V4: không dẫn điểm thô, nhưng đáng chú ý vì giá
Trong các nguồn được cung cấp, DeepSeek V4 thường giống một model giá trị cao hơn là model có điểm benchmark tối đa. VentureBeat cho thấy DeepSeek đứng sau GPT-5.5 và Claude Opus 4.7 trên HLE không công cụ, HLE có công cụ và Terminal-Bench 2.0.[3] DataCamp ghi DeepSeek V4 Pro đạt 55,4% trên SWE-Bench Pro, thấp hơn 58,6% của GPT-5.5 và 64,3% của Claude Opus 4.7.[
9] Trong AkitaOnRails, DeepSeek V4 Flash đạt 78 và DeepSeek V4 Pro đạt 69, đều thấp hơn Kimi K2.6, GPT-5.5 xHigh/Codex và Claude Opus 4.7 trong cùng bảng.[
8]
Nhưng giá API làm thay đổi bài toán sản phẩm. Mashable ghi DeepSeek V4 có giá $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra; GPT-5.5 là $5/$30, còn Claude Opus 4.7 là $5/$25.[2] Điều này không biến DeepSeek thành nhà vô địch benchmark, nhưng có thể khiến nó trở thành lựa chọn hợp lý cho tạo bản nháp số lượng lớn, tác vụ rủi ro thấp hoặc eval nội bộ cần chạy nhiều lượt.
Nên thử model nào trước?
- ARC, visual reasoning và puzzle trừu tượng: bắt đầu với GPT-5.5, vì trong so sánh DocsBot, model này cao hơn Claude Opus 4.7 trên ARC-AGI-2 và ARC-AGI-1.[
1]
- Hard reasoning và tác vụ kiểu HLE: bắt đầu với Claude Opus 4.7 nếu so các dòng cơ bản; lưu ý rằng dòng GPT-5.5 Pro trong VentureBeat lại cao hơn Claude trên HLE có công cụ.[
3]
- Terminal, shell-driven agents và tool-use: bắt đầu với GPT-5.5, vì Terminal-Bench 2.0 là kết quả trực tiếp rất mạnh của model này trong các nguồn hiện có.[
3][
4]
- SWE-Bench Pro và software engineering cần review kỹ: bắt đầu với Claude Opus 4.7, vì DataCamp và LLM Stats đều chỉ ra lợi thế của Claude ở SWE-Bench Pro.[
9][
4]
- Open-weight hoặc self-hosted coding/agentic: thử Kimi K2.6 nếu khả năng chạy qua Hugging Face, vLLM, SGLang hoặc KTransformers quan trọng hơn việc chỉ dùng API đóng.[
6]
- Thử nghiệm khối lượng lớn, nhạy cảm chi phí: cân nhắc DeepSeek V4 nếu giá mỗi lượt chạy quan trọng hơn điểm benchmark tối đa.[
2][
3][
9]
Chốt lại
Nếu chỉ nhìn benchmark, cặp trên cùng là GPT-5.5 và Claude Opus 4.7, nhưng mỗi model thắng ở một kiểu việc khác nhau. GPT-5.5 sáng hơn ở ARC và Terminal-Bench; Claude Opus 4.7 nổi bật ở HLE và SWE-Bench Pro.[1][
3][
4][
9] Kimi K2.6 là ứng viên coding/agentic mạnh, nhất là khi cần đường tự triển khai với weights, dù số so sánh trực tiếp với cả nhóm còn ít.[
6][
8][
13] DeepSeek V4 thường thấp hơn về điểm thô trong các dòng dữ liệu này, nhưng giá API khiến nó đáng thử cho các bài toán price-performance.[
2][
3][
9]




