Xếp GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 vào một bảng tổng sắp tuyệt đối nghe rất tiện, nhưng dễ dẫn tới quyết định sai. Các số liệu công khai hiện đến từ nhiều nguồn benchmark, nhiều mức suy luận khác nhau và nhiều bộ khung chạy thử khác nhau. LLM Stats cũng lưu ý rằng một phần điểm của GPT-5.5 và Claude Opus 4.7 là số do nhà cung cấp tự báo cáo ở tier suy luận cao; có thể so về xu hướng, nhưng không hoàn toàn đồng nhất về phương pháp.[3]
Vì vậy, câu hỏi nên đổi từ model nào mạnh nhất sang model nào đáng thử trước cho tác vụ của bạn. Nếu cần agent tự dùng trình duyệt, terminal và công cụ, GPT-5.5 là mốc đầu tiên. Nếu cần suy luận khó, rà soát hoặc quyết định ít dung sai lỗi, Claude Opus 4.7 đáng ưu tiên. Nếu chi phí API là nút thắt, DeepSeek V4 nổi bật. Nếu đang nghiên cứu coding-agent mã nguồn mở, Kimi K2.6 nên nằm trong danh sách thử nghiệm, nhưng chưa nên được xếp hạng ngang hàng chỉ bằng các số benchmark hiện có.[3][
4][
5][
7]
Chọn nhanh: nên thử mô hình nào trước?
| Nhu cầu chính | Nên thử trước | Cơ sở |
|---|---|---|
| Agent duyệt web, tự động hóa terminal, quy trình nhiều công cụ | GPT-5.5 | GPT-5.5 đạt 84,4% trên BrowseComp và 82,7% trên Terminal-Bench 2.0, đều cao hơn số của Claude Opus 4.7 và DeepSeek-V4-Pro-Max trong phần tóm tắt của VentureBeat.[ |
| Suy luận khó, rà soát, quyết định cần độ tin cậy cao | Claude Opus 4.7 | Claude Opus 4.7 đạt 94,2% trên GPQA Diamond và 46,9% trên Humanity’s Last Exam no tools, đều cao hơn GPT-5.5 và DeepSeek-V4-Pro-Max trong cùng bảng.[ |
| Gọi API lưu lượng lớn, nhạy cảm với chi phí token | DeepSeek V4 | Giá công khai của DeepSeek V4 là 1,74 USD cho 1 triệu token đầu vào và 3,48 USD cho 1 triệu token đầu ra, thấp hơn GPT-5.5 và Claude Opus 4.7 theo cùng đơn vị so sánh.[ |
| Thử nghiệm coding-agent mã nguồn mở, workflow coding dài | Kimi K2.6 | DocsBot mô tả Kimi K2.6 là mô hình agentic đa phương thức mã nguồn mở của Moonshot AI, có context 256K; nhưng hiện thiếu benchmark công khai cùng điều kiện với cả GPT-5.5, Claude Opus 4.7 và DeepSeek V4.[ |
Bảng benchmark và giá cần nhìn cùng nhau
Tên gọi DeepSeek trong các nguồn không hoàn toàn thống nhất: nguồn giá thường ghi DeepSeek V4 hoặc DeepSeek V4 Pro, trong khi một phần benchmark ghi DeepSeek-V4-Pro-Max.[1][
7][
17] Bảng dưới đây giữ nguyên cách gọi của nguồn để tránh coi các cấu hình khác nhau là cùng một model mặc định.
| Chỉ số | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 / V4-Pro-Max | Kimi K2.6 |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | xhigh 60; high 59.[ | Adaptive Reasoning, Max Effort 57.[ | Phần tóm tắt được cung cấp không có điểm cùng đơn vị.[ | Phần tóm tắt được cung cấp không có điểm cùng đơn vị.[ |
| BrowseComp | 84,4%.[ | 79,3%.[ | DeepSeek-V4-Pro-Max 83,4%.[ | Chưa thấy điểm cùng bảng bốn bên. |
| Terminal-Bench 2.0 | 82,7%.[ | 69,4%.[ | 67,9%.[ | 66,70%, nhưng đến từ bảng so Kimi K2.6 với Claude Opus 4.6 và GPT-5.4, không phải cùng bảng bốn bên.[ |
| SWE-Bench Pro | 58,6%.[ | 64,3%.[ | DeepSeek V4 Pro 55,4%.[ | 58,60%, nhưng Verdent ghi rằng số này dùng Moonshot in-house harness và không phải so trực tiếp với GPT-5.5, Claude Opus 4.7, DeepSeek V4 trong cùng điều kiện.[ |
| GPQA Diamond | 93,6%.[ | 94,2%.[ | DeepSeek-V4-Pro-Max 90,1%.[ | Chưa thấy điểm cùng bảng bốn bên. |
| Humanity’s Last Exam, no tools | 41,4%; GPT-5.5 Pro là 43,1%.[ | 46,9%.[ | 37,7%.[ | Chưa thấy điểm cùng bảng bốn bên. |
| Giá API đầu vào / đầu ra, mỗi 1 triệu token | 5 / 30 USD; context window 1 triệu token.[ | 5 / 25 USD; context window 1 triệu token.[ | 1,74 / 3,48 USD; context window 1 triệu token.[ | Nguồn được cung cấp chưa có giá cùng đơn vị; DocsBot ghi context 256K.[ |
1. Nếu chỉ nhìn Intelligence Index, GPT-5.5 đang đứng trước trong phần dữ liệu thấy được
Artificial Analysis liệt kê nhóm dẫn đầu Intelligence Index như sau: GPT-5.5 xhigh đạt 60, GPT-5.5 high đạt 59, Claude Opus 4.7 Adaptive Reasoning, Max Effort đạt 57; phía sau còn có Gemini 3.1 Pro Preview và GPT-5.4 xhigh cùng mức 57.[2]
Kết luận hợp lý chỉ nên dừng ở mức hẹp: trong phần tóm tắt Intelligence Index có thể thấy, GPT-5.5 đứng trên Claude Opus 4.7.[2] Không nên từ đó suy ra thứ hạng tổng thể của cả bốn mô hình, vì cùng phần tóm tắt không đưa ra điểm Intelligence Index cùng đơn vị cho DeepSeek V4 và Kimi K2.6.[
2]
2. Agent duyệt web và terminal: GPT-5.5 mạnh nhất, DeepSeek rất sát ở BrowseComp
BrowseComp thiên về đo năng lực web browsing dạng agent, tức mô hình tự tìm, đọc và tổng hợp thông tin trên web trong các bài kiểm tra có cấu trúc chặt. VentureBeat ghi kết quả: GPT-5.5 đạt 84,4%, DeepSeek-V4-Pro-Max đạt 83,4%, Claude Opus 4.7 đạt 79,3%.[7] Với nhóm tác vụ này, DeepSeek-V4-Pro-Max chỉ kém GPT-5.5 một khoảng nhỏ, còn Claude Opus 4.7 thấp hơn trong cùng bảng.[
7]
Khoảng cách rõ hơn ở Terminal-Bench 2.0. VentureBeat ghi GPT-5.5 đạt 82,7%, Claude Opus 4.7 đạt 69,4%, DeepSeek đạt 67,9%; Yahoo / Investing.com cũng mô tả Terminal-Bench 2.0 là bài kiểm tra các workflow dòng lệnh và nêu điểm GPT-5.5 là 82,7%.[7][
31]
Kimi K2.6 có số Terminal-Bench 2.0 là 66,70%, nhưng nguồn này so Kimi K2.6 với Claude Opus 4.6 và GPT-5.4, không phải GPT-5.5, Claude Opus 4.7 và DeepSeek V4 trong cùng một bảng.[4]
3. Coding và SWE: Claude cao hơn ở SWE-Bench Pro, nhưng workflow dùng công cụ là chuyện khác
Bảng so sánh DeepSeek V4 của DataCamp ghi SWE-Bench Pro như sau: DeepSeek V4 Pro 55,4%, GPT-5.5 58,6%, Claude Opus 4.7 64,3%.[17] Yahoo / Investing.com cũng nêu GPT-5.5 đạt 58,6% trên SWE-Bench Pro, bài đánh giá khả năng xử lý issue trên GitHub.[
31]
Riêng Kimi K2.6 đáng được nhìn như một ứng viên coding-agent riêng. Verdent ghi Kimi K2.6 đạt 58,60% trên SWE-Bench Pro, 80,20% trên SWE-Bench Verified và 89,60% trên LiveCodeBench v6; nhưng cùng nguồn nói các số của Kimi K2.6 đến từ model card chính thức của Moonshot AI, và SWE-Bench Pro dùng Moonshot in-house harness.[4] Vì thế, Kimi K2.6 có thể được đưa vào vòng thử nghiệm coding-agent, nhưng không nên dùng các con số này để ép vào một bảng tổng sắp bốn bên.[
4]
Trong thực tế, nếu bài toán là sửa repo lớn, review code hoặc chạy coding agent nhiều bước, một điểm SWE đơn lẻ không đủ. Claude Opus 4.7 cao nhất trong so sánh SWE-Bench Pro nhìn thấy được; GPT-5.5 dẫn ở Terminal-Bench 2.0, vốn gần hơn với quy trình dùng công cụ dài; Kimi K2.6 cần được kiểm tra lại trên chính repo, toolchain và quy trình triển khai của bạn.[17][
7][
4]
4. Suy luận khó và rà soát: lợi thế của Claude Opus 4.7 rõ hơn
VentureBeat ghi GPQA Diamond: Claude Opus 4.7 đạt 94,2%, GPT-5.5 đạt 93,6%, DeepSeek-V4-Pro-Max đạt 90,1%. Cùng nguồn ghi Humanity’s Last Exam no tools: Claude Opus 4.7 đạt 46,9%, GPT-5.5 đạt 41,4%, GPT-5.5 Pro đạt 43,1%, DeepSeek-V4-Pro-Max đạt 37,7%.[7]
Kết luận của LLM Stats cũng đi cùng hướng: trong 10 benchmark mà cả hai nhà cung cấp cùng báo cáo, Claude Opus 4.7 dẫn 6 benchmark, GPT-5.5 dẫn 4 benchmark. Lợi thế của Claude tập trung ở nhóm reasoning-heavy và review-grade tests, còn GPT-5.5 nổi bật hơn ở nhóm long-running tool-use tests.[3]
5. Giá và context: DeepSeek V4 có lợi thế chi phí rõ nhất
Trong API, token vừa là đơn vị độ dài văn bản vừa là đơn vị tính phí. Mashable ghi giá của DeepSeek V4 là 1,74 USD cho mỗi 1 triệu token đầu vào và 3,48 USD cho mỗi 1 triệu token đầu ra, với context window 1 triệu token. Cùng bảng ghi GPT-5.5 là 5 USD đầu vào và 30 USD đầu ra cho mỗi 1 triệu token, còn Claude Opus 4.7 là 5 USD đầu vào và 25 USD đầu ra cho mỗi 1 triệu token, cùng context window 1 triệu token.[1]
DataCamp cũng dùng cùng đơn vị giá và ghi DeepSeek V4 Pro, GPT-5.5, Claude Opus 4.7 đều có context window khoảng 1 triệu token.[17] Trong các giá công khai này, DeepSeek V4 thấp hơn rõ rệt so với GPT-5.5 và Claude Opus 4.7. Khi kết hợp với việc DeepSeek-V4-Pro-Max đạt 83,4% trên BrowseComp, rất gần GPT-5.5 ở mức 84,4%, DeepSeek V4 trở thành ứng viên đáng thử sớm cho các tuyến API nhạy cảm với chi phí.[
1][
7][
17]
Với Kimi K2.6, các nguồn được cung cấp chưa có giá API cùng đơn vị. DocsBot mô tả Kimi K2.6 có context 256K và là mô hình agentic mã nguồn mở hướng tới long-horizon coding, coding-driven design, autonomous execution và swarm-based orchestration.[5]
Cách triển khai thực tế: đừng chọn một model duy nhất, hãy định tuyến
Với đa số nhóm sản phẩm và kỹ thuật, đáp án thực dụng không phải là chỉ mua một mô hình. Cách an toàn hơn là xây lớp định tuyến model và bộ test hồi quy riêng:
- Dùng GPT-5.5 làm mốc cao cấp cho agentic tool-use. Mô hình này có số công khai mạnh trên BrowseComp và Terminal-Bench 2.0; OpenAI cũng nêu GPT-5.5 đạt 84,9% trên GDPval, 78,7% trên OSWorld-Verified và 98,0% trên Tau2-bench Telecom, các benchmark liên quan tới công việc tri thức và vận hành công cụ.[
7][
23]
- Dùng Claude Opus 4.7 cho suy luận, rà soát và tác vụ ít dung sai lỗi. Claude Opus 4.7 dẫn trên GPQA Diamond, Humanity’s Last Exam no tools và nhóm reasoning-heavy / review-grade tests theo LLM Stats.[
7][
3]
- Dùng DeepSeek V4 để giảm chi phí API lưu lượng lớn. Giá token công khai của DeepSeek V4 thấp hơn GPT-5.5 và Claude Opus 4.7, trong khi điểm BrowseComp rất sát GPT-5.5.[
1][
7]
- Đưa Kimi K2.6 vào nhóm thử nghiệm coding-agent mã nguồn mở. Kimi K2.6 có các chỉ số coding và agentic đáng chú ý, nhưng hiện thiếu benchmark công khai cùng điều kiện với GPT-5.5, Claude Opus 4.7 và DeepSeek V4; vì vậy nên kiểm tra bằng repo, công cụ và điều kiện triển khai của chính bạn.[
4][
5]
Những giới hạn cần nhớ
- Không phải mô hình nào cũng có benchmark cùng sân, cùng cấu hình. GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max có một phần số liệu trong cùng bảng VentureBeat; Kimi K2.6 chủ yếu xuất hiện trong bảng khác, so với Claude Opus 4.6 và GPT-5.4.[
7][
4]
- Cấu hình model có thể khác nhau. Artificial Analysis tách GPT-5.5 thành xhigh / high, Claude Opus 4.7 là Adaptive Reasoning, Max Effort; VentureBeat dùng DeepSeek-V4-Pro-Max. Các cấu hình này không nhất thiết tương đương chế độ API mặc định.[
2][
7]
- Điểm tự báo cáo và điểm bên thứ ba không nên được coi là một. LLM Stats nhấn mạnh một phần điểm của GPT-5.5 và Claude Opus 4.7 là do nhà cung cấp tự báo cáo ở tier suy luận cao, có thể so về hình dạng nhưng không đồng nhất về phương pháp.[
3]
- Benchmark công khai chỉ giúp ưu tiên thứ tự thử nghiệm. BrowseComp thiên về agent duyệt web, Terminal-Bench 2.0 thiên về workflow dòng lệnh, SWE-Bench Pro thiên về xử lý issue trên GitHub; chúng không thay thế được bộ đánh giá trên tác vụ thật của bạn.[
7][
31]
Kết luận
Nếu chỉ dùng dữ liệu công khai hiện có để sàng lọc ban đầu, GPT-5.5 là ứng viên mạnh nhất cho agentic tool-use và phần xếp hạng tổng hợp nhìn thấy được; Claude Opus 4.7 là một trong những lựa chọn mạnh nhất cho suy luận và review-grade tasks; DeepSeek V4 là ứng viên có sức hút lớn nhất về giá; còn Kimi K2.6 nên nằm trong nhóm thử nghiệm mã nguồn mở / coding-agent, nhưng hiện chưa đủ dữ liệu để xếp công bằng vào một bảng tổng sắp bốn bên.[2][
3][
1][
4][
5]
Trước khi mua hoặc đưa vào sản phẩm, hãy chạy cùng một bộ tác vụ thật: cùng prompt, cùng quyền dùng công cụ, cùng độ dài ngữ cảnh và cùng tiêu chí thành công. Benchmark công khai giúp bạn biết nên thử ai trước; lựa chọn cuối cùng vẫn nên dựa trên tình huống sản phẩm, chi phí lỗi và chi phí token của chính bạn.[3][
7][
31]




