Muốn so DeepSeek V4, Kimi K2.6, Claude Opus 4.7 và GPT-5.5, điều đầu tiên không phải là nhìn xem ai “đứng đầu bảng”, mà là hỏi: số liệu đó đến từ đâu?
Trong nhóm này, GPT-5.5 có vài con số chính thức từ OpenAI, nhất là Terminal-Bench 2.0 và SWE-Bench Pro [24]. DeepSeek thì xác nhận V4-Pro và V4-Flash đã có trên API, nhưng nguồn chính thức chưa đưa ra một ma trận benchmark đầy đủ để đối chiếu trực tiếp với Kimi K2.6, Claude Opus 4.7 và GPT-5.5 [
25]. Còn nhiều số liệu về Claude Opus 4.7 và Kimi K2.6 trong bài này đến từ nguồn phân tích bên thứ ba, nên cần đọc với mức thận trọng tương ứng [
4][
6].
Tóm nhanh theo nhu cầu sử dụng
- Sửa lỗi code, xử lý GitHub issue: Claude Opus 4.7 có vẻ nhỉnh hơn GPT-5.5 trong các số liệu SWE-Bench, SWE-Bench Verified và CursorBench được trích dẫn từ LushBinary [
4].
- Terminal agent, workflow dòng lệnh, điều phối công cụ: GPT-5.5 là lựa chọn có bằng chứng chính thức rõ nhất, với 82,7% trên Terminal-Bench 2.0 theo OpenAI [
24].
- Coding agent cần tối ưu chi phí: Kimi K2.6 được CodeRouter gọi là lựa chọn thắng về giá/chất lượng, với 0,60 USD input và 4,00 USD output cho mỗi một triệu token [
6].
- DeepSeek V4: V4-Pro và V4-Flash đã có trên DeepSeek API, nhưng trong các nguồn đang xét chưa có bảng benchmark chính thức đủ để kết luận mô hình này thắng hay thua cả ba đối thủ còn lại [
25].
Những gì nguồn dữ liệu thật sự cho phép kết luận
OpenAI mô tả Terminal-Bench 2.0 là benchmark kiểm tra các workflow dòng lệnh phức tạp, cần lập kế hoạch, lặp lại và phối hợp công cụ; GPT-5.5 đạt 82,7% trên benchmark này theo công bố của OpenAI [24]. Trên SWE-Bench Pro, benchmark đánh giá khả năng giải quyết các issue GitHub thực tế, OpenAI nêu kết quả 58,6% cho GPT-5.5 [
24].
Với DeepSeek V4, tài liệu changelog chính thức cho biết V4-Pro và V4-Flash đã dùng được qua giao diện OpenAI ChatCompletions và giao diện Anthropic; tham số model lần lượt là deepseek-v4-pro và deepseek-v4-flash [25]. Điều này chứng minh khả năng truy cập API, nhưng chưa chứng minh chiến thắng benchmark.
Với Claude Opus 4.7 và Kimi K2.6, phần so sánh trực tiếp trong các nguồn hiện có nên được hiểu là dữ liệu tham khảo: LushBinary đưa ra các số liệu Claude so với GPT-5.5, còn CodeRouter đưa ra nhận định về giá và vị trí của Kimi K2.6, DeepSeek V4 [4][
6].
Bảng so sánh các số liệu có căn cứ
“K. có” nghĩa là trong các nguồn được cung cấp chưa có con số đủ rõ và đủ trực tiếp cho tổ hợp mô hình–benchmark đó.
| Benchmark / tiêu chí | DeepSeek V4 | Kimi K2.6 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| SWE-Bench Pro | K. có | được CodeRouter xếp ở mức ngang GPT-5.5 [ | 64,3% [ | 58,6% [ |
| SWE-Bench Verified | K. có | K. có | 87,6% [ | khoảng 85% [ |
| Terminal-Bench 2.0 | K. có | K. có | khoảng 72% [ | 82,7% [ |
| GDPval / Knowledge Work | K. có | K. có | khoảng 78% [ | 84,9% [ |
| OSWorld-Verified / Computer Use | K. có | K. có | khoảng 65% [ | 78,7% [ |
| GPQA Diamond | K. có | K. có | 94,2% [ | khoảng 93% [ |
| CursorBench | K. có | K. có | 70% [ | khoảng 65% [ |
| Tau2-bench Telecom | K. có | K. có | khoảng 90% [ | 98,0% [ |
| Vision & Document Arena | K. có | K. có | đứng số 1 theo báo cáo Arena được trích dẫn [ | K. có |
| Ghi chú giá / context | V4 Flash: 0,14 USD input / 0,28 USD output mỗi triệu token và context 1M [ | 0,60 USD input / 4,00 USD output mỗi triệu token [ | K. có | K. có |
Coding: Claude Opus 4.7 sáng nhất, Kimi K2.6 là ứng viên tiết kiệm
Nếu ưu tiên hàng đầu là coding, đặc biệt là sửa lỗi trong repository thật, bộ số liệu được trích dẫn đang nghiêng về Claude Opus 4.7. LushBinary nêu Claude Opus 4.7 đạt 64,3% trên SWE-Bench Pro, cao hơn mức 58,6% của GPT-5.5; riêng mức 58,6% của GPT-5.5 cũng được OpenAI xác nhận trong công bố chính thức [4][
24]. Trên SWE-Bench Verified và CursorBench, Claude Opus 4.7 cũng đứng trên GPT-5.5 trong nguồn thứ ba này [
4].
Kimi K2.6 vẫn rất đáng để các nhóm kỹ thuật đưa vào bài test riêng. CodeRouter cho rằng Kimi K2.6 đạt mức SWE-Bench Pro ngang GPT-5.5, đồng thời có giá token thấp hơn nhiều trong so sánh của họ [6]. Đây không phải là lý do để bỏ qua đánh giá nội bộ, nhưng là tín hiệu đáng chú ý nếu nhóm phải chạy nhiều lượt agent, nhiều bản nháp hoặc nhiều lần retry.
Với DeepSeek V4, nguồn chính thức hiện có chưa cho phép rút ra kết luận về benchmark coding. Điều đã được xác nhận là V4-Pro và V4-Flash có mặt trên DeepSeek API [25].
Terminal agent và computer use: GPT-5.5 có bằng chứng rõ nhất
Ở nhóm tác vụ kiểu terminal agent, GPT-5.5 là mô hình được hậu thuẫn tốt nhất bằng số liệu công khai trong các nguồn này. OpenAI công bố GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0 và mô tả benchmark này là bài kiểm tra workflow dòng lệnh phức tạp, đòi hỏi lập kế hoạch, lặp lại và phối hợp công cụ [24]. Trong cùng benchmark, LushBinary đặt Claude Opus 4.7 ở khoảng 72% [
4].
Các chỉ số về knowledge work và computer use trong nguồn thứ ba cũng nghiêng về GPT-5.5: 84,9% trên GDPval so với khoảng 78% của Claude Opus 4.7, và 78,7% trên OSWorld-Verified so với khoảng 65% của Claude Opus 4.7 [4]. Vì vậy, nếu bài toán của bạn xoay quanh lệnh shell, orchestration nhiều công cụ hoặc tác vụ gần với giao diện máy tính, GPT-5.5 là điểm xuất phát có căn cứ nhất.
Vision và tài liệu: Claude Opus 4.7 có tín hiệu tích cực nhất
Với tác vụ hình ảnh và tài liệu, các nguồn được cung cấp không có bảng so sánh đầy đủ cả bốn mô hình. Tín hiệu rõ nhất thuộc về Claude Opus 4.7: một báo cáo Arena được Latent Space/AINews trích dẫn cho biết Claude Opus 4.7 đứng số 1 trong Vision & Document Arena [1].
LLM Stats cũng cho biết Claude Opus 4.7 có thể xử lý ảnh với cạnh dài tới 2.576 pixel, tương đương khoảng 3,75 megapixel; GPT-5.5 hỗ trợ input hình ảnh và được nêu điểm MMMU-Pro 81,2% khi không dùng công cụ, 83,2% khi có công cụ [5]. Các số liệu này giúp định vị Claude so với GPT-5.5 ở mảng multimodal, nhưng chưa thay thế được một so sánh trực tiếp đầy đủ với Kimi K2.6 và DeepSeek V4.
Giá/hiệu năng: Kimi K2.6 và DeepSeek V4 Flash nên có trong bài thử riêng
Lập luận giá mạnh nhất trong bộ nguồn này thuộc về Kimi K2.6. CodeRouter mô tả Kimi K2.6 là lựa chọn thắng về chi phí/chất lượng, với 0,60 USD input và 4,00 USD output cho mỗi một triệu token [6].
DeepSeek V4 Flash cũng được CodeRouter mô tả là một lựa chọn “workhorse” rất rẻ, với 0,14 USD input và 0,28 USD output cho mỗi một triệu token, kèm context 1M [6]. Tài liệu DeepSeek chính thức xác nhận thêm rằng V4-Pro và V4-Flash đã dùng được qua các giao diện API hiện tại [
25].
Tuy vậy, giá rẻ không đồng nghĩa với thắng benchmark. Một mô hình rẻ có thể rất hấp dẫn cho nhiều lượt thử, tác vụ ít rủi ro hoặc workflow cần sinh nhiều bản nháp. Nhưng khi đưa vào sản xuất, câu hỏi cuối cùng vẫn là: mô hình giải đúng bao nhiêu việc, ổn định đến đâu, cần bao nhiêu lần retry và có tạo thêm chi phí sửa sai hay không.
Cách test bốn mô hình cho công bằng
Đừng chọn mô hình chỉ vì một bảng xếp hạng công khai. Cách thực tế hơn là tạo một bộ eval nhỏ từ chính công việc của bạn: issue trong codebase, tài liệu nội bộ, workflow agent, tác vụ terminal hoặc bài toán xử lý hình ảnh/tài liệu.
Nên đo nhiều hơn “câu trả lời đầu tiên”. Hãy tính chi phí trên mỗi kết quả được chấp nhận, số lần retry, mức độ nghiêm trọng của lỗi, thời gian chạy và khả năng tuân thủ ràng buộc. Một mô hình thắng benchmark nhưng hay phá format, gọi tool sai hoặc tạo lỗi khó phát hiện vẫn có thể đắt hơn trong thực tế.
Cũng cần tách rõ dữ liệu chính thức và dữ liệu thứ cấp. Trong bài này, GPT-5.5 có số liệu OpenAI chính thức cho Terminal-Bench 2.0 và SWE-Bench Pro [24]. DeepSeek V4 có xác nhận chính thức về khả năng dùng qua API [
25]. Còn các nhận định so sánh mạnh nhất cho Claude Opus 4.7 và Kimi K2.6 chủ yếu đến từ nguồn bên thứ ba [
4][
6].
Kết luận
Không có mô hình nào thắng mọi mặt. Claude Opus 4.7 dẫn trước trong các số liệu gần với coding được trích dẫn; GPT-5.5 có bằng chứng mạnh nhất ở Terminal-Bench 2.0, computer use và workflow agent; Kimi K2.6 nổi bật ở câu chuyện giá/hiệu năng; còn DeepSeek V4 là ứng viên API đã sẵn sàng nhưng cần được đo bằng bộ eval riêng trước khi kết luận [4][
24][
6][
25].




