Nhìn riêng các điểm benchmark công khai, việc xếp GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 thành một bảng vàng duy nhất là khá dễ gây hiểu lầm. GPT-5.5 và Claude Opus 4.7 có nhiều con số được đặt cạnh nhau hơn; Kimi K2.6 lại có số từ model card, tức tài liệu mô tả mô hình, và cả harness nội bộ; DeepSeek V4 thì thiếu nhiều điểm chung trên các benchmark coding lớn [1][
2][
5][
6].
Cách đọc thực dụng hơn là: bạn đang cần mô hình cho việc gì, và nên thử mô hình nào trước. Benchmark là bài đo chuẩn; còn harness là bộ kịch bản chạy, cấp công cụ và chấm điểm. Hai mô hình có cùng tên benchmark nhưng chạy khác harness thì không nên xem như so găng tuyệt đối.
Kết luận nhanh theo từng loại việc
- Agent coding trong terminal: nên bắt đầu với GPT-5.5. OpenAI công bố GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0; các bảng công khai đặt Claude Opus 4.7 ở 69,4% và Kimi K2.6 ở 66,7% [
19][
8][
13][
6].
- Sửa lỗi từ issue GitHub thật: Claude Opus 4.7 là ứng viên số một để thử trước. Các nguồn công khai ghi SWE-Bench Pro 64,3% và SWE-Bench Verified 87,6%, trong khi GPT-5.5 đạt 58,6% trên SWE-Bench Pro [
27][
19].
- Ngữ cảnh dài, đa phương thức: đưa Kimi K2.6 vào danh sách thử nghiệm nếu đầu vào gồm văn bản, hình ảnh, video hoặc cần tuyến ngữ cảnh 256k [
7].
- Gọi API hàng loạt, nhạy về chi phí: DeepSeek V4 đáng chú ý về giá. Mashable liệt kê mức 1,74 USD/triệu token đầu vào và 3,48 USD/triệu token đầu ra cho DeepSeek V4, so với GPT-5.5 là 5 USD/30 USD và Claude Opus 4.7 là 5 USD/25 USD [
3]. Tuy vậy, báo cáo hallucination cao của Artificial Analysis là lý do phải có kiểm thử riêng trước khi dùng cho việc cần độ chính xác cao [
2].
Bảng benchmark chính
Dấu — nghĩa là trong các nguồn công khai được cung cấp chưa có con số đối ứng đủ trực tiếp cho cùng benchmark. Nó không có nghĩa mô hình đó không làm được tác vụ này.
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | Cách đọc nhanh |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82,7% [ | 69,4% [ | 66,7% [ | — | Với workflow dòng lệnh, GPT-5.5 có điểm công khai cao nhất. |
| SWE-Bench Pro | 58,6% [ | 64,3% [ | 58,6% [ | — | Nhóm sửa mã và xử lý issue GitHub nghiêng về Claude Opus 4.7. |
| SWE-Bench Verified | — | 87,6% [ | 80,2% [ | — | Trong nguồn hiện có, Claude và Kimi là hai mô hình có số rõ nhất. |
| GPQA Diamond | 93,6% [ | 94,2% [ | — | — | GPT-5.5 và Claude rất sát nhau; số công khai nghiêng nhẹ về Claude. |
| HLE with tools | 52,2% [ | 54,7% [ | 54,0% [ | — | Claude và Kimi cao hơn, nhưng số của Kimi có thể không cùng điều kiện chạy [ |
| BrowseComp | 84,4% [ | 79,3% [ | — | — | Với tác vụ duyệt web và tìm thông tin, GPT-5.5 có điểm cao hơn. |
| OSWorld-Verified | 78,7% [ | 78,0% [ | — | — | Chênh lệch giữa GPT-5.5 và Claude Opus 4.7 rất nhỏ. |
| MCP Atlas | 75,3% [ | 79,1% [ | — | — | Với đánh giá kiểu kết nối công cụ/MCP, Claude Opus 4.7 nhỉnh hơn. |
GPT-5.5: mạnh khi công việc sống trong terminal
OpenAI mô tả Terminal-Bench 2.0 là bài đo các workflow dòng lệnh phức tạp, đòi hỏi lập kế hoạch, lặp lại và phối hợp công cụ; còn SWE-Bench Pro đo khả năng giải quyết issue GitHub trong đời thực [19]. Với 82,7% ở Terminal-Bench 2.0 và 58,6% ở SWE-Bench Pro, GPT-5.5 là lựa chọn đáng thử trước cho các tác vụ như tái hiện lỗi trong CI, chạy script nhiều vòng, chỉnh sửa file, tạo bản vá và tự kiểm tra bằng lệnh shell [
19].
Nhưng không nên suy ra GPT-5.5 thắng mọi bài coding. Ở SWE-Bench Pro, Claude Opus 4.7 được báo cáo 64,3%, cao hơn mức 58,6% của GPT-5.5 [19][
27]. Nếu nhiệm vụ chính là đọc issue, tìm nguyên nhân và sửa repository theo kiểu SWE-Bench, Claude xứng đáng được thử song song hoặc thậm chí thử trước.
Claude Opus 4.7: hợp với sửa mã, rà soát và xử lý issue
DataCamp tổng hợp rằng Claude Opus 4.7 được đánh giá trên 14 benchmark bao gồm coding, suy luận, dùng công cụ, dùng máy tính và suy luận thị giác [27]. Trong nhóm agentic coding, Opus 4.7 đạt SWE-Bench Pro 64,3% và SWE-Bench Verified 87,6% [
27].
Ở các so sánh chung với GPT-5.5, Claude Opus 4.7 cũng nhỉnh hơn trên GPQA Diamond, với 94,2% so với 93,6%, và trên MCP Atlas, với 79,1% so với 75,3% [8][
13]. Chiều ngược lại, GPT-5.5 dẫn ở Terminal-Bench 2.0 và BrowseComp [
8][
13][
19]. Vì vậy, Claude Opus 4.7 không phải đáp án mặc định cho mọi tác vụ agent, nhưng là ứng viên rất mạnh cho sửa lỗi, review, tái cấu trúc và các luồng cần đọc hiểu repository cẩn thận.
Kimi K2.6: điểm đáng chú ý là ngữ cảnh dài và đa phương thức
Kimi K2.6 được giới thiệu với SWE-Bench Pro 58,6% và SWE-Bench Verified 80,2%; một hướng dẫn khác cũng nêu Terminal-Bench 2.0 66,7% và HLE with tools 54,0% [1][
6]. Tuy nhiên, nguồn đó nói các số K2.6 đến từ model card chính thức của Moonshot AI, và riêng SWE-Bench Pro có ghi chú về Moonshot in-house harness [
6].
Vì thế, dù Kimi K2.6 và GPT-5.5 cùng xuất hiện với con số 58,6% trên SWE-Bench Pro, không nên kết luận đây là một trận hòa tuyệt đối trong cùng điều kiện chạy [1][
6][
19]. Lý do thuyết phục hơn để thử Kimi K2.6 là năng lực đầu vào văn bản, hình ảnh, video và tuyến ngữ cảnh 256k được giới thiệu công khai [
7]. Với sản phẩm phải đọc tài liệu dài, ảnh chụp màn hình, video hoặc nhiều lớp ngữ cảnh cùng lúc, Kimi nên nằm trong nhóm thử nghiệm.
DeepSeek V4: giá hấp dẫn, nhưng phải kiểm chứng độ tin cậy
Trong các nguồn được cung cấp, DeepSeek V4 chưa có đủ số trực tiếp để điền công bằng vào những hàng như Terminal-Bench 2.0, SWE-Bench Pro, SWE-Bench Verified hay GPQA Diamond. Thay vào đó, Artificial Analysis cho biết DeepSeek V4 Pro Max đạt -10 trên AA-Omniscience, cải thiện 11 điểm so với V3.2, còn V4 Flash Max đạt -23 [2]. Cùng nguồn này báo cáo tỷ lệ hallucination của V4 Pro và V4 Flash lần lượt là 94% và 96%, kèm diễn giải rằng khi không biết, các mô hình này gần như luôn vẫn đưa ra câu trả lời [
2].
Về cấu trúc, DataCamp mô tả DeepSeek V4 dùng kiến trúc Mixture of Experts. Bản Pro có tổng 1,6 nghìn tỷ tham số, 49 tỷ tham số hoạt động; bản Flash có tổng 284 tỷ tham số, 13 tỷ tham số hoạt động [4]. Về chi phí, mức giá API do Mashable tổng hợp cho DeepSeek V4 thấp hơn GPT-5.5 và Claude Opus 4.7 [
3].
Điều đó khiến DeepSeek V4 đáng cân nhắc cho xử lý hàng loạt, tác vụ có bộ kiểm chứng nội bộ, hoặc các workflow mà chi phí/token là ràng buộc lớn. Nhưng với việc thiếu benchmark chung và có báo cáo hallucination cao, những sản phẩm đòi hỏi độ chính xác phải có đánh giá riêng, hậu kiểm và cơ chế phát hiện lỗi trước khi đưa vào vận hành [2][
3][
4].
Nên thử mô hình nào trước?
| Ca sử dụng | Mô hình nên thử trước | Lý do |
|---|---|---|
| Tự động hóa terminal, agent chạy shell, tái hiện lỗi CI | GPT-5.5 | Terminal-Bench 2.0 ghi GPT-5.5 82,7%, Claude Opus 4.7 69,4% và Kimi K2.6 66,7% trong các nguồn công khai [ |
| Sửa issue GitHub, code repair, tác vụ kiểu SWE-Bench | Claude Opus 4.7 | Claude Opus 4.7 đạt SWE-Bench Pro 64,3% và SWE-Bench Verified 87,6% [ |
| Duyệt web, tìm thông tin, tác vụ kiểu BrowseComp | GPT-5.5 | BrowseComp ghi GPT-5.5 84,4% và Claude Opus 4.7 79,3% [ |
| Tích hợp công cụ/MCP | Claude Opus 4.7 | MCP Atlas ghi Claude Opus 4.7 79,1% và GPT-5.5 75,3% [ |
| Ngữ cảnh rất dài, đầu vào đa phương thức | Kimi K2.6 | Kimi K2.6 được giới thiệu là hỗ trợ văn bản, hình ảnh, video và tuyến ngữ cảnh 256k [ |
| Gọi API số lượng lớn, nhạy về chi phí | DeepSeek V4 | Giá token DeepSeek V4 thấp hơn GPT-5.5 và Claude Opus 4.7 theo Mashable, nhưng cần tính cả báo cáo hallucination cao của Artificial Analysis [ |
Vì sao chưa thể gọi tên nhà vô địch chung?
Thứ nhất, chưa có đủ so sánh độc lập đặt cả bốn mô hình vào cùng prompt, cùng quyền truy cập công cụ, cùng ngân sách suy luận và cùng bộ chấm điểm. GPT-5.5 và Claude Opus 4.7 có nhiều số chung hơn, nhưng Kimi K2.6 trộn số từ model card và harness riêng, còn DeepSeek V4 thiếu nhiều hàng benchmark đối ứng [1][
2][
5][
6].
Thứ hai, cùng một tên benchmark vẫn có thể chạy khác điều kiện. Một phân tích về GPT-5.5 và Claude Opus 4.7 nhận xét các điểm số có thể so sánh về hình thức, nhưng không nhất thiết giống nhau về phương pháp luận [5]. Anthropic cũng nói rõ họ dùng Terminus-2 harness, tắt thinking và áp dụng điều kiện tài nguyên cụ thể khi đánh giá Terminal-Bench 2.0 [
31].
Thứ ba, benchmark chỉ là một lát cắt của chất lượng sản phẩm. Khi đưa mô hình vào ứng dụng thật, bạn còn phải đo cách mô hình thất bại, hallucination, độ trễ, chi phí, độ ổn định khi gọi công cụ, chính sách an toàn và khả năng tái hiện log. ExplainX cũng cảnh báo rằng định nghĩa leaderboard, prompt và chính sách công cụ có thể làm điểm số thay đổi, nên không thể thay thế bộ đánh giá riêng của đội sản phẩm [28].
Điểm chốt
Nếu chỉ dựa trên bằng chứng công khai hiện có, chiến lược hợp lý là: GPT-5.5 cho agent coding trong terminal, Claude Opus 4.7 cho sửa mã và xử lý issue kiểu SWE-Bench, Kimi K2.6 cho ngữ cảnh dài đa phương thức, và DeepSeek V4 cho workload lớn nhạy về chi phí nhưng có kiểm chứng riêng [19][
27][
7][
3]. Còn danh hiệu mô hình mạnh nhất toàn diện thì nên để ngỏ, vì điểm số có thể đổi theo prompt, quyền dùng công cụ, thiết lập suy luận và harness đánh giá [
5][
28][
31].




