Nhìn leaderboard AI năm 2026 rất dễ bị hoa mắt: cùng là benchmark coding, reasoning hay agent, nhưng chỉ cần khác phiên bản model, khác bộ test hoặc khác cách chạy là kết luận đã có thể lệch. Với bộ nguồn hiện có, phép so sánh chắc tay nhất là Claude Opus 4.7 với GPT-5.5, vì hai model này cùng xuất hiện trong các bảng benchmark của OpenAI và Vellum [5][
2].
Ngược lại, DeepSeek V4 và Kimi K2.6 chưa có số liệu trực tiếp trong các nguồn được cung cấp. Những dữ liệu gần nhất chỉ nhắc đến DeepSeek V3.2, KimiK2.5 và Kimi K2 Thinking, nên không đủ để xếp hạng công bằng với Claude Opus 4.7 hoặc GPT-5.5 [1][
13][
6].
Tóm tắt nhanh
- GPT-5.5 có tín hiệu mạnh nhất ở terminal/CLI, tác vụ văn phòng, browser/search và một số benchmark toán trong dữ liệu hiện có [
5][
2].
- Claude Opus 4.7 nổi bật hơn ở SWE-Bench Pro Public, MCP Atlas/tool orchestration và FinanceAgent v1.1 trong các benchmark cùng bảng [
5][
2].
- DeepSeek V4 và Kimi K2.6 chưa nên được đưa vào cùng một bảng xếp hạng trực tiếp nếu không có số benchmark đúng phiên bản model [
1][
13][
6].
Những con số có thể đặt cạnh nhau
Bảng dưới đây chỉ ghép Claude Opus 4.7 và GPT-5.5 khi hai model được báo cáo trên cùng benchmark. GPT-5.5 Pro chỉ được nhắc đến khi nguồn tách riêng biến thể này [2].
| Nhu cầu sản phẩm | Benchmark | Kết quả được báo cáo | Cách đọc |
|---|---|---|---|
| Sửa lỗi code trong repo | SWE-Bench Pro Public | Claude Opus 4.7 64,3% vs GPT-5.5 58,6% [ | Claude dẫn ở benchmark này. |
| Agent terminal/CLI | Terminal-Bench 2.0 | GPT-5.5 82,7% vs Claude Opus 4.7 69,4% [ | GPT-5.5 có lợi thế rõ nhất ở nhóm terminal. |
| Công việc chuyên môn/văn phòng | GDPval; OfficeQA Pro | GPT-5.5 84,9% vs Claude 80,3% ở GDPval; GPT-5.5 54,1% vs Claude 43,6% ở OfficeQA Pro [ | GPT-5.5 mạnh hơn trên hai thước đo công việc chuyên môn này. |
| Agent tài chính | FinanceAgent v1.1 | Claude 64,4% vs GPT-5.5 60,0% [ | Claude dẫn ở eval finance agent này. |
| Tác vụ máy tính/trình duyệt | OSWorld-Verified; BrowseComp | GPT-5.5 78,7% vs Claude 78,0% ở OSWorld; GPT-5.5 84,4% và GPT-5.5 Pro 90,1% vs Claude 79,3% ở BrowseComp [ | OSWorld gần như ngang nhau; GPT-5.5 cao hơn ở BrowseComp. |
| Điều phối công cụ | MCP Atlas | Claude 79,1% vs GPT-5.5 75,3% [ | Claude có lợi thế trong kịch bản dùng nhiều tool/MCP. |
| Suy luận khoa học và toán | GPQA Diamond; FrontierMath T1–3 | Claude 94,2% vs GPT-5.5 93,6% ở GPQA; GPT-5.5 51,7% và GPT-5.5 Pro 52,4% vs Claude 43,8% ở FrontierMath [ | GPQA rất sát nhau; GPT-5.5 dẫn ở FrontierMath. |
Đọc benchmark thế nào để khỏi kết luận nhầm
1. Đừng trộn SWE-Bench Pro với SWE-bench Verified
OpenAI dùng SWE-Bench Pro Public trong bảng head-to-head GPT-5.5 và Claude Opus 4.7 [5]. Benchmark này không đồng nghĩa với SWE-bench Verified. BenchLM mô tả SWE-bench Verified là tập con đã được con người xác thực của SWE-bench, dùng để kiểm tra khả năng model xử lý issue GitHub thật từ các repo Python phổ biến như Django, Flask và scikit-learn [
21].
Vì vậy, con số Claude 64,3% trên SWE-Bench Pro Public không nên được so thẳng với một điểm Claude khác trên SWE-bench Verified từ leaderboard khác nếu chưa đối chiếu tên benchmark, harness, thời điểm đánh giá và cấu hình model [5][
21].
2. GPQA Diamond không còn là thước đo phân hạng sắc như trước
Vellum ghi Claude Opus 4.7 đạt 94,2% và GPT-5.5 đạt 93,6% trên GPQA Diamond [2]. The Next Web cũng báo Claude Opus 4.7 ở 94,2%, GPT-5.4 Pro ở 94,4% và Gemini 3.1 Pro ở 94,3%, rồi nhận định chênh lệch giữa các model frontier này nằm trong vùng nhiễu [
17].
Nói cách khác, GPQA vẫn hữu ích như tín hiệu reasoning tổng quát, nhưng không nên là tiêu chí duy nhất để chọn model cho sản phẩm.
3. Leaderboard bên thứ ba có thể cho số khác nhau
Ngay trên SWE-bench Verified, điểm Claude Opus 4.7 cũng không hoàn toàn giống nhau giữa các nguồn. BenchLM báo Claude Opus 4.7 Adaptive đạt 87,6% vào ngày 24/4/2026 [21]. LLM Stats cũng nêu 87,6% [
18]. Nhưng LM Council ghi Claude Opus 4.7 max ở 83,5% ±1,7 [
10], còn MindStudio nói 82,4% [
14].
Sự khác biệt này không tự động có nghĩa là một bên sai. Thường nó đến từ cấu hình model, harness đánh giá, ngày chạy test, số lần retry hoặc cách bật reasoning mode. Với nhóm engineering, điểm công khai nên được xem như danh sách rút gọn ban đầu, không phải thay thế cho bài test trên repo, dữ liệu và workflow thật của mình.
Claude Opus 4.7: nổi bật ở sửa repo và điều phối nhiều tool
Tín hiệu mạnh nhất của Claude Opus 4.7 nằm ở coding repair và agent dùng nhiều công cụ. Trong bảng của OpenAI, Claude vượt GPT-5.5 ở SWE-Bench Pro Public, 64,3% so với 58,6%, và ở FinanceAgent v1.1, 64,4% so với 60,0% [5]. Vellum cũng báo Claude dẫn ở MCP Atlas, 79,1% so với GPT-5.5 75,3% [
2].
Anthropic còn nêu các đánh giá đối tác liên quan đến agentic workflows. Trong thông báo ra mắt Claude Opus 4.7, Anthropic trích Hebbia cho biết độ chính xác của tool calls và planning trong orchestrator agents tăng hai chữ số; Rakuten-SWE-Bench thì báo Opus 4.7 giải được số production tasks nhiều gấp 3 lần Opus 4.6, cùng mức tăng hai chữ số ở Code Quality và Test Quality [19]. Đây là tín hiệu sản phẩm đáng chú ý, nhưng vẫn khác với đánh giá độc lập trên workload nội bộ của từng tổ chức.
Nếu ưu tiên của bạn là autonomous repo repair, MCP hoặc workflow multi-tool dài hơi, Claude Opus 4.7 đáng được đưa vào vòng thử nghiệm đầu tiên. Tuy nhiên, kết quả công khai vẫn cần được kiểm chứng lại bằng test suite, permission model và cách tool call thật sự vận hành trong hệ thống của bạn.
GPT-5.5: mạnh ở terminal, browser/search, office và một số bài toán
Lợi thế rõ nhất của GPT-5.5 nằm ở Terminal-Bench 2.0. OpenAI báo GPT-5.5 đạt 82,7%, so với Claude Opus 4.7 ở 69,4% và Gemini 3.1 Pro ở 68,5% [5]. Trong cùng bảng, GPT-5.5 cũng cao hơn Claude ở GDPval wins/ties, 84,9% so với 80,3%, và OfficeQA Pro, 54,1% so với 43,6% [
5].
Vellum bổ sung thêm bức tranh cho computer-use, search và reasoning. GPT-5.5 nhỉnh hơn Claude trên OSWorld-Verified, 78,7% so với 78,0%; cao hơn trên BrowseComp, 84,4% so với 79,3%; và cao hơn trên FrontierMath T1–3, 51,7% so với 43,8% [2]. Với BrowseComp, Vellum còn báo GPT-5.5 Pro đạt 90,1% [
2].
Ở coding, bức tranh không một chiều. GPT-5.5 rất mạnh trên Terminal-Bench 2.0, nhưng thấp hơn Claude Opus 4.7 trên SWE-Bench Pro Public trong bảng của OpenAI [5]. OpenAI System Card cũng mô tả CoT-Control cho GPT-5.5, một suite đánh giá gồm hơn 13.000 task xây từ các benchmark như GPQA, MMLU-Pro, HLE, BFCL và SWE-Bench Verified [
26]. Tuy vậy, nguồn này không đưa ra so sánh trực tiếp với DeepSeek V4 hoặc Kimi K2.6 [
26].
DeepSeek V4 và Kimi K2.6: chưa đủ bằng chứng để xếp hạng
Với DeepSeek V4, các nguồn hiện có không cung cấp benchmark trực tiếp. Dữ liệu gần nhất lại là DeepSeek V3.2: MangoMind xếp DeepSeek V3.2 trong nhóm khuyến nghị coding tháng 4/2026 với 89,2% SWE-bench, thấp hơn Claude Opus 4.6 93,2% và GPT-5.4 Pro 91,1% [1]. Con số của DeepSeek V3.2 không thể dùng để kết luận hiệu năng của DeepSeek V4.
Với Kimi K2.6, tình hình tương tự. Stanford HAI nhắc KimiK2.5 nằm trong nhóm model đạt 70%–76% trên SWE-bench Verified tính đến tháng 2/2026 [13]. Siliconflow liệt kê Kimi K2 Thinking với GPQA 84,5 và SWE Bench 71,3 [
6]. Cả hai đều không phải Kimi K2.6, nên chỉ có giá trị tham khảo bối cảnh hệ sinh thái Kimi, không phải bằng chứng benchmark trực tiếp cho model được hỏi.
Gợi ý kiểm thử cho nhóm sản phẩm
| Nếu nhu cầu chính của bạn là... | Model nên thử trước | Cơ sở bằng chứng | Lưu ý |
|---|---|---|---|
| Coding agent chạy terminal/CLI | GPT-5.5 | Terminal-Bench 2.0: GPT-5.5 82,7% vs Claude 69,4% [ | Test lại trong shell environment, permission model và CI/CD nội bộ. |
| Sửa lỗi repo tự động | Claude Opus 4.7, rồi GPT-5.5 làm đối chứng | SWE-Bench Pro Public: Claude 64,3% vs GPT-5.5 58,6% [ | Đừng trộn với SWE-bench Verified nếu chưa khớp harness [ |
| MCP hoặc điều phối nhiều tool | Claude Opus 4.7 | MCP Atlas: Claude 79,1% vs GPT-5.5 75,3% [ | Kiểm chứng bằng tool schema, retry logic và access policy của bạn. |
| Browser/search agent | GPT-5.5 hoặc GPT-5.5 Pro | BrowseComp: GPT-5.5 84,4%, GPT-5.5 Pro 90,1%, Claude 79,3% [ | BrowseComp không đại diện cho mọi nhu cầu nghiên cứu nội bộ. |
| Workflow tài chính/chuyên môn | Split test Claude và GPT-5.5 | Claude dẫn FinanceAgent v1.1, nhưng GPT-5.5 dẫn GDPval và OfficeQA Pro [ | MindStudio lưu ý khoảng cách từ benchmark finance đến tool triển khai thật thường nằm ở hạ tầng end-to-end, không chỉ ở intelligence của model [ |
| Suy luận khoa học tổng quát | Không chọn chỉ dựa vào GPQA | Điểm GPQA Diamond của Claude và GPT-5.5 rất sát nhau trong bảng Vellum [ | Dùng eval riêng theo domain, nhất là khi nhiệm vụ khác đề benchmark. |
Kết luận
Nếu chỉ dựa trên bằng chứng head-to-head hiện có, GPT-5.5 là ứng viên mạnh hơn cho terminal/CLI agent, browser/search, office tasks và một số benchmark toán [5][
2]. Claude Opus 4.7 là ứng viên nổi bật hơn cho SWE-Bench Pro Public, MCP/tool orchestration và FinanceAgent v1.1 [
5][
2].
DeepSeek V4 và Kimi K2.6 chưa thể được xếp hạng công bằng với hai model trên trong bộ nguồn này. Dữ liệu hiện có nói về các phiên bản khác — DeepSeek V3.2, KimiK2.5 và Kimi K2 Thinking — nên các tuyên bố rằng DeepSeek V4 hoặc Kimi K2.6 vượt Claude Opus 4.7 hay GPT-5.5 chưa được hỗ trợ bằng số benchmark trực tiếp ở đây [1][
13][
6].




