Một bảng xếp hạng kiểu “ai số 1” nghe rất hấp dẫn, nhưng với nhóm mô hình này thì dễ gây hiểu nhầm. Các nguồn hiện có không đặt GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 vào cùng một bài kiểm tra độc lập, cùng cấu hình, cùng thời điểm. Thay vào đó, dữ liệu đến từ nhiều lát cắt benchmark, nhiều biến thể mô hình, cùng các phân tích từ nhà cung cấp hoặc bên thứ ba [2][
3][
7][
21].
Dù vậy, vẫn có thể rút ra một bức tranh thực dụng: GPT-5.5 là mô hình có vị thế tổng thể được chứng minh tốt nhất, Claude Opus 4.7 rất mạnh ở lập trình và kiến thức, DeepSeek V4 nổi bật nhờ chi phí thấp trong khi hiệu năng BrowseComp rất sát nhóm đầu, còn Kimi K2.6 hấp dẫn về mặt kỹ thuật nhưng chưa đủ số liệu trực tiếp để xếp cùng bảng [1][
2][
3][
7][
22][
24].
Kết luận nhanh
GPT-5.5 là lựa chọn “toàn diện” có nhiều bằng chứng nhất. Trong lát cắt Artificial Analysis được trích dẫn, GPT-5.5 bản xhigh đạt 60 điểm, GPT-5.5 bản high đạt 59 điểm, còn Claude Opus 4.7 đạt 57 điểm [2]. Ở BrowseComp, GPT-5.5 đạt 84,4%, DeepSeek V4 đạt 83,4% và Claude Opus 4.7 đạt 79,3% [
3].
Claude Opus 4.7 đặc biệt mạnh ở phần mềm và kiến thức chuyên sâu. Claude dẫn ở SWE-Bench Pro với 64,3% so với 58,6% của GPT-5.5, và ở GPQA Diamond với 94,2% so với 93,6% của GPT-5.5 [22][
24]. Tuy nhiên, GPT-5.5 lại dẫn rõ ở Terminal-Bench 2.0 với 82,7% so với 69,4% của Claude Opus 4.7 [
22][
24].
DeepSeek V4 là đối thủ đáng chú ý về giá/hiệu năng. VentureBeat nêu DeepSeek V4 đạt 83,4% trên BrowseComp, chỉ thấp hơn GPT-5.5 đúng 1,0 điểm phần trăm và cao hơn Claude Opus 4.7 [3]. Mashable đồng thời trích giá API của DeepSeek V4 là 1,74 USD cho 1 triệu token đầu vào và 3,48 USD cho 1 triệu token đầu ra, so với 5/30 USD của GPT-5.5 và 5/25 USD của Claude Opus 4.7 [
1].
Kimi K2.6 đáng theo dõi, nhưng không nên xếp hạng vội. DocsBot mô tả Kimi K2.6 là mô hình mã nguồn mở, đa phương thức gốc, thiên về tác vụ agent, dùng kiến trúc MoE 1T tham số, 32B tham số được kích hoạt và cửa sổ ngữ cảnh 256K [7]. Tuy nhiên, các nguồn được cung cấp chưa có đủ điểm benchmark trực tiếp giữa Kimi K2.6 với GPT-5.5, Claude Opus 4.7 và DeepSeek V4 để so sánh công bằng [
7].
Bảng so sánh nhanh
| Mô hình | Kết luận có bằng chứng mạnh nhất | Số liệu nổi bật | Cách hiểu thực tế |
|---|---|---|---|
| GPT-5.5 | Dẫn lát cắt Artificial Analysis Intelligence Index hiện có [ | Intelligence Index: 60 bản xhigh, 59 bản high [ | Điểm xuất phát tốt nhất nếu cần một mô hình đa dụng, nhưng không thắng mọi bài kiểm tra |
| Claude Opus 4.7 | Rất mạnh ở SWE-Bench, GPQA và một số tác vụ agent [ | Intelligence Index: 57 [ | Hợp với lập trình, rà soát mã, tác vụ kiến thức và một số công việc tài chính |
| DeepSeek V4 | Gần bắt kịp GPT-5.5 ở BrowseComp [ | BrowseComp: 83,4% [ | Rất đáng cân nhắc nếu chi phí và năng lực duyệt/tìm thông tin quan trọng hơn việc đứng đầu toàn bộ benchmark |
| Kimi K2.6 | Được mô tả là mô hình mở, đa phương thức, agent, ngữ cảnh dài [ | MoE 1T tham số, 32B tham số kích hoạt, 256K ngữ cảnh theo DocsBot [ | Hấp dẫn để thử nghiệm kỹ thuật, nhưng chưa đủ số liệu để xếp hạng ngang hàng |
Vì sao không nên đọc benchmark như bảng tổng sắp huy chương?
Điểm cần nhớ đầu tiên: benchmark không phải lúc nào cũng được chạy trong cùng điều kiện. DataCamp từng lưu ý trong một so sánh mô hình frontier liên quan rằng một số điểm benchmark là do nhà cung cấp báo cáo và có thể dùng cấu hình harness khác nhau [21]. Nói đơn giản, cùng một mô hình có thể trông rất mạnh ở một thiết lập, nhưng kém nổi bật hơn ở thiết lập khác.
Biến thể mô hình cũng là vấn đề. Artificial Analysis nhắc đến GPT-5.5 xhigh, GPT-5.5 high và Claude Opus 4.7 với Adaptive Reasoning, Max Effort [2]. VentureBeat lại nói đến DeepSeek-V4-Pro-Max [
3]. Những khác biệt như mức “suy luận”, cách dùng công cụ, cấu hình test harness hoặc phiên bản Pro/Max có thể ảnh hưởng mạnh đến kết quả, nhất là trong các bài coding, reasoning và agent.
Vì vậy, câu hỏi hữu ích hơn không phải là “mô hình nào vô địch?”, mà là: với công việc cụ thể của bạn, mô hình nào có bằng chứng tốt nhất?
Hiệu năng tổng thể: GPT-5.5 đang có lợi thế rõ nhất
Chỉ báo tổng thể rõ nhất trong các nguồn là lát cắt Artificial Analysis Intelligence Index. Ở đó, GPT-5.5 xhigh đứng đầu với 60 điểm, GPT-5.5 high đứng thứ hai với 59 điểm, và Claude Opus 4.7 ở cấu hình Adaptive Reasoning, Max Effort đạt 57 điểm [2].
Điều này củng cố nhận định rằng GPT-5.5 có lợi thế nhẹ nhưng nhìn thấy được so với Claude Opus 4.7 trong chỉ số này [2]. Tuy nhiên, cùng lát cắt đó không cung cấp đủ điểm trực tiếp, đầy đủ cho DeepSeek V4 và Kimi K2.6 để lập một bảng xếp hạng bốn mô hình thật sạch [
2][
7].
BrowseComp: DeepSeek V4 tiến rất sát GPT-5.5
BrowseComp là phần có dữ liệu so sánh trực tiếp rõ nhất giữa GPT-5.5, Claude Opus 4.7 và DeepSeek V4. VentureBeat nêu GPT-5.5 Pro đạt 90,1%, GPT-5.5 đạt 84,4%, DeepSeek V4 đạt 83,4% và Claude Opus 4.7 đạt 79,3% [3].
| Mô hình hoặc biến thể | Điểm BrowseComp | Nhận xét |
|---|---|---|
| GPT-5.5 Pro | 90,1% | Dẫn khá rõ trong lát cắt này [ |
| GPT-5.5 | 84,4% | Nhỉnh hơn DeepSeek V4 [ |
| DeepSeek V4 | 83,4% | Chỉ kém GPT-5.5 1,0 điểm phần trăm [ |
| Claude Opus 4.7 | 79,3% | Xếp sau GPT-5.5 và DeepSeek V4 trong số liệu này [ |
| Kimi K2.6 | Chưa có điểm trực tiếp tương đương trong các nguồn được cung cấp | Không thể xếp hạng công bằng [ |
VentureBeat cũng nhận định DeepSeek-V4-Pro-Max chưa thể “hạ bệ” GPT-5.5 hoặc Claude Opus 4.7 nếu xét các benchmark có thể so sánh trực tiếp giữa các công ty [3]. Cách đọc hợp lý hơn là: DeepSeek V4 rất mạnh ở BrowseComp, nhưng một benchmark tốt chưa đủ để kết luận thắng toàn diện [
3].
Lập trình và kỹ thuật phần mềm: Claude thắng SWE, GPT thắng Terminal
Ở mảng coding, không có người thắng tuyệt đối. Claude Opus 4.7 dẫn SWE-Bench Pro với 64,3%, trong khi GPT-5.5 đạt 58,6% [22][
24]. Vellum cũng nêu Claude Opus 4.7 đạt 87,6% trên SWE-Bench Verified [
20]. Nhưng ở Terminal-Bench 2.0, tình thế đảo chiều: GPT-5.5 đạt 82,7%, còn Claude Opus 4.7 đạt 69,4% [
22][
24].
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Kết luận từ số liệu hiện có |
|---|---|---|---|
| SWE-Bench Pro | 58,6% | 64,3% | Claude dẫn [ |
| SWE-Bench Verified | Chưa có điểm GPT-5.5 trực tiếp trong nguồn được cung cấp | 87,6% | Điểm Claude rất mạnh, nhưng chưa đủ để so sánh đủ bốn mô hình [ |
| Terminal-Bench 2.0 | 82,7% | 69,4% | GPT-5.5 dẫn rõ [ |
Với DeepSeek V4 và Kimi K2.6, dữ liệu được cung cấp chưa đủ để đưa vào cùng bảng coding như trên. VentureBeat nói DeepSeek V4 tiến gần nhóm đầu ở một số benchmark có thể so sánh trực tiếp, nhưng các con số rõ nhất trong phần trích dẫn vẫn là BrowseComp [3]. Với Kimi K2.6, DocsBot chủ yếu cung cấp mô tả kiến trúc và năng lực mô hình, không phải ma trận benchmark đầy đủ với ba mô hình còn lại [
7].
Reasoning, kiến thức và tác vụ chuyên nghiệp: dẫn đầu tùy bài kiểm tra
Ở các bài kiến thức và reasoning, GPT-5.5 và Claude Opus 4.7 bám khá sát nhau. Vellum nêu GPQA Diamond là 93,6% cho GPT-5.5 và 94,2% cho Claude Opus 4.7 [22]. Mashable cũng nêu các điểm GPQA Diamond này, đồng thời bổ sung Humanity’s Last Exam: nếu không dùng công cụ, GPT-5.5 đạt 40,6% so với 31,2% của Claude Opus 4.7; nếu có công cụ, Claude Opus 4.7 đạt 54,7%, nhỉnh hơn GPT-5.5 ở mức 52,2% [
8].
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Bên dẫn trong số liệu hiện có |
|---|---|---|---|
| GPQA Diamond | 93,6% | 94,2% | Claude Opus 4.7 nhỉnh hơn [ |
| Humanity’s Last Exam | 40,6% | 31,2% | GPT-5.5 [ |
| Humanity’s Last Exam có dùng công cụ | 52,2% | 54,7% | Claude Opus 4.7 nhỉnh hơn [ |
Ở nhóm benchmark chuyên nghiệp và agent, bức tranh cũng không một chiều. Vellum nêu GPT-5.5 đạt 84,9% ở GDPval so với 80,3% của Claude Opus 4.7, đạt 78,7% ở OSWorld-Verified so với 78,0%, và đạt 75,3% ở MCP Atlas so với 79,1% của Claude [22]. OpenAI nêu FinanceAgent v1.1 là 60,0% cho GPT-5.5 và 64,4% cho Claude Opus 4.7 [
24].
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Kết luận |
|---|---|---|---|
| GDPval | 84,9% | 80,3% | GPT-5.5 dẫn [ |
| OSWorld-Verified | 78,7% | 78,0% | GPT-5.5 nhỉnh hơn [ |
| MCP Atlas | 75,3% | 79,1% | Claude Opus 4.7 dẫn [ |
| FinanceAgent v1.1 | 60,0% | 64,4% | Claude Opus 4.7 dẫn [ |
Anthropic còn nhắc đến một benchmark research-agent nội bộ, trong đó Claude Opus 4.7 theo Anthropic đồng hạng điểm tổng cao nhất 0,715 trên sáu module và đạt 0,813 ở module General Finance, so với 0,767 của Opus 4.6 [6]. Vì đây là benchmark nội bộ và không bao phủ đồng đều cả bốn mô hình trong dữ liệu được cung cấp, nên nên xem nó như tín hiệu về sức mạnh agent của Claude hơn là một bảng xếp hạng độc lập bốn mô hình [
6].
Giá API và cửa sổ ngữ cảnh: DeepSeek V4 nổi bật nhất
Khi đưa mô hình vào sản phẩm thật, một vài điểm benchmark hơn kém không phải yếu tố duy nhất. Chi phí API có thể quyết định việc một ứng dụng có chạy nổi ở quy mô lớn hay không.
Mashable nêu DeepSeek V4 có giá 1,74 USD cho 1 triệu token đầu vào và 3,48 USD cho 1 triệu token đầu ra, với cửa sổ ngữ cảnh 1 triệu token [1]. Cùng nguồn nêu GPT-5.5 là 5 USD cho 1 triệu token đầu vào và 30 USD cho 1 triệu token đầu ra; Claude Opus 4.7 là 5 USD đầu vào và 25 USD đầu ra cho 1 triệu token, cũng với cửa sổ ngữ cảnh 1 triệu token [
1].
| Mô hình | Giá đầu vào / 1 triệu token | Giá đầu ra / 1 triệu token | Ngữ cảnh theo nguồn |
|---|---|---|---|
| DeepSeek V4 | 1,74 USD | 3,48 USD | 1 triệu token [ |
| GPT-5.5 | 5 USD | 30 USD | 1 triệu token [ |
| Claude Opus 4.7 | 5 USD | 25 USD | 1 triệu token [ |
| Kimi K2.6 | Chưa có giá đáng tin cậy trong các nguồn được cung cấp | Chưa có giá đáng tin cậy trong các nguồn được cung cấp | 256K token theo DocsBot [ |
Kimi K2.6 là trường hợp riêng. DocsBot mô tả mô hình này có ngữ cảnh 256K, kiến trúc MoE 1T tham số, 32B tham số được kích hoạt, cùng khả năng điều phối tác vụ agent lên tới 300 sub-agent và 4.000 bước phối hợp [7]. Đây là thông tin kỹ thuật quan trọng, nhưng không thay thế được các điểm benchmark và giá API trực tiếp khi so với GPT-5.5, Claude Opus 4.7 và DeepSeek V4 [
7].
Nên chọn mô hình nào cho từng nhu cầu?
| Nếu ưu tiên của bạn là… | Điểm xuất phát hợp lý nhất | Vì sao |
|---|---|---|
| Hiệu năng tổng thể có bằng chứng mạnh | GPT-5.5 | Dẫn lát cắt Intelligence Index hiện có và đứng trước Claude Opus 4.7, nhỉnh hơn DeepSeek V4 ở BrowseComp [ |
| Kỹ thuật phần mềm theo SWE-Bench | Claude Opus 4.7 | Dẫn GPT-5.5 ở SWE-Bench Pro và được nêu đạt 87,6% ở SWE-Bench Verified [ |
| Terminal, thao tác máy tính, tác vụ agent | GPT-5.5 | Dẫn rõ ở Terminal-Bench 2.0, đồng thời nhỉnh hơn Claude ở GDPval và OSWorld-Verified [ |
| Tìm kiếm web và tối ưu chi phí API | DeepSeek V4 | Đạt 83,4% ở BrowseComp và có giá API được trích dẫn thấp hơn đáng kể [ |
| Thử nghiệm mô hình mở, đa phương thức, thiên về agent | Kimi K2.6 | Được mô tả là mô hình open-source, đa phương thức gốc, agent, ngữ cảnh 256K, nhưng chưa có đủ dữ liệu so sánh trực tiếp [ |
Tóm lại
Không có mô hình nào “ăn trọn” mọi bài kiểm tra. Trong dữ liệu hiện có, GPT-5.5 là mô hình toàn diện có bằng chứng mạnh nhất vì dẫn lát cắt Artificial Analysis, mạnh ở BrowseComp và đạt kết quả tốt trên nhiều benchmark chuyên nghiệp [2][
3][
22][
24]. Claude Opus 4.7 vẫn là mô hình hàng đầu, nhất là với SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond và một số tác vụ tài chính/agent [
20][
22][
24]. DeepSeek V4 là ứng viên giá/hiệu năng nổi bật, vì gần chạm GPT-5.5 ở BrowseComp trong khi giá API được trích dẫn thấp hơn nhiều [
1][
3]. Kimi K2.6 chưa nên bị đánh giá thấp hay thổi phồng: để xếp hạng công bằng, vẫn cần thêm benchmark và giá API trực tiếp, cùng điều kiện so sánh [
7].




