studioglobal
Khám phá xu hướng
Báo cáoĐã xuất bản8 nguồn

GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6: mô hình nào thắng từng benchmark?

Claude Opus 4.7 dẫn GPQA Diamond với 94,2% và Humanity’s Last Exam không dùng công cụ với 46,9%; GPT 5.5 dẫn Terminal Bench 2.0 với 82,7%, OSWorld Verified với 78,7% và FrontierMath với 51,7% [4][5]. GPT 5.5 Pro dẫn Humanity’s Last Exam có công cụ với 57,2% và BrowseComp với 90,1% trong bảng chung; Claude dẫn SWE Be...

15K0
Editorial illustration of GPT-5.5, Claude Opus 4.7, DeepSeek V4 and Kimi K2.6 compared across AI benchmark categories
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by CategoryAI-generated editorial illustration for comparing frontier model benchmark winners by category.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by Category. Article summary: No single model wins across the available 2026 benchmark evidence: Claude Opus 4.7 leads GPQA Diamond at 94.2% and Humanity’s Last Exam without tools at 46.9%, GPT 5.5 leads Terminal Bench 2.0 at 82.7%, and GPT 5.5 Pr.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "Kimi K2.6 ties GPT-5.5 on SWE-bench Pro at 5–6x lower cost — with agent swarms, 13-hour autonomous runs, and open weights. In practice it is the first open-source model that can su" source context "Kimi K2.6: The Complete Developer Guide (2026) - Codersera" Reference image 2: visual subject "# Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: Which S

openai.com

Nhìn qua các bảng benchmark, cuộc so găng giữa GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 tưởng như chỉ cần chọn điểm cao nhất. Thực tế phức tạp hơn. Bảng đối chiếu chung sạch nhất hiện bao gồm GPT-5.5, GPT-5.5 Pro ở một số dòng, Claude Opus 4.7 và DeepSeek-V4-Pro-Max; Kimi K2.6 chủ yếu xuất hiện trong các so sánh riêng, nên khó xếp hạng ngang hàng ở mọi hạng mục [4][11][13].

Cách đọc hữu ích hơn là hỏi: benchmark nào giống việc mình cần làm nhất? Nếu bạn đang xây agent thao tác terminal, điểm OCR không nói lên nhiều. Nếu bạn xử lý tài liệu, biểu đồ hoặc scan chữ, điểm Terminal-Bench lại không phải tín hiệu chính. Kết luận ngắn gọn: không có một mô hình thắng tất cả.

Kết quả nhanh theo nhu cầu

Nhu cầuNên thử trướcLý do
Suy luận khoa họcClaude Opus 4.794,2% trên GPQA Diamond, nhỉnh hơn GPT-5.5 ở 93,6% và DeepSeek-V4-Pro-Max ở 90,1% [4]
Suy luận chuyên gia không dùng công cụClaude Opus 4.746,9% trên Humanity’s Last Exam không công cụ, cao hơn GPT-5.5 Pro 43,1%, GPT-5.5 41,4% và DeepSeek-V4-Pro-Max 37,7% [4]
Bài thi có hỗ trợ công cụGPT-5.5 Pro57,2% trên Humanity’s Last Exam có công cụ, cao hơn Claude Opus 4.7 ở 54,7% [4]
Agent dùng terminalGPT-5.582,7% trên Terminal-Bench 2.0, cao hơn Claude Opus 4.7 69,4% và DeepSeek-V4-Pro-Max 67,9% [4][5]
Thao tác môi trường máy tính/OSGPT-5.578,7% trên OSWorld-Verified, nhỉnh hơn Claude Opus 4.7 ở 78,0% [5]
Toán frontierGPT-5.551,7% trên FrontierMath Tiers 1–3, so với Claude Opus 4.7 ở 43,8% [5]
Kỹ nghệ phần mềm trong bảng chungClaude Opus 4.764,3% trên SWE-Bench Pro / SWE Pro, cao hơn GPT-5.5 58,6% và DeepSeek-V4-Pro-Max 55,4% [4]
Duyệt web/tìm hiểu qua webGPT-5.5 Pro90,1% trên BrowseComp, cao hơn GPT-5.5 84,4%, DeepSeek-V4-Pro-Max 83,4% và Claude Opus 4.7 79,3% [4]
Workflow dùng công cụ kiểu MCPClaude Opus 4.779,1% trên MCP Atlas / MCPAtlas Public, cao hơn GPT-5.5 75,3% và DeepSeek-V4-Pro-Max 73,6% [4]
Thị giác máy tính và phân tích tài liệuClaude Opus 4.7Được báo cáo đứng số 1 trong Vision & Document Arena, thắng các nhóm phụ như diagram, homework và OCR [1]
Tối ưu chi phíDeepSeek V4VentureBeat mô tả DeepSeek V4 đạt gần mức state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5; tuy vậy cần kiểm chứng trên workload thật của bạn [4]
So sánh kém sạch nhấtKimi K2.6Có nhiều điểm số đáng chú ý, nhưng bằng chứng được trích dẫn chủ yếu nằm ngoài bảng chung với GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max [11][13]

Bảng điểm chi tiết

Benchmark / năng lựcGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek V4 / V4 Pro MaxKimi K2.6Cách đọc hợp lý nhất
GPQA Diamond93,6% [4]Không có trong nguồn trích dẫn94,2% [4]90,1% cho DeepSeek-V4-Pro-Max [4]Không có trong nguồn trích dẫnClaude dẫn trong bảng chung [4]
Humanity’s Last Exam, không công cụ41,4% [4]43,1% [4]46,9% [4]37,7% cho DeepSeek-V4-Pro-Max [4]Không có trong nguồn trích dẫnClaude dẫn trong bảng chung [4]
Humanity’s Last Exam, có công cụ52,2% [4]57,2% [4]54,7% [4]48,2% cho DeepSeek-V4-Pro-Max [4]54,0% trong so sánh Kimi riêng [13]GPT-5.5 Pro dẫn trong bảng chung [4]
Terminal-Bench 2.082,7% [4][5]Không có trong nguồn trích dẫn69,4% [4][5]67,9% cho DeepSeek-V4-Pro-Max [4]66,7% trong so sánh Kimi riêng [13]GPT-5.5 dẫn rõ [4][5]
SWE-Bench Pro / SWE Pro58,6% [4]Không có trong nguồn trích dẫn64,3% [4]55,4% cho DeepSeek-V4-Pro-Max [4]58,6% trong so sánh Kimi riêng [13]Claude dẫn trong bảng chung [4]
BrowseComp84,4% [4]90,1% [4]79,3% [4]83,4% cho DeepSeek-V4-Pro-Max trong bảng chung [4]; 83,4% cho DeepSeek-V4 Pro trong so sánh khác [11]83,2% trong so sánh Kimi với DeepSeek [11]GPT-5.5 Pro dẫn trong bảng chung [4]
MCP Atlas / MCPAtlas Public75,3% [4]Không có trong nguồn trích dẫn79,1% [4]73,6% cho DeepSeek-V4-Pro-Max [4]Không có trong nguồn trích dẫnClaude dẫn [4]
OSWorld-Verified78,7% [5]Không có trong nguồn trích dẫn78,0% [5]Không có trong nguồn trích dẫnKhông có trong nguồn trích dẫnGPT-5.5 nhỉnh hơn Claude một khoảng nhỏ [5]
FrontierMath Tiers 1–351,7% [5]Không có trong nguồn trích dẫn43,8% [5]Không có trong nguồn trích dẫnKhông có trong nguồn trích dẫnGPT-5.5 dẫn Claude [5]
Vision & Document ArenaKhông có trong nguồn trích dẫnKhông có trong nguồn trích dẫnĐược báo cáo đứng số 1 tổng thể [1]Không có trong nguồn trích dẫnKhông có trong nguồn trích dẫnClaude có tín hiệu được trích dẫn rõ nhất [1]
AIME 2026Không có trong nguồn trích dẫnKhông có trong nguồn trích dẫnKhông có trong nguồn trích dẫnKhông có trong bảng Kimi vs DeepSeek được trích dẫn [11]96,4% ở chế độ Thinking [11]Tín hiệu hữu ích cho Kimi, không phải xếp hạng bốn bên [11]
APEX AgentsKhông có trong nguồn trích dẫnKhông có trong nguồn trích dẫnKhông có trong nguồn trích dẫnKhông có trong bảng Kimi vs DeepSeek được trích dẫn [11]27,9% ở chế độ Thinking [11]Tín hiệu hữu ích cho Kimi, không phải xếp hạng bốn bên [11]
Cửa sổ ngữ cảnhKhông có trong nguồn trích dẫnKhông có trong nguồn trích dẫn1.000k token trong một so sánh Artificial Analysis [3]1.000k token cho DeepSeek V4 Pro trong cùng so sánh [3]Không có trong nguồn trích dẫnClaude và DeepSeek V4 Pro ngang nhau ở cấu hình được liệt kê [3]

Các hàng trộn nhiều nguồn cần đọc thận trọng. Một điểm Kimi xuất hiện trong so sánh riêng vẫn có giá trị tham khảo, nhưng không mạnh bằng kết quả được chạy trong cùng bảng, cùng harness và cùng điều kiện với GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max [4][11][13].

GPT-5.5: nổi bật khi tác vụ giống agent và môi trường máy tính

Chiến thắng rõ nhất của GPT-5.5 là Terminal-Bench 2.0: 82,7%, so với Claude Opus 4.7 ở 69,4% và DeepSeek-V4-Pro-Max ở 67,9% trong bảng chung [4][5]. Đây là một trong những khoảng cách lớn nhất trong tập benchmark được trích dẫn.

GPT-5.5 cũng dẫn Claude Opus 4.7 trên OSWorld-Verified, nhưng khoảng cách rất nhỏ: 78,7% so với 78,0% [5]. Với FrontierMath Tiers 1–3, khoảng cách lớn hơn: GPT-5.5 đạt 51,7%, còn Claude đạt 43,8% [5].

Khi có công cụ hoặc duyệt web, GPT-5.5 Pro mới là cấu hình đáng chú ý hơn. GPT-5.5 Pro dẫn Humanity’s Last Exam có công cụ với 57,2%, cao hơn Claude Opus 4.7 54,7%, GPT-5.5 52,2% và DeepSeek-V4-Pro-Max 48,2% [4]. Trên BrowseComp, GPT-5.5 Pro cũng dẫn với 90,1%, cao hơn GPT-5.5 84,4%, DeepSeek-V4-Pro-Max 83,4% và Claude Opus 4.7 79,3% [4].

Điểm cần nhớ: GPT-5.5 không thắng mọi bài suy luận. Claude Opus 4.7 nhỉnh hơn trên GPQA Diamond, 94,2% so với 93,6% của GPT-5.5 trong bảng chung [4]. Một hướng dẫn riêng về GPT-5.5 còn nêu các kết quả theo miền như 91,7% trên Harvey BigLaw Bench, 88,5% trên một benchmark nội bộ về ngân hàng đầu tư và 80,5% trên BixBench, nhưng không nên xem đó là chiến thắng bốn bên vì đoạn trích không có điểm tương ứng cho Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 [7].

Claude Opus 4.7: mạnh ở suy luận không công cụ, SWE và tài liệu

Claude Opus 4.7 có hồ sơ suy luận không dùng công cụ tốt nhất trong bảng chung chính. Mô hình này dẫn GPQA Diamond với 94,2% và Humanity’s Last Exam không công cụ với 46,9% [4]. Claude cũng dẫn SWE-Bench Pro / SWE Pro với 64,3% và MCP Atlas / MCPAtlas Public với 79,1% trong cùng bảng [4].

Điểm yếu tương đối của Claude trong dữ liệu được trích dẫn là các tác vụ kiểu terminal. GPT-5.5 dẫn Claude hơn 13 điểm trên Terminal-Bench 2.0, 82,7% so với 69,4%; GPT-5.5 cũng dẫn Claude trên OSWorld-Verified và FrontierMath Tiers 1–3 [4][5].

Ở mảng đa phương thức và tài liệu, Claude có tín hiệu mạnh nhất trong nguồn được trích dẫn. Một nguồn báo cáo Claude Opus 4.7 đứng số 1 trong Vision & Document Arena, cải thiện 4 điểm so với Opus 4.6 ở Document Arena, đồng thời thắng các hạng mục phụ gồm diagram, homework và OCR [1]. Tuy nhiên, nguồn này không đưa điểm Vision & Document Arena có thể so trực tiếp cho GPT-5.5, DeepSeek V4 hoặc Kimi K2.6, nên kết luận hợp lý là Claude có lợi thế tài liệu rõ trong bằng chứng được trích dẫn, chứ chưa phải một bảng xếp hạng đa phương thức bốn bên đầy đủ [1].

DeepSeek V4: cạnh tranh, nhưng luận điểm mạnh nhất là chi phí/hiệu năng

Các nguồn dùng nhiều nhãn DeepSeek khác nhau. Bảng chung báo cáo DeepSeek-V4-Pro-Max, trong khi so sánh của Artificial Analysis nói về DeepSeek V4 Pro với cửa sổ ngữ cảnh 1.000k token [4][3]. Không nên tự động xem các nhãn này là cùng một cấu hình.

Trong bảng chung, DeepSeek-V4-Pro-Max cạnh tranh nhưng không đứng đầu hàng nào. Mô hình này đạt 90,1% trên GPQA Diamond, 37,7% trên Humanity’s Last Exam không công cụ, 48,2% trên Humanity’s Last Exam có công cụ, 67,9% trên Terminal-Bench 2.0, 55,4% trên SWE-Bench Pro / SWE Pro, 83,4% trên BrowseComp và 73,6% trên MCP Atlas / MCPAtlas Public [4].

Điểm đáng chú ý nhất của DeepSeek trong các nguồn là chi phí/hiệu năng. VentureBeat mô tả DeepSeek V4 là đạt gần mức trí tuệ state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [4]. Đây là lý do tốt để đưa DeepSeek vào vòng thử nghiệm nếu bạn nhạy cảm với chi phí, nhưng không thay thế được việc đo chất lượng trên chính dữ liệu và prompt của bạn.

Về ngữ cảnh dài, một so sánh của Artificial Analysis liệt kê cả DeepSeek V4 Pro và Claude Opus 4.7 ở mức cửa sổ ngữ cảnh 1.000k token [3]. Điều này cho thấy hai cấu hình được nêu ngang nhau ở chỉ số đó, không phải tuyên bố rộng hơn cho mọi chế độ DeepSeek hoặc Claude [3].

Kimi K2.6: nhiều tín hiệu hứa hẹn, nhưng khó xếp hạng sạch

Kimi K2.6 là mô hình khó xếp hạng nhất trong nhóm này vì không có mặt trong bảng chung chính với GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max [4]. Một so sánh tập trung vào Kimi báo cáo K2.6 đạt 58,6% trên SWE-Bench Pro, 80,2% trên SWE-Bench Verified, 66,7% trên Terminal-Bench 2.0, 54,0% trên Humanity’s Last Exam có công cụ và 89,6% trên LiveCodeBench v6 [13]. Nguồn này nói các điểm K2.6 đến từ model card chính thức của Moonshot AI, nhưng bộ so sánh chủ yếu là Claude Opus 4.6 và GPT-5.4, không phải đúng bốn mô hình đang xét ở đây [13].

Một so sánh riêng giữa Kimi và DeepSeek báo cáo Kimi K2.6 đạt 96,4% trên AIME 2026 ở chế độ Thinking, 27,9% trên APEX Agents ở chế độ Thinking và 83,2% trên BrowseComp với Thinking mode và quản lý ngữ cảnh [11]. Trong cùng nguồn, DeepSeek-V4 Pro được liệt kê 83,4% trên BrowseComp, còn điểm DeepSeek cho AIME 2026 và APEX Agents không có sẵn [11].

Vì vậy, Kimi K2.6 rất đáng thử nếu bạn quan tâm đến coding, agent, toán hoặc duyệt web. Nhưng với bằng chứng hiện có, chưa nên tuyên bố Kimi thắng hoặc thua GPT-5.5 và Claude Opus 4.7 trên toàn bộ bộ benchmark như một bảng xếp hạng chung [11][13].

Nên thử mô hình nào trước?

  • Thử GPT-5.5 trước nếu workload của bạn nặng terminal, thao tác OS hoặc giống FrontierMath; mô hình này dẫn các kết quả được trích dẫn trên Terminal-Bench 2.0, OSWorld-Verified và FrontierMath [4][5].
  • Thử GPT-5.5 Pro trước nếu trọng tâm là suy luận có công cụ hoặc duyệt web; cấu hình này dẫn Humanity’s Last Exam có công cụ và BrowseComp trong bảng chung [4].
  • Thử Claude Opus 4.7 trước nếu bạn cần suy luận khoa học kiểu GPQA, hỏi đáp chuyên gia không dùng công cụ, kỹ nghệ phần mềm kiểu SWE-Bench Pro, workflow MCP hoặc xử lý tài liệu/đa phương thức nặng [4][1].
  • Thử DeepSeek V4 trước nếu ràng buộc lớn nhất là chi phí và bạn có quy trình kiểm tra chất lượng riêng; lợi thế được trích dẫn là hiệu năng gần frontier với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [4].
  • Thử Kimi K2.6 nếu bạn muốn kiểm chứng các điểm coding, agent, toán và browsing được báo cáo, nhưng hãy dùng cùng prompt, công cụ, giới hạn ngữ cảnh, mục tiêu độ trễ và quy tắc chấm điểm với các mô hình còn lại [11][13].

Các lưu ý quan trọng khi đọc benchmark

Đây không phải một bảng xếp hạng tuyệt đối. Các nguồn đang trộn nhiều biến thể và chế độ: GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 và Kimi K2.6 [3][4][11][13]. Một số kết quả cũng là vendor-reported; OpenAI lưu ý rằng các đánh giá GPT cho ARC được chạy với reasoning effort đặt ở mức xhigh trong môi trường nghiên cứu, có thể cho đầu ra hơi khác với ChatGPT sản xuất trong một số trường hợp [5][8].

Các khoảng cách nhỏ chỉ nên xem là tín hiệu định hướng. Claude dẫn GPT-5.5 trên GPQA Diamond 0,6 điểm, còn GPT-5.5 dẫn Claude trên OSWorld-Verified 0,7 điểm [4][5]. Khoảng cách lớn đáng hành động hơn: GPT-5.5 dẫn Claude hơn 13 điểm trên Terminal-Bench 2.0 và dẫn 7,9 điểm trên FrontierMath [5].

Kết luận thực dụng: đừng chọn mô hình chỉ vì một hàng điểm số đẹp. Hãy chọn benchmark gần nhất với việc thật của bạn, rút ra 2–3 ứng viên, rồi chạy lại cùng bài kiểm tra trên prompt, dữ liệu, công cụ và ngân sách mà bạn thực sự sẽ dùng.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • Claude Opus 4.7 dẫn GPQA Diamond với 94,2% và Humanity’s Last Exam không dùng công cụ với 46,9%; GPT 5.5 dẫn Terminal Bench 2.0 với 82,7%, OSWorld Verified với 78,7% và FrontierMath với 51,7% [4][5].
  • GPT 5.5 Pro dẫn Humanity’s Last Exam có công cụ với 57,2% và BrowseComp với 90,1% trong bảng chung; Claude dẫn SWE Bench Pro với 64,3% và MCP Atlas với 79,1% [4].
  • DeepSeek V4 Pro Max cạnh tranh nhưng chưa đứng đầu hàng nào trong bảng chung; lợi thế được nhấn mạnh là chi phí.

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6: mô hình nào thắng từng benchmark?" là gì?

Claude Opus 4.7 dẫn GPQA Diamond với 94,2% và Humanity’s Last Exam không dùng công cụ với 46,9%; GPT 5.5 dẫn Terminal Bench 2.0 với 82,7%, OSWorld Verified với 78,7% và FrontierMath với 51,7% [4][5].

Những điểm chính cần xác nhận đầu tiên là gì?

Claude Opus 4.7 dẫn GPQA Diamond với 94,2% và Humanity’s Last Exam không dùng công cụ với 46,9%; GPT 5.5 dẫn Terminal Bench 2.0 với 82,7%, OSWorld Verified với 78,7% và FrontierMath với 51,7% [4][5]. GPT 5.5 Pro dẫn Humanity’s Last Exam có công cụ với 57,2% và BrowseComp với 90,1% trong bảng chung; Claude dẫn SWE Bench Pro với 64,3% và MCP Atlas với 79,1% [4].

Tôi nên làm gì tiếp theo trong thực tế?

DeepSeek V4 Pro Max cạnh tranh nhưng chưa đứng đầu hàng nào trong bảng chung; lợi thế được nhấn mạnh là chi phí.

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Claude Opus 4.7, GPT-5.5, DeepSeek V4 và Kimi K2.6: benchmark 2026 nói gì?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "DeepSeek V4: không chỉ là 1M token, mà là bài toán MoE và API".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn

Câu hỏi nghiên cứu

Research benchmarks for GPT-5.5, Claude Opus 4.7, DeepSeek V4, and Kimi K2.6, and compare them as comprehensively as possible. Create a research report on this.

Studio Global AI21 nguồn

Câu trả lời được trích dẫn

The available evidence supports a clear but incomplete picture: Claude Opus 4.7 leads the cited GPQA Diamond and Humanity’s Last Exam no-tools results and is reported #1 in Vision & Document Arena [4][1]. GPT-5.5 leads the cited Terminal-Bench 2.0, OSWorld-Verified, and FrontierMath results, while GPT-5.5 Pro leads Humanity’s Last Exam with tools [4][5]. DeepSeek V4 is reported as near-frontier at much lower cost and as the top open-weight model on one coding benchmark, but Kimi K2.6 has insufficient numeric evidence in the provided excerpts for a full benchmark comparison [4][18][1].

Key findings

  • Claude Opus 4.7 has the strongest cited results on GPQA Diamond at 94.2% versus GPT-5.5 at 93.6% and DeepSeek-V4-Pro-Max at 90.1% [4].

  • Claude Opus 4.7 also leads the cited Humanity’s Last Exam no-tools result at 46.9%, ahead of GPT-5.5 Pro at 43.1%, GPT-5.5 at 41.4%, and DeepSeek-V4-Pro-Max at 37.7% [4].

  • GPT-5.5 Pro leads the cited Humanity’s Last Exam with-tools result at 57.2%, ahead of Claude Opus 4.7 at 54.7%, GPT-5.5 at 52.2%, and DeepSeek-V4-Pro-Max at 48.2% [4].

  • GPT-5.5 is strongest in the cited terminal/agentic-computing benchmarks: it scores 82.7% on Terminal-Bench 2.0, compared with Claude Opus 4.7 at 69.4% and DeepSeek-V4-Pro-Max at 67.9% [4][5].

  • GPT-5.5 narrowly leads Claude Opus 4.7 on OSWorld-Verified, 78.7% versus 78.0% [5].

  • GPT-5.5 leads Claude Opus 4.7 on FrontierMath Tiers 1–3, 51.7% versus 43.8% [5].

  • Claude Opus 4.7 is reported #1 in Vision & Document Arena, with a +4 point improvement over Opus 4.6 in Document Arena and wins in diagram, homework, and OCR subcategories [1].

  • DeepSeek V4 is described as achieving near state-of-the-art intelligence at about one-sixth the cost of Opus 4.7 and GPT-5.5, but the available evidence does not provide the underlying price schedule or methodology [4].

  • DeepSeek V4 is claimed to be the #1 open-weight model on a Vibe Code Benchmark, ahead of Kimi K2.6 at #2, but this evidence comes from a Reddit snippet rather than a full benchmark report [18].

  • Kimi K2.6 is described as a leading open-model refresh, but the provided evidence does not include enough numeric Kimi K2.6 scores to compare it comprehensively with GPT-5.5, Claude Opus 4.7, or DeepSeek V4 [1].

Benchmark comparison table

Benchmark / capabilityGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek V4Kimi K2.6Leader in available evidence
GPQA Diamond93.6% [4]Insufficient evidence94.2% [4]90.1% for DeepSeek-V4-Pro-Max [4]Insufficient evidenceClaude Opus 4.7 [4]
Humanity’s Last Exam, no tools41.4% [4]43.1% [4]46.9% [4]37.7% for DeepSeek-V4-Pro-Max [4]Insufficient evidenceClaude Opus 4.7 [4]
Humanity’s Last Exam, with tools52.2% [4]57.2% [4]54.7% [4]48.2% for DeepSeek-V4-Pro-Max [4]Insufficient evidenceGPT-5.5 Pro [4]
Terminal-Bench 2.082.7% [4][5]Insufficient evidence69.4% [4][5]67.9% for DeepSeek-V4-Pro-Max [4]Insufficient evidenceGPT-5.5 [4][5]
OSWorld-Verified78.7% [5]Insufficient evidence78.0% [5]Insufficient evidenceInsufficient evidenceGPT-5.5 [5]
FrontierMath Tiers 1–351.7% [5]Insufficient evidence43.8% [5]Insufficient evidenceInsufficient evidenceGPT-5.5 [5]
Vision & Document ArenaInsufficient evidenceInsufficient evidenceReported #1 overall [1]Insufficient evidenceInsufficient evidenceClaude Opus 4.7 [1]
Vibe Code BenchmarkInsufficient evidenceInsufficient evidenceInsufficient evidenceClaimed #1 open-weight model [18]Claimed #2 open-weight model [18]DeepSeek V4 among open-weight models, low-confidence evidence [18]
Context windowInsufficient evidenceInsufficient evidence1,000k tokens in one cited comparison [3]1,000k tokens for DeepSeek V4 Pro in one cited comparison [3]Insufficient evidenceTie between Claude Opus 4.7 and DeepSeek V4 Pro in available evidence [3]

Model-by-model assessment

GPT-5.5

  • GPT-5.5’s clearest advantage is agentic computing and operational task performance, led by its 82.7% Terminal-Bench 2.0 score [4][5].

  • GPT-5.5 also edges Claude Opus 4.7 on OSWorld-Verified, 78.7% versus 78.0% [5].

  • GPT-5.5 shows a larger advantage over Claude Opus 4.7 on FrontierMath Tiers 1–3, 51.7% versus 43.8% [5].

  • GPT-5.5 trails Claude Opus 4.7 on GPQA Diamond by 0.6 points, 93.6% versus 94.2% [4].

  • GPT-5.5 Pro is the best cited model on Humanity’s Last Exam with tools, scoring 57.2% versus Claude Opus 4.7 at 54.7% [4].

  • Additional GPT-5.5-only domain benchmarks include 91.7% on Harvey BigLaw Bench with 43% perfect scores, 88.5% on an internal investment-banking benchmark, and 80.5% on BixBench bioinformatics [7]. These results are not directly comparable to the other three models because the provided excerpt does not include their scores on those same benchmarks [7].

Claude Opus 4.7

  • Claude Opus 4.7 is the strongest cited model on GPQA Diamond, scoring 94.2% [4].

  • Claude Opus 4.7 is also the strongest cited model on Humanity’s Last Exam without tools, scoring 46.9% [4].

  • Claude Opus 4.7 ranks below GPT-5.5 Pro on Humanity’s Last Exam with tools, 54.7% versus 57.2% [4].

  • Claude Opus 4.7 trails GPT-5.5 on Terminal-Bench 2.0 by more than 13 points, 69.4% versus 82.7% [4][5].

  • Claude Opus 4.7 is reported #1 in Vision & Document Arena and is said to lead in diagram, homework, and OCR subcategories [1].

  • Claude Opus 4.7 has a cited 1,000k-token context window in an Artificial Analysis comparison with DeepSeek V4 Pro [3].

DeepSeek V4

  • DeepSeek-V4-Pro-Max is competitive but trails GPT-5.5 and Claude Opus 4.7 on the cited GPQA Diamond, Humanity’s Last Exam, and Terminal-Bench 2.0 results [4].

  • DeepSeek-V4-Pro-Max scores 90.1% on GPQA Diamond, 37.7% on Humanity’s Last Exam without tools, 48.2% on Humanity’s Last Exam with tools, and 67.9% on Terminal-Bench 2.0 [4].

  • DeepSeek V4 is described as delivering near state-of-the-art intelligence at about one-sixth the cost of Opus 4.7 and GPT-5.5, but the excerpt does not provide enough detail to verify cost normalization or workload assumptions [4].

  • DeepSeek V4 Pro is cited with a 1,000k-token context window in a comparison against Claude Opus 4.7 [3].

  • A Reddit snippet claims DeepSeek V4 is the #1 open-weight model on a Vibe Code Benchmark and ranks above Kimi K2.6, but this should be treated as low-confidence evidence because the provided excerpt lacks a full methodology or score table [18].

Kimi K2.6

  • Kimi K2.6 has the weakest quantitative coverage in the available evidence [1][18].

  • One source describes Kimi K2.6 as a leading open-model refresh, but the provided excerpt does not expose benchmark scores that can be compared against GPT-5.5, Claude Opus 4.7, or DeepSeek V4 [1].

  • The only direct Kimi ranking in the available evidence is a Reddit snippet claiming Kimi K2.6 is #2 behind DeepSeek V4 on a Vibe Code Benchmark among open-weight models [18].

  • Insufficient evidence: the provided material does not support a comprehensive numerical evaluation of Kimi K2.6 across reasoning, math, coding, agentic-computing, multimodal, or long-context benchmarks.

Evidence notes

  • The most usable quantitative cross-model evidence comes from the cited table comparing DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro where available, and Claude Opus 4.7 across GPQA Diamond, Humanity’s Last Exam, and Terminal-Bench 2.0 [4].

  • GPT-5.5 versus Claude Opus 4.7 is additionally supported by a separate source reporting the same Terminal-Bench 2.0 figures and adding OSWorld-Verified and FrontierMath results [5].

  • The cited Artificial Analysis comparison provides context-window information for DeepSeek V4 Pro and Claude Opus 4.7, both listed at 1,000k tokens in that comparison [3].

  • The Vision & Document Arena evidence supports Claude Opus 4.7’s multimodal/document strength, but it does not provide numeric scores for GPT-5.5, DeepSeek V4, or Kimi K2.6 [1].

  • The Mashable and Design for Online snippets do not provide benchmark values in the supplied evidence, so they cannot support quantitative conclusions here [2][6].

Limitations / uncertainty

  • Insufficient evidence: no primary model cards, official benchmark reports, full prompt settings, confidence intervals, or independent reproducibility details are included in the provided evidence.

  • Insufficient evidence: Kimi K2.6 lacks numeric benchmark coverage in the provided excerpts, so any Kimi ranking beyond the Vibe Code claim is unsupported [1][18].

  • The benchmark comparisons mix model variants and modes, including GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, and Claude Opus 4.7 with differing reasoning or effort settings [3][4].

  • The Vibe Code claim for DeepSeek V4 and Kimi K2.6 is low confidence because the available evidence is a Reddit snippet without benchmark scores or methodology [18].

  • The cost-performance claim for DeepSeek V4 is promising but under-specified because the provided evidence reports “1/6th the cost” without enough details to normalize by token pricing, latency, benchmark workload, or deployment assumptions [4].

Summary

  • Best cited reasoning/science model: Claude Opus 4.7, based on GPQA Diamond and Humanity’s Last Exam without tools [4].

  • Best cited tool-augmented exam result: GPT-5.5 Pro, based on Humanity’s Last Exam with tools [4].

  • Best cited terminal/agentic-computing model: GPT-5.5, based on Terminal-Bench 2.0 [4][5].

  • Best cited OS/world-operation and math results between GPT-5.5 and Claude Opus 4.7: GPT-5.5, based on OSWorld-Verified and FrontierMath [5].

  • Best cited multimodal/document model: Claude Opus 4.7, based on Vision & Document Arena reporting [1].

  • Best cited open-weight coding claim: DeepSeek V4 over Kimi K2.6 on Vibe Code, but this is low-confidence because the evidence is only a Reddit snippet [18].

  • Most under-evidenced model: Kimi K2.6, because the provided evidence does not include enough quantitative benchmark results for a comprehensive comparison [1][18].

Nguồn

  • [1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model refreshes to catch up to Opus 4.6 (ahead of DeepSeek v4?)latent.space

    Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...

  • [3] DeepSeek V4 Pro (Reasoning, Max Effort) vs Claude Opus 4.7 (Non-reasoning, High Effort): Model Comparisonartificialanalysis.ai

    Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, Max Effort) Anthropic logoClaude Opus 4.7 (Non-reasoning, High Effort) Analysis --- --- Creator DeepSeek Anthropic Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 1000k tokens ( 1500 A4 page...

  • [4] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...

  • [5] Everything You Need to Know About GPT-5.5vellum.ai

    The headline numbers GPT-5.5 achieves state-of-the-art on Terminal-Bench 2.0 at 82.7%, leading Claude Opus 4.7 (69.4%) by over 13 points. On OSWorld-Verified, which tests real computer environment operation, it edges out Claude at 78.7% vs 78.0%. On Frontie...

  • [7] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai

    Domain-Specific Benchmarks Benchmark GPT-5.5 Notes --- Harvey BigLaw Bench 91.7% (43% perfect scores) Legal reasoning, audience calibration Internal Investment Banking 88.5% Financial analysis tasks BixBench (bioinformatics) 80.5% (up from 74.0%) +6.5pts ov...

  • [8] Introducing GPT-5.5 - OpenAIopenai.com

    Abstract reasoning EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro ARC-AGI-1 (Verified)95.0%93.7%-94.5%93.5%98.0% ARC-AGI-2 (Verified)85.0%73.3%-83.3%75.8%77.1% Evals of GPT were run with reasoning effort set to xhigh and were conducte...

  • [11] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Benchmark Kimi K2.6 DeepSeek-V4 Pro --- AIME 2026 American Invitational Mathematics Examination 2026 - Evaluates advanced mathematical problem-solving abilities (contest-level math) 96.4% Thinking mode Source Not available APEX Agents Evaluates long-horizon...

  • [13] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...