studioglobal
熱門發現
報告已發布8 來源

Claude Opus 4.7, GPT-5.5, DeepSeek V4 và Kimi K2.6: benchmark và cách chọn

Không có quán quân chung: trong bảng cùng nguồn, Claude Opus 4.7 dẫn GPQA Diamond 94,2% và SWE Bench Pro/SWE Pro 64,3%; GPT 5.5/GPT 5.5 Pro dẫn Terminal Bench 2.0 82,7% và BrowseComp 90,1%. DeepSeek V4 Pro Max chưa đứng đầu trong bảng cùng nguồn, nhưng BrowseComp 83,4% khá sát GPT 5.5 84,4%; nguồn tin cho biết DeepS...

16K0

Đặt Claude Opus 4.7, GPT-5.5, DeepSeek V4 và Kimi K2.6 vào một bảng xếp hạng duy nhất nghe rất hấp dẫn, nhưng dễ dẫn đến kết luận sai. Cách đọc an toàn hơn là chọn theo tác vụ: mô hình nào hợp suy luận khó, mô hình nào hợp agent dùng trình duyệt hoặc terminal, mô hình nào hợp coding, và mô hình nào có lợi thế chi phí.

Điểm mấu chốt: bộ dữ liệu cùng nguồn đầy đủ nhất hiện bao phủ DeepSeek V4-Pro-Max, GPT-5.5/GPT-5.5 Pro và Claude Opus 4.7; dữ liệu của Kimi K2.6 lại nằm rải rác ở cửa sổ ngữ cảnh, BrowseComp, SWE-Bench Pro, Hugging Face model card và một benchmark coding thực tế đơn lẻ, nên chỉ nên dùng để bổ sung chứ không nên ép vào một bảng tổng sắp tuyệt đối.[4][6][10][16][22][24]

Kết luận nhanh: nên thử mô hình nào trước?

Nhu cầuNên thử trướcVì sao
Suy luận khó, hỏi đáp không dùng công cụClaude Opus 4.7Trong bảng cùng nguồn, Claude Opus 4.7 cao nhất ở GPQA Diamond 94,2% và Humanity’s Last Exam không dùng công cụ 46,9%.[4]
Agent dùng terminal, trình duyệt, tool-useGPT-5.5 / GPT-5.5 ProGPT-5.5 đạt 82,7% trên Terminal-Bench 2.0; GPT-5.5 Pro đạt 90,1% trên BrowseComp, đều là mức cao nhất trong bảng tương ứng.[4]
Kỹ thuật phần mềmThử Claude Opus 4.7 trước, sau đó chạy lại với GPT-5.5 và Kimi K2.6Claude Opus 4.7 đạt 64,3% trên SWE-Bench Pro/SWE Pro trong bảng cùng nguồn; LLM Stats cũng ghi Claude Opus 4.7 ở mức 0,64, cao hơn GPT-5.5 và Kimi K2.6 cùng ở 0,59.[4][24]
Khối lượng API lớn, nhạy cảm chi phíDeepSeek V4DeepSeek V4-Pro-Max chưa đứng đầu các benchmark trong bảng cùng nguồn, nhưng nguồn tin cho biết DeepSeek có chi phí khoảng một phần sáu so với các mô hình Mỹ mới nhất.[4][20]
Muốn thử hệ sinh thái Kimi hoặc một hướng coding-agent thay thếKimi K2.6Kimi K2.6 đạt BrowseComp 83,2% trên DocsBot và SWE-Bench Pro 0,59 trên LLM Stats; tuy nhiên chưa có bảng cùng nguồn đầy đủ với cả bốn mô hình.[10][24]
Quy trình cần context rất dàiClaude Opus 4.7 / GPT-5.5 có lợi thế hơnYahoo/Tech liệt kê GPT-5.5 và Claude Opus 4.7 có cửa sổ ngữ cảnh 1 triệu token; Artificial Analysis liệt kê Kimi K2.6 là 256k token và Claude Opus 4.7 là 1000k token.[6][20]

Bảng benchmark cùng nguồn đáng dùng nhất

Các số dưới đây đến từ cùng một bảng so sánh, nên phù hợp để đối chiếu DeepSeek V4-Pro-Max, GPT-5.5/GPT-5.5 Pro và Claude Opus 4.7. Lưu ý: GPT-5.5 Pro chỉ xuất hiện ở một số hạng mục.[4]

BenchmarkDeepSeek V4-Pro-MaxGPT-5.5GPT-5.5 ProClaude Opus 4.7Dẫn đầu trong bảng
GPQA Diamond90,1%93,6%94,2%Claude Opus 4.7 [4]
Humanity’s Last Exam, không dùng công cụ37,7%41,4%43,1%46,9%Claude Opus 4.7 [4]
Humanity’s Last Exam, có dùng công cụ48,2%52,2%57,2%54,7%GPT-5.5 Pro [4]
Terminal-Bench 2.067,9%82,7%69,4%GPT-5.5 [4]
SWE-Bench Pro / SWE Pro55,4%58,6%64,3%Claude Opus 4.7 [4]
BrowseComp83,4%84,4%90,1%79,3%GPT-5.5 Pro [4]
MCP Atlas / MCPAtlas Public73,6%75,3%79,1%Claude Opus 4.7 [4]

Cách đọc bảng khá rõ: Claude Opus 4.7 dẫn ở suy luận khó, giải bài không dùng công cụ, kỹ thuật phần mềm và MCP Atlas; GPT-5.5/GPT-5.5 Pro nổi bật hơn ở terminal, trình duyệt và tác vụ dùng công cụ.[4] DeepSeek V4-Pro-Max không đứng đầu hạng mục nào trong bộ số liệu này, nhưng điểm BrowseComp 83,4% rất gần GPT-5.5 84,4% và cao hơn Claude Opus 4.7 79,3%.[4]

Kimi K2.6: có tín hiệu tốt, nhưng chưa nên xếp chung một bảng tổng

Vấn đề của Kimi K2.6 không phải là thiếu dữ liệu hoàn toàn, mà là dữ liệu nằm ở nhiều nguồn, nhiều chế độ chạy và nhiều nhóm đối chiếu khác nhau. Vì vậy, các con số dưới đây hữu ích để quyết định có nên đưa Kimi vào vòng thử nghiệm hay không, nhưng không nên xem là bảng xếp hạng cùng điều kiện với phần trên.[6][10][16][22][24]

Chỉ sốDữ liệu nhìn thấy cho Kimi K2.6Dữ liệu đối chiếuCách hiểu hợp lý
Cửa sổ ngữ cảnh256k tokenCùng trang so sánh liệt kê Claude Opus 4.7 là 1000k tokenClaude có lợi thế rõ về độ dài ngữ cảnh khả dụng.[6]
BrowseComp83,2% ở Thinking modeDeepSeek-V4 Pro là 83,4% Pass@1 / Think MaxTrong nguồn này, Kimi và DeepSeek-V4 Pro rất sát nhau, nhưng không đồng thời có GPT-5.5 hoặc Claude Opus 4.7.[10]
AIME 2026 / APEX AgentsAIME 2026 là 96,4%; APEX Agents là 27,9%DeepSeek-V4 Pro hiển thị not available trên cùng trangCho thấy Kimi có tín hiệu ở toán và tác vụ agent, nhưng thiếu đối chiếu đầy đủ cả bốn mô hình.[10]
SWE-Bench Pro0,59Claude Opus 4.7 là 0,64; GPT-5.5 là 0,59; DeepSeek V4-Pro-Max là 0,55Trên LLM Stats, Kimi ngang GPT-5.5, thấp hơn Claude và cao hơn DeepSeek.[24]
MMLU-Pro / SimpleQA-VerifiedMMLU-Pro 87,1; SimpleQA-Verified 36,9DS-V4-Pro Max lần lượt là 87,5 và 57,9Có thể dùng để bổ sung khi so Kimi với DeepSeek; nhưng cùng bảng này dùng Opus-4.6 Max và GPT-5.4 xHigh, không phải Claude Opus 4.7 và GPT-5.5.[22]
Benchmark coding thực tế87 điểmClaude Opus 4.7 là 97; GPT-5.5 xHigh là 96; DeepSeek V4 Flash là 78; DeepSeek V4 Pro là 69Có giá trị tham khảo, nhưng đây là một bài coding đơn lẻ, không thay thế benchmark chuẩn hóa hoặc đánh giá trên repo của chính bạn.[16]

Vì vậy, vị trí hợp lý của Kimi K2.6 là một ứng viên nên đưa vào shortlist, nhất là khi bạn muốn thử hệ sinh thái Kimi, một tuyến mô hình thay thế hoặc chi phí coding-agent. Nhưng với dữ liệu hiện có, chưa đủ cơ sở để nói Kimi K2.6 là quán quân có thể chứng minh trong nhóm bốn mô hình này.[10][16][24]

Giá, context window và chi phí triển khai

Benchmark chỉ trả lời một phần câu hỏi về năng lực. Khi đưa vào sản phẩm, giá token đầu vào/đầu ra, độ dài context, độ trễ, quy mô mô hình và chi phí vận hành mới là những thứ quyết định hóa đơn cuối tháng.

Mô hìnhDữ liệu có thể kiểm chứngÝ nghĩa khi chọn
GPT-5.55 USD cho mỗi 1 triệu input token; 30 USD cho mỗi 1 triệu output token; context window 1 triệu tokenGiá input ngang Claude Opus 4.7 trong cùng nguồn, nhưng giá output được liệt kê cao hơn.[20]
Claude Opus 4.75 USD cho mỗi 1 triệu input token; 25 USD cho mỗi 1 triệu output token; context window 1 triệu tokenTrong cùng nguồn, output token rẻ hơn GPT-5.5; Artificial Analysis cũng liệt kê Claude là 1000k context trong trang đối chiếu với Kimi.[6][20]
Kimi K2.6Context window 256k tokenNgắn hơn mức 1000k token của Claude Opus 4.7 trong nguồn so sánh; các nguồn ở đây chưa cung cấp đủ giá token có thể kiểm chứng.[6]
DeepSeek V4Nguồn tin cho biết DeepSeek có chi phí khoảng một phần sáu so với các mô hình Mỹ mới nhất; DataCamp liệt kê DeepSeek V4 Pro là mô hình MoE với 1,6 nghìn tỷ tổng tham số, 49 tỷ tham số hoạt động và bản tải 865GB; bản Flash có 284 tỷ tổng tham số, 13 tỷ tham số hoạt động và bản tải 160GBNếu chỉ gọi API, điểm hấp dẫn chính là chi phí; nếu tự triển khai hoặc private deployment, cần tính thêm phần cứng, tải mô hình, suy luận và vận hành.[13][20]

Tín hiệu chi phí quan trọng nhất là: GPT-5.5 và Claude Opus 4.7 đều được liệt kê ở mức 5 USD/1 triệu input token, nhưng GPT-5.5 là 30 USD/1 triệu output token, còn Claude Opus 4.7 là 25 USD/1 triệu output token; DeepSeek bước vào cuộc chơi với câu chuyện chi phí khoảng một phần sáu.[20]

Chọn theo tác vụ: đọc benchmark như thế nào?

1. Suy luận khó: ưu tiên thử Claude Opus 4.7

Nếu bài toán là suy luận học thuật, phân tích nhiều bước, hỏi đáp cần độ tin cậy cao hoặc giải bài không dùng công cụ, Claude Opus 4.7 là lựa chọn đầu tiên hợp lý nhất theo bảng cùng nguồn. Mô hình này đạt 94,2% trên GPQA Diamond, cao hơn GPT-5.5 93,6% và DeepSeek V4-Pro-Max 90,1%; trên Humanity’s Last Exam không dùng công cụ, Claude Opus 4.7 cũng dẫn với 46,9%.[4]

2. Terminal, trình duyệt và tool-use agent: ưu tiên GPT-5.5 / GPT-5.5 Pro

Nếu tác vụ xoay quanh điều khiển terminal, browser agent, gọi công cụ hoặc giải bài có tool hỗ trợ, GPT-5.5 nổi bật hơn. GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0, cao hơn Claude Opus 4.7 69,4% và DeepSeek V4-Pro-Max 67,9%; GPT-5.5 Pro đạt 90,1% trên BrowseComp, cũng là mức cao nhất trong bảng.[4]

3. Kỹ thuật phần mềm: Claude đang dẫn, nhưng vẫn phải chạy lại trên repo của bạn

Trong bảng cùng nguồn, Claude Opus 4.7 đạt 64,3% trên SWE-Bench Pro/SWE Pro, cao hơn GPT-5.5 58,6% và DeepSeek V4-Pro-Max 55,4%.[4] LLM Stats cho hướng xếp hạng tương tự: Claude Opus 4.7 ở mức 0,64, GPT-5.5 và Kimi K2.6 cùng 0,59, DeepSeek V4-Pro-Max 0,55.[24]

Tuy vậy, benchmark coding rất nhạy với repo, ngôn ngữ lập trình, test framework, cấu hình agent và prompt. Một benchmark coding thực tế đơn lẻ ghi Claude Opus 4.7 97 điểm, GPT-5.5 xHigh 96, Kimi K2.6 87, DeepSeek V4 Flash 78 và DeepSeek V4 Pro 69; các số này có ích để tham khảo, nhưng không nên là cơ sở duy nhất cho quyết định production.[16]

4. Chi phí nhạy cảm, gọi API số lượng lớn: DeepSeek V4 đáng thử sớm

Nếu nút thắt là chi phí token, còn bài toán không đòi mô hình phải đứng đầu mọi benchmark, DeepSeek V4 là ứng viên hợp lý. Dữ liệu cùng nguồn cho thấy DeepSeek V4-Pro-Max ở gần nhóm đầu ở một số bài đo nhưng chưa đứng nhất; đồng thời, nguồn tin cho biết DeepSeek có chi phí khoảng một phần sáu so với các mô hình Mỹ mới nhất.[4][20]

Điểm cần lưu ý là DeepSeek V4 Pro khá lớn: DataCamp liệt kê bản Pro có 1,6 nghìn tỷ tổng tham số, 49 tỷ tham số hoạt động và dung lượng tải 865GB.[13] Nếu không chỉ dùng API bên thứ ba mà còn cân nhắc tự triển khai, chi phí phần cứng, suy luận và vận hành cần được đưa vào cùng một bảng tính.

5. Kimi K2.6: đưa vào shortlist, rồi tự chạy eval

Kimi K2.6 có vài tín hiệu đáng chú ý: DocsBot liệt kê BrowseComp của Kimi K2.6 là 83,2%, rất sát DeepSeek-V4 Pro 83,4% trên cùng trang; LLM Stats ghi Kimi K2.6 đạt 0,59 trên SWE-Bench Pro, ngang GPT-5.5; benchmark coding thực tế cũng ghi Kimi K2.6 đạt 87 điểm.[10][16][24]

Nhưng vì chưa có bộ benchmark cùng nguồn, cùng thiết lập và phủ đủ Claude Opus 4.7, GPT-5.5, DeepSeek V4-Pro-Max và Kimi K2.6, cách dùng hợp lý nhất là xem Kimi như ứng viên tiềm năng, không phải nhà vô địch đã được chứng minh.[10][24]

Vì sao không nên đọc bảng điểm như bảng xếp hạng bóng đá?

  1. Kimi K2.6 thiếu bảng cùng nguồn đầy đủ. Bộ dữ liệu so sánh đầy đủ nhất bao phủ DeepSeek V4-Pro-Max, GPT-5.5/GPT-5.5 Pro và Claude Opus 4.7, nhưng không có Kimi K2.6; dữ liệu của Kimi phải lấy thêm từ DocsBot, Artificial Analysis, LLM Stats, Hugging Face model card và một benchmark coding đơn lẻ.[4][6][10][16][22][24]
  2. Tên phiên bản và chế độ chạy không đồng nhất. Các nguồn dùng nhiều nhãn như GPT-5.5 Pro, GPT-5.5 xHigh, DeepSeek-V4 Pro, DeepSeek V4-Pro-Max, Kimi Thinking, Claude Opus 4.7 Adaptive Reasoning/Max Effort. Không nên mặc định tất cả là cùng một cấu hình.[4][6][10][16][22]
  3. Thang điểm giữa các nền tảng không phải lúc nào cũng cộng trừ trực tiếp được. Ví dụ, bảng cùng nguồn dùng phần trăm cho SWE-Bench Pro/SWE Pro, còn LLM Stats dùng dạng 0,xx cho SWE-Bench Pro; cách chắc hơn là so thứ hạng trong cùng nguồn trước, rồi chạy eval riêng trên tác vụ của bạn.[4][24]
  4. Dữ liệu giá không đều. GPT-5.5 và Claude Opus 4.7 có số giá input/output token rõ ràng; DeepSeek chủ yếu có thông tin chi phí khoảng một phần sáu; còn Kimi K2.6 trong các nguồn ở đây chưa có đủ giá token để kiểm chứng.[6][20]

Phán quyết thực dụng

Nếu buộc phải tóm gọn trong một câu: Claude Opus 4.7 thắng nổi bật ở benchmark suy luận khó và kỹ thuật phần mềm; GPT-5.5/GPT-5.5 Pro thắng ở nhiều benchmark tool-use, terminal và browser; DeepSeek V4-Pro-Max là phương án cân bằng giữa chi phí và năng lực; Kimi K2.6 có tiềm năng nhưng cần thêm bằng chứng cùng nguồn, cùng điều kiện.[4][10][20][24]

Khi triển khai thật, đừng chọn chỉ vì một điểm tổng. Hãy lấy chính repo, bug ticket, workflow nghiên cứu, quyền truy cập công cụ, độ dài context, yêu cầu latency, mức chịu lỗi và ngân sách token của bạn để chạy cùng một bộ eval trên cả bốn mô hình. Đến lúc đó, benchmark mới trở thành câu trả lời có ích cho sản phẩm.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

  • Không có quán quân chung: trong bảng cùng nguồn, Claude Opus 4.7 dẫn GPQA Diamond 94,2% và SWE Bench Pro/SWE Pro 64,3%; GPT 5.5/GPT 5.5 Pro dẫn Terminal Bench 2.0 82,7% và BrowseComp 90,1%.
  • DeepSeek V4 Pro Max chưa đứng đầu trong bảng cùng nguồn, nhưng BrowseComp 83,4% khá sát GPT 5.5 84,4%; nguồn tin cho biết DeepSeek có chi phí khoảng một phần sáu so với các mô hình Mỹ mới nhất, nên đáng thử ở bài toán...
  • Ở kỹ thuật phần mềm, Claude Opus 4.7 dẫn với SWE Bench Pro/SWE Pro 64,3% và điểm 0,64 trên LLM Stats; Kimi K2.6 đạt 0,59 trên LLM Stats, ngang GPT 5.5 trong cùng bảng đó.[4][24]

人們還問

「Claude Opus 4.7, GPT-5.5, DeepSeek V4 và Kimi K2.6: benchmark và cách chọn」的簡短答案是什麼?

Không có quán quân chung: trong bảng cùng nguồn, Claude Opus 4.7 dẫn GPQA Diamond 94,2% và SWE Bench Pro/SWE Pro 64,3%; GPT 5.5/GPT 5.5 Pro dẫn Terminal Bench 2.0 82,7% và BrowseComp 90,1%.

首先要驗證的關鍵點是什麼?

Không có quán quân chung: trong bảng cùng nguồn, Claude Opus 4.7 dẫn GPQA Diamond 94,2% và SWE Bench Pro/SWE Pro 64,3%; GPT 5.5/GPT 5.5 Pro dẫn Terminal Bench 2.0 82,7% và BrowseComp 90,1%. DeepSeek V4 Pro Max chưa đứng đầu trong bảng cùng nguồn, nhưng BrowseComp 83,4% khá sát GPT 5.5 84,4%; nguồn tin cho biết DeepSeek có chi phí khoảng một phần sáu so với các mô hình Mỹ mới nhất, nên đáng thử ở bài toán...

接下來在實務上我該做什麼?

Ở kỹ thuật phần mềm, Claude Opus 4.7 dẫn với SWE Bench Pro/SWE Pro 64,3% và điểm 0,64 trên LLM Stats; Kimi K2.6 đạt 0,59 trên LLM Stats, ngang GPT 5.5 trong cùng bảng đó.[4][24]

接下來我應該探索哪個相關主題?

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6:2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較?

對照「DeepSeek V4 唔止 1M context:MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

研究對話

研究問題

研究 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 嘅基準測試,並盡可能全面咁作出比較。

Studio Global AI25 來源

引用的答案

用你提供嘅證據,未能嚴格完成 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6「同版本、同設定、同基準」嘅全面 benchmark 對比。現有資料對 DeepSeek V4 同 Kimi K2.6 有少量量化分數,但 Claude Opus 4.7 同 GPT-5.5 主要只有定價、上下文長度或定性描述;所以整體結論係:Insufficient evidence.

Key findings

  • Claude Opus 4.7 被描述為 Anthropic 最新 Opus 系列模型,重點係提升進階軟件工程、複雜問題解決、困難 coding challenge 同長流程工作表現,但提供證據入面冇可核實 benchmark 分數。[1]

  • GPT-5.5 喺現有證據入面主要有價格同上下文資料:每 100 萬 input tokens $5、每 100 萬 output tokens $30、1 million context window;但冇提供可用嚟同 DeepSeek V4、Kimi K2.6、Claude Opus 4.7 直接比較嘅 benchmark 分數。[4]

  • Claude Opus 4.7 嘅價格資料為每 100 萬 input tokens $5、每 100 萬 output tokens $25、1 million context window;但證據入面冇同場 benchmark 數字。[4]

  • DeepSeek V4-Pro 有最具體嘅模型規格資料:Pro 版係 MoE 架構,總參數 1.6 trillion、active parameters 49 billion、下載大小 865GB;Flash 版總參數 284 billion、active parameters 13 billion、下載大小 160GB。[7]

  • DeepSeek Hugging Face model card 提供咗部分 knowledge / reasoning benchmark:喺 MMLU-Pro,DS-V4-Pro Max 得 87.5,K2.6 Thinking 得 87.1;但同一表格比較嘅係 Opus-4.6 Max 同 GPT-5.4 xHigh,唔係 Claude Opus 4.7 同 GPT-5.5。[8]

  • 喺 SimpleQA-Verified,DS-V4-Pro Max 得 57.9,K2.6 Thinking 得 36.9;同一表格入面 Opus-4.6 Max 係 46.2、GPT-5.4 xHigh 係 45.3、Gemini-3.1-Pro High 係 75.6,但呢啲唔等於 Claude Opus 4.7 / GPT-5.5 嘅成績。[8]

  • 一個次級報道聲稱 DeepSeek V4-Pro 喺 Codeforces 得分 3,206,約等於人類參賽者第 23 名左右;同一來源亦聲稱 DeepSeek V4-Pro 喺 Apex Shortlist 達 90.2%,高過 Opus 4.6 嘅 85.9%。[2]

  • Artificial Analysis 有一個 DeepSeek V4 Pro Reasoning Max Effort vs GPT-5.5 low 嘅比較頁,並列出 Intelligence Index v4.0 包含 GDPval-AA、Terminal-Bench Hard、SciCode、Humanity’s Last Exam、GPQA Diamond 等項目;但你提供嘅證據片段冇實際分數,所以不能用嚟判斷 GPT-5.5 贏定 DeepSeek V4-Pro 贏。[5]

Benchmark comparison from available evidence

項目Claude Opus 4.7GPT-5.5DeepSeek V4 / V4-ProKimi K2.6
MMLU-Pro無 Opus 4.7 分數;只見 Opus 4.6 Max 89.1無 GPT-5.5 分數;只見 GPT-5.4 xHigh 87.5DS-V4-Pro Max 87.5K2.6 Thinking 87.1
SimpleQA-Verified無 Opus 4.7 分數;只見 Opus 4.6 Max 46.2無 GPT-5.5 分數;只見 GPT-5.4 xHigh 45.3DS-V4-Pro Max 57.9K2.6 Thinking 36.9
Codeforces無資料無資料V4-Pro 3,206;約人類參賽者第 23 名無資料
Apex Shortlist無 Opus 4.7 分數;只見 Opus 4.6 85.9片段不足,不能確認V4-Pro 90.2%無資料
價格$5 / 1M input,$25 / 1M output$5 / 1M input,$30 / 1M output證據不足證據不足
Context window1 million1 million證據不足證據不足

以上表格中,MMLU-Pro 同 SimpleQA-Verified 只可以嚴格比較 DeepSeek V4-Pro Max 同 Kimi K2.6 Thinking;Opus 同 GPT 欄位因為係 Opus 4.6 / GPT-5.4,而唔係用戶指定嘅 Opus 4.7 / GPT-5.5,所以只可作參考,不可當成正式同版本比較。[8]

Model-by-model assessment

Claude Opus 4.7

  • 現有證據將 Claude Opus 4.7 描述為面向高階 software engineering、complex problem-solving、difficult coding challenges 同 long-running workflows 嘅升級模型。[1]

  • 但提供資料冇 SWE-bench、Aider、Terminal-Bench、GPQA、MMLU-Pro、Humanity’s Last Exam 或其他可核實數字,所以無法判定佢相對 GPT-5.5、DeepSeek V4 或 Kimi K2.6 嘅實際 benchmark 排名。[1]

  • 價格方面,Claude Opus 4.7 係 $5 / 1M input tokens、$25 / 1M output tokens,並列出 1 million context window。[4]

GPT-5.5

  • 現有證據顯示 GPT-5.5 價格係 $5 / 1M input tokens、$30 / 1M output tokens,並列出 1 million context window。[4]

  • 另一個來源描述 GPT-5.5 係 natively omnimodal model,並具備 computer use capabilities;但呢個來源冇提供可直接比較嘅 benchmark 分數。[6]

  • Artificial Analysis 比較頁涵蓋 DeepSeek V4 Pro vs GPT-5.5 low,並列出多個 benchmark 組件,但提供證據片段冇實際成績,所以不能得出 GPT-5.5 喺該比較中嘅勝負。[5]

DeepSeek V4 / V4-Pro

  • DeepSeek V4-Pro 係現有證據入面量化資料最多嘅模型:Pro 版採用 MoE,總參數 1.6T、active 49B、下載大小 865GB;Flash 版總參數 284B、active 13B、下載大小 160GB。[7]

  • 喺 Hugging Face model card 表格,DS-V4-Pro Max 喺 MMLU-Pro 得 87.5,略高於 K2.6 Thinking 嘅 87.1,但低於 Opus-4.6 Max 嘅 89.1 同 Gemini-3.1-Pro High 嘅 91.0。[8]

  • 喺 SimpleQA-Verified,DS-V4-Pro Max 得 57.9,高過 K2.6 Thinking 36.9、Opus-4.6 Max 46.2 同 GPT-5.4 xHigh 45.3,但低過 Gemini-3.1-Pro High 75.6。[8]

  • 一個次級報道聲稱 V4-Pro 喺 Codeforces 得 3,206,約等於人類參賽者第 23 名左右;呢個係有用但需要獨立驗證嘅 competitive programming 指標。[2]

  • 同一報道稱 V4-Pro 喺 Apex Shortlist 得 90.2%,高過 Opus 4.6 嘅 85.9%;但該證據唔係官方 benchmark 報告,而且片段未完整列出 GPT 或 Kimi 對應值。[2]

Kimi K2.6

  • Kimi K2.6 喺現有證據入面主要出現喺 DeepSeek Hugging Face benchmark 表格,版本標示為 K2.6 Thinking。[8]

  • 喺 MMLU-Pro,K2.6 Thinking 得 87.1,略低於 DS-V4-Pro Max 87.5。[8]

  • 喺 SimpleQA-Verified,K2.6 Thinking 得 36.9,低於 DS-V4-Pro Max 57.9、Opus-4.6 Max 46.2 同 GPT-5.4 xHigh 45.3。[8]

  • 現有證據冇提供 Kimi K2.6 嘅價格、context window、coding benchmark、agent benchmark 或數學 benchmark,因此不能全面評估佢相對另外三個模型嘅整體能力。

Evidence notes

  • 最有量化價值嘅證據係 DeepSeek Hugging Face model card,因為佢提供咗 MMLU-Pro 同 SimpleQA-Verified 分數;但佢比較嘅係 DS-V4-Pro Max、K2.6 Thinking、Opus-4.6 Max、GPT-5.4 xHigh 等,唔係完整覆蓋 Claude Opus 4.7 同 GPT-5.5。[8]

  • Artificial Analysis 來源有潛在價值,因為佢列出一組較全面嘅 Intelligence Index v4.0 benchmarks;但現有片段只見 benchmark 名稱,冇分數,所以不能用嚟作量化結論。[5]

  • SourceForge 對 Claude Opus 4.7 只提供產品描述式資訊,說明其針對 software engineering、complex problem-solving、long-running workflows 有提升,但缺少 benchmark 數字。[1]

  • Yahoo / Mashable 片段提供 GPT-5.5 同 Claude Opus 4.7 價格及 context window,但唔提供 benchmark 結果。[4]

  • Cryptonews 來源提供 DeepSeek V4-Pro 嘅 Codeforces 同 Apex Shortlist 數字,但屬次級報道,可靠性弱過官方 model card 或獨立 benchmark 平台。[2]

Limitations / uncertainty

  • Insufficient evidence:現有資料不足以對 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 做嚴格、全面、同版本、同設定嘅 benchmark 排名。

  • 最大問題係版本唔一致:可見量化表格比較咗 Opus-4.6 Max 同 GPT-5.4 xHigh,而用戶問題要求嘅係 Claude Opus 4.7 同 GPT-5.5。[8]

  • 第二個問題係 benchmark 覆蓋唔平均:DeepSeek V4-Pro 同 Kimi K2.6 有少量 knowledge / QA 分數,但 Claude Opus 4.7 同 GPT-5.5 缺少同場分數。[8]

  • 第三個問題係來源可靠性參差:Hugging Face model card 有分數但可能屬模型發布方資料;Artificial Analysis 片段有方法但冇分數;新聞 / blog 類來源提供部分資訊但需要更高權威來源驗證。[2][5][8]

Summary

  • 如果只睇現有量化證據,DeepSeek V4-Pro Max 喺 SimpleQA-Verified 明顯高過 Kimi K2.6 Thinking,喺 MMLU-Pro 亦略高過 Kimi K2.6 Thinking。[8]

  • 但 DeepSeek V4-Pro Max 對 Claude Opus 4.7 同 GPT-5.5 嘅直接勝負無法判定,因為可見表格只列 Opus-4.6 Max 同 GPT-5.4 xHigh,而唔係指定版本。[8]

  • Claude Opus 4.7 目前只可確認其定位係強化 software engineering、complex problem-solving 同 long-running workflows;GPT-5.5 目前只可確認價格、1 million context window,以及一個來源聲稱佢係 natively omnimodal model with computer use capabilities。[1][4][6]

  • 最穩妥結論係:DeepSeek V4-Pro 喺你提供嘅證據中有最多可比較數據;Kimi K2.6 有少量可比較數據;Claude Opus 4.7 同 GPT-5.5 缺少足夠 benchmark 數字,所以不能公平排名。

來源

  • [4] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...

  • [6] Kimi K2.6 vs Claude Opus 4.7 (Adaptive Reasoning, Max Effort): Model Comparisonartificialanalysis.ai

    Highlights Model Comparison Metric Kimi logoKimi K2.6 Anthropic logoClaude Opus 4.7 (Adaptive Reasoning, Max Effort) Analysis --- --- Creator Kimi Anthropic Context Window 256k tokens ( 384 A4 pages of size 12 Arial font) 1000k tokens ( 1500 A4 pages of siz...

  • [10] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Benchmark Kimi K2.6 DeepSeek-V4 Pro --- AIME 2026 American Invitational Mathematics Examination 2026 - Evaluates advanced mathematical problem-solving abilities (contest-level math) 96.4% Thinking mode Source Not available APEX Agents Evaluates long-horizon...

  • [13] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...

  • [16] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com

    Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...

  • [20] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminitech.yahoo.com

    DeepSeek V4 is here: How it compares to ChatGPT, Claude, Gemini GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context window) Claude Opus 4.7costs at $5 per 1 million input tokens and $25 per 1 million output...

  • [22] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...

  • [24] DeepSeek-V4-Pro-Max: Pricing, Benchmarks & Performancellm-stats.com

    SWE-Bench ProView → 11 of 11 Image 35: LLM Stats Logo SWE-Bench Pro is an advanced version of SWE-Bench that evaluates language models on complex, real-world software engineering tasks requiring extended reasoning and multi-step problem solving. More 1Image...