studioglobal
熱門探索內容
報告已發布13 個來源

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4-Pro: benchmark và cách chọn

Chưa có đủ dữ liệu công khai để xếp một quán quân tuyệt đối. GPT 5.5 đạt 82,7% trên Terminal Bench 2.0, còn Claude Opus 4.7 được ghi nhận 64,3% trên SWE Bench Pro, nhưng các điểm này đến từ nguồn và điều kiện khác nha...

17K0
四款 AI 模型的基準測試比較示意圖,包含 GPT-5.5、Claude Opus 4.7、Kimi K2.6 與 DeepSeek V4
GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 基準測試比較AI 生成示意圖:本文比較 GPT-5.5、Claude Opus 4.7、Kimi K2.6 與 DeepSeek V4-Pro 在公開基準測試中的表現。
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 基準測試比較. Article summary: 目前不能公平選出單一總冠軍;四款模型缺少同一評測 harness、同一工具設定下的完整共同分數。可引用資料中,GPT 5.5 以 82.7% 領先 Terminal Bench 2.0,Claude Opus 4.7 以 64.3% 暫居 SWE Bench Pro 第一,但 Claude 數字來自次級整理引用 AWS。[27][4]. Topic tags: ai, llm, benchmarks, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different futures for AI" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal thr

openai.com

Đặt GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4-Pro vào cùng một bảng rất dễ tạo cảm giác đã có người thắng cuộc. Nhưng với dữ liệu hiện có, sai lầm lớn nhất là xem các điểm số từ nhiều nguồn, nhiều quyền dùng công cụ và nhiều mức reasoning effort như một leaderboard duy nhất. Cách đọc thực tế hơn là chọn theo việc cần làm: ưu tiên GPT-5.5 cho Terminal/CLI workflow; Claude Opus 4.7 cho SWE-Bench, thị giác và computer-use; DeepSeek V4-Pro cho kiến thức, toán và hướng mô hình mở; Kimi K2.6 cho agent đa phương thức trên Cloudflare Workers AI.[27][4][1][5][64][36]

Bức tranh nhanh: điểm nào đang có thể trích dẫn?

Bảng dưới đây chỉ gom các con số có trong nguồn hiện tại. Dấu gạch ngang không có nghĩa là mô hình yếu ở mục đó, mà chỉ là nguồn lần này không có điểm có thể trích dẫn cùng cột. Quan trọng hơn: các điểm này không đến từ cùng một bộ chấm, nên phù hợp để sàng lọc ban đầu hơn là kết luận thắng thua tuyệt đối.

Bài test hoặc tác vụGPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4-ProCách hiểu thực tế
Terminal-Bench 2.082,7% [27]69,4% [4]66,7 [84]67,9 [64]Trong dữ liệu có thể trích dẫn, GPT-5.5 nổi bật nhất cho workflow dòng lệnh.
SWE-Bench Pro58,6% [27]64,3% [4]58,6 [84]55,4 [64]Claude đang dẫn trong các điểm có thể trích dẫn, nhưng số này là nguồn thứ cấp dẫn AWS.
SWE-Bench Verified / Resolved87,6% [4]80,2 [45]80,6 [64]Claude cao nhất, nhưng thiếu điểm GPT-5.5 cùng hàng và cách gọi giữa nguồn không hoàn toàn đồng nhất.
Graphwalks 256k: BFS / parents73,7 / 90,1 [21]76,9 / 93,6 [21]Trong bảng long-context của OpenAI ở mốc 256k, Claude Opus 4.7 nhỉnh hơn GPT-5.5 ở hai dòng này.
Graphwalks 1M: BFS / parents45,4 / 58,5 [21]Bảng OpenAI cho thấy năng lực ngữ cảnh 1M của GPT-5.5; cột đối chiếu 1M trong cùng bảng ghi Opus 4.6, không nên dùng để kết luận về Opus 4.7.
Kiến thức và toánGPQA Diamond 90,1; GSM8K 92,6; MMLU-Pro 87,5; HLE 37,7 [64]DeepSeek V4-Pro có bộ số liệu model card công khai đầy đủ nhất trong nhóm nguồn này.
Thị giác, screenshot, computer-useCải thiện cho vision-heavy workloads; tọa độ pixel 1:1; XBOW visual-acuity 98,5% [1][5]Cloudflare mô tả là native multimodal agentic model, nhưng không có điểm benchmark thị giác cùng hệ quy chiếu [36]Claude Opus 4.7 có bằng chứng trực tiếp nhất cho thao tác giao diện và hiểu ảnh.

Vì sao không nên chốt một bảng xếp hạng chung?

Thứ nhất, cấp độ nguồn không giống nhau. Điểm Terminal-Bench 2.0 và SWE-Bench Pro của GPT-5.5 đến từ bài Yahoo Finance/Investing.com dẫn kết quả benchmark do OpenAI cung cấp.[27] Điểm SWE-Bench Pro, SWE-Bench Verified và Terminal-Bench 2.0 của Claude Opus 4.7 đến từ một bài tổng hợp thứ cấp dẫn AWS.[4] Một phần điểm của Kimi K2.6 và DeepSeek V4-Pro lại nằm trên model card Hugging Face.[84][64]

Thứ hai, quyền dùng công cụ có thể đảo thứ hạng. Trong số liệu HLE mà Mashable tường thuật, khi không dùng công cụ, Claude Opus 4.7 đạt 46,9% còn GPT-5.4 Pro đạt 42,7%; nhưng khi có công cụ, GPT-5.4 Pro đạt 58,7% còn Claude Opus 4.7 đạt 54,7%.[6] Đây không phải điểm của GPT-5.5, nhưng đủ để nhắc rằng with tools và without tools không nên trộn vào cùng một bảng.

Thứ ba, phiên bản và chi phí chạy cũng ảnh hưởng cách đọc. DeepSeek V4 có V4-Pro và V4-Flash; Yahoo Finance dẫn lời DeepSeek rằng V4-Flash là lựa chọn hiệu quả và kinh tế hơn, trong khi các điểm chi tiết ở đây chủ yếu tương ứng với DeepSeek-V4-Pro.[57][64] Artificial Analysis cũng tách GPT-5.5 thành các biến thể effort và cho biết GPT-5.5 xhigh chạy Index của họ đắt hơn đời trước khoảng 20%, nhưng rẻ hơn Claude Opus 4.7 max khoảng 30%.[24]

GPT-5.5: mạnh nhất khi nhìn vào Terminal workflow và ngữ cảnh dài

Điểm sáng rõ nhất của GPT-5.5 trong nhóm dữ liệu này là Terminal-Bench 2.0. Yahoo Finance/Investing.com cho biết, theo kết quả benchmark do OpenAI cung cấp, GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0, bài đo dùng để đánh giá command-line workflows; cùng bài viết cũng nêu GPT-5.5 đạt 58,6% trên SWE-Bench Pro, bài đo khả năng xử lý GitHub issue resolution.[27]

Ở mảng ngữ cảnh dài, bảng của OpenAI đưa ra chi tiết hơn: GPT-5.5 đạt 73,7 ở Graphwalks BFS 256k và 45,4 ở 1M; với Graphwalks parents, mô hình đạt 90,1 ở 256k và 58,5 ở 1M. Cùng bảng cho thấy GPT-5.4 chỉ đạt 9,4 ở Graphwalks BFS 1M, trong khi GPT-5.5 đạt 45,4.[21]

Đánh giá bên thứ ba cũng đáng chú ý nhưng nên đọc như một nguồn bổ sung. Artificial Analysis gọi GPT-5.5 là mô hình AI dẫn đầu mới, nói OpenAI dẫn ở 5 bài headline evaluations và đứng sau Gemini 3.1 Pro Preview ở 3 bài; họ cũng cho biết GPT-5.5 xhigh dùng ít hơn khoảng 40% output tokens so với đời trước khi chạy Index của họ.[24]

Nên thử trước nếu bạn cần: tự động hóa CLI, terminal agents, truy xuất trong ngữ cảnh dài, hoặc agentic coding workflow cần kiểm soát chi phí output token.[27][21][24]

Claude Opus 4.7: nổi bật ở coding, thị giác và computer-use

Claude Opus 4.7 có bằng chứng chính thức rõ nhất về thị giác và thao tác giao diện. Tài liệu API của Anthropic nói thay đổi này có thể mở ra cải thiện hiệu năng cho vision-heavy workloads, đặc biệt quan trọng với computer use, screenshot, artifact và document understanding workflows; tài liệu cũng cho biết tọa độ của mô hình khớp 1:1 với pixel thực, giảm nhu cầu tính scale factor.[1]

Trang ra mắt của Anthropic dẫn benchmark visual-acuity của XBOW, trong đó Claude Opus 4.7 đạt 98,5%, còn Opus 4.6 đạt 54,5%.[5] Vì vậy, với các tác vụ như hiểu ảnh chụp màn hình, đọc bố cục tài liệu, thao tác desktop UI hoặc computer-use agent, Claude Opus 4.7 có phần chứng cứ trực tiếp hơn ba mô hình còn lại.[1][5]

Về benchmark coding, một bài tổng hợp cho biết AWS cites Claude Opus 4.7 đạt 64,3% trên SWE-Bench Pro, 87,6% trên SWE-Bench Verified và 69,4% trên Terminal-Bench 2.0.[4] Các số này khiến Claude tạm dẫn trong các hàng SWE-Bench Pro và Verified/Resolved có thể trích dẫn ở đây, nhưng vì nguồn không phải bảng benchmark chính thức trực tiếp, đội triển khai vẫn nên chạy lại trên repo của mình trước khi quyết định.

Một lưu ý sản xuất cũng rất thực tế: tài liệu Anthropic nhắc rằng ảnh độ phân giải cao sẽ dùng nhiều token hơn; nếu không cần thêm chi tiết hình ảnh, nên downsample ảnh trước khi gửi cho Claude để tránh tăng token usage.[1]

Nên thử trước nếu bạn cần: sửa lỗi GitHub issue, coding agent, hiểu screenshot/tài liệu, computer-use agents, hoặc thao tác UI cần tọa độ pixel chính xác.[1][4][5]

Kimi K2.6: ứng viên agent đa phương thức trên Workers AI

Cloudflare changelog cho biết Moonshot AI Kimi K2.6 đã có trên Workers AI từ ngày 20/04/2026, với model ID @cf/moonshotai/kimi-k2.6; Cloudflare gọi đây là Day 0 support hợp tác với Moonshot AI.[36]

Cùng nguồn mô tả Kimi K2.6 là native multimodal agentic model, nhấn mạnh các năng lực như long-horizon coding, coding-driven design, proactive autonomous execution và swarm-based task orchestration. Cloudflare cũng nói mô hình dùng kiến trúc Mixture-of-Experts, tổng 1T tham số và 32B tham số active trên mỗi token.[36]

Về điểm công khai, model card Hugging Face của Kimi K2.6 ghi Terminal-Bench 2.0 là 66,7, SWE-Bench Pro là 58,6 và SWE-Bench Multilingual là 76,7.[84] MarkTechPost cũng tường thuật Kimi K2.6 đạt 80,2 trên SWE-Bench Verified.[45]

Nên thử trước nếu bạn cần: triển khai sẵn trên Cloudflare Workers AI, long-horizon coding, coding-driven design, workflow agent đa phương thức hoặc phối hợp nhiều agent.[36][84]

DeepSeek V4-Pro: bảng điểm kiến thức/toán đầy đủ và câu chuyện mô hình mở rõ ràng

Trong các nguồn hiện có, DeepSeek V4 được chia thành V4-Pro và V4-Flash. Yahoo Finance tường thuật rằng DeepSeek nói V4-Pro dẫn đáng kể các open-source models khác trên world knowledge benchmarks và chỉ thua nhẹ mô hình đóng hàng đầu Gemini-Pro-3.1; cùng bài viết cho biết V4-Flash là lựa chọn hiệu quả và kinh tế hơn.[57]

Model card Hugging Face của DeepSeek-V4-Pro cung cấp bộ điểm đầy đủ nhất trong bài này cho kiến thức, toán, coding và terminal: GPQA Diamond 90,1; GSM8K 92,6; HLE 37,7; MMLU-Pro 87,5; SWE-Bench Pro 55,4; SWE-Bench Verified/Resolved 80,6; TerminalBench 2.0 67,9.[64]

CNBC tường thuật DeepSeek nói V4 đã được tối ưu cho các agent tools phổ biến như Claude Code và OpenClaw; Wei Sun, principal AI analyst của Counterpoint, nhận định benchmark profile của V4 cho thấy mô hình có thể mang lại năng lực agent tốt với chi phí thấp hơn đáng kể.[58]

Nên thử trước nếu bạn cần: hướng mô hình mở, benchmark kiến thức/toán, đánh giá chi phí-hiệu năng cho agent tooling, hoặc muốn thử mô hình có thể tải về trong môi trường tự quản.[58][64]

Chọn nhanh theo tác vụ

  • Terminal automation / command-line agents: thử GPT-5.5 trước. Trong dữ liệu có thể trích dẫn, GPT-5.5 đạt 82,7% trên Terminal-Bench 2.0, cao hơn Claude Opus 4.7 ở 69,4%, DeepSeek V4-Pro ở 67,9 và Kimi K2.6 ở 66,7.[27][4][64][84]
  • Sửa lỗi phần mềm kiểu SWE-Bench Pro: thử Claude Opus 4.7 trước, nhưng phải chạy lại trên repo thật. Các điểm có thể trích dẫn cho thấy Claude Opus 4.7 đạt 64,3%, GPT-5.5 và Kimi K2.6 cùng 58,6, DeepSeek V4-Pro 55,4; tuy vậy điểm Claude đến từ nguồn thứ cấp.[4][27][84][64]
  • Screenshot, document understanding, computer-use: ưu tiên Claude Opus 4.7. Anthropic trực tiếp nêu vision-heavy workflows, computer use và tọa độ pixel 1:1; trang ra mắt cũng dẫn kết quả visual-acuity XBOW 98,5%.[1][5]
  • Kiến thức/toán và hướng mô hình mở: đưa DeepSeek V4-Pro vào shortlist. Model card Hugging Face của nó có cùng lúc GPQA Diamond, GSM8K, HLE, MMLU-Pro, SWE-Bench và TerminalBench 2.0.[64]
  • Agent đa phương thức trên Workers AI: Kimi K2.6 đáng thử. Cloudflare đã hỗ trợ Kimi K2.6 trên Workers AI từ ngày đầu và định vị mô hình cho long-horizon coding cùng swarm-based task orchestration.[36]

Trước khi triển khai, hãy chạy lại trong cùng điều kiện

Để có kết luận nội bộ có thể bảo vệ được, nên dùng cùng model version hoặc API model ID, cùng độ dài ngữ cảnh, cùng quyền dùng công cụ, cùng reasoning effort, cùng temperature, cùng token budget và cùng scoring harness. Quyền dùng công cụ đặc biệt không nên trộn lẫn, vì ví dụ HLE đã cho thấy with tools và without tools có thể làm thay đổi tương quan kết quả.[6]

Chi phí cũng cần được đo cùng năng lực. Artificial Analysis cho biết GPT-5.5 xhigh chạy Index của họ đắt hơn đời trước khoảng 20%, rẻ hơn Claude Opus 4.7 max khoảng 30% và dùng ít hơn khoảng 40% output tokens so với đời trước; trong khi đó, tài liệu Anthropic nhắc rằng ảnh độ phân giải cao dùng nhiều token hơn.[24][1] Với agent chạy production, độ trễ, lượng token, tỷ lệ gọi tool thành công và khả năng tự sửa lỗi thường quan trọng không kém một điểm benchmark đơn lẻ.

Kết luận

So sánh đáng tin nhất hiện nay không phải là một ngôi vô địch chung, mà là lựa chọn theo tác vụ: Terminal-Bench nghiêng về GPT-5.5; SWE-Bench và thị giác/computer-use nghiêng về Claude Opus 4.7; bảng điểm kiến thức/toán và hướng mô hình mở khiến DeepSeek V4-Pro đáng chú ý; còn workflow agent đa phương thức trên Workers AI nên đưa Kimi K2.6 vào danh sách thử nghiệm.[27][4][1][5][64][36] Chỉ khi bốn mô hình có điểm đầy đủ trong cùng harness, cùng quyền dùng công cụ và cùng điều kiện phiên bản, việc xếp một bảng tổng mới thật sự có ý nghĩa.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • Chưa có đủ dữ liệu công khai để xếp một quán quân tuyệt đối. GPT 5.5 đạt 82,7% trên Terminal Bench 2.0, còn Claude Opus 4.7 được ghi nhận 64,3% trên SWE Bench Pro, nhưng các điểm này đến từ nguồn và điều kiện khác nha...
  • Với screenshot, hiểu tài liệu trực quan và computer use, Claude Opus 4.7 có bằng chứng chính thức rõ nhất: Anthropic nói tới cải thiện cho vision heavy workflows, tọa độ 1:1 theo pixel và benchmark thị giác XBOW 98,5%...
  • DeepSeek V4 Pro có bảng điểm kiến thức/toán đầy đủ trên Hugging Face, trong khi Kimi K2.6 nổi bật ở khả năng có sẵn trên Cloudflare Workers AI và định vị native multimodal agentic workflow.[64][36]

大家也會問

「GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4-Pro: benchmark và cách chọn」的簡短答案是什麼?

Chưa có đủ dữ liệu công khai để xếp một quán quân tuyệt đối. GPT 5.5 đạt 82,7% trên Terminal Bench 2.0, còn Claude Opus 4.7 được ghi nhận 64,3% trên SWE Bench Pro, nhưng các điểm này đến từ nguồn và điều kiện khác nha...

最值得優先驗證的重點是什麼?

Chưa có đủ dữ liệu công khai để xếp một quán quân tuyệt đối. GPT 5.5 đạt 82,7% trên Terminal Bench 2.0, còn Claude Opus 4.7 được ghi nhận 64,3% trên SWE Bench Pro, nhưng các điểm này đến từ nguồn và điều kiện khác nha... Với screenshot, hiểu tài liệu trực quan và computer use, Claude Opus 4.7 có bằng chứng chính thức rõ nhất: Anthropic nói tới cải thiện cho vision heavy workflows, tọa độ 1:1 theo pixel và benchmark thị giác XBOW 98,5%...

接下來在實務上該怎麼做?

DeepSeek V4 Pro có bảng điểm kiến thức/toán đầy đủ trên Hugging Face, trong khi Kimi K2.6 nổi bật ở khả năng có sẵn trên Cloudflare Workers AI và định vị native multimodal agentic workflow.[64][36]

下一步適合探索哪個相關主題?

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較:2026 年誰最值得信?」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「DeepSeek V4 工程解析:1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試表現,並根據這些基準測試對它們進行比較。

Studio Global AI40 個來源

附引用的答案

僅依據你提供的證據,現在還不能對 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 做出嚴格而公平的基準測試總排名,因為這些材料沒有提供同一套 benchmark、同一版本設定下的完整分數,而且完全沒有 GPT-5.5 的 benchmark 資料。較能成立的結論是:Claude Opus 4.7 有最明確的官方證據顯示其在視覺與 computer-use 類工作流上提升明顯,[2] 且有次級報導稱其狹義重回 generally available LLM 的領先位置。[5] DeepSeek V4-Pro 則有公司說法經媒體轉述,稱其在 world knowledge benchmarks 上明顯領先其他開源模型,[6] 而 Kimi K2.6 在現有證據中只有產品定位與上線資訊,缺少可直接比較的 benchmark 成績。[1]

Key findings

  • 無法產生可信的四模型總排名:你提供的材料沒有共享 benchmark 分數,且缺少 GPT-5.5 的任何 benchmark 證據。

  • Claude Opus 4.7 的強項證據最集中在視覺與 computer-use 工作流。Anthropic 官方文件說明它對 vision-heavy workloads 有 performance gains,特別影響 computer use、screenshot、artifact 與 document understanding workflows,且將座標映射到影像也更簡單。[2] VentureBeat 另稱其解析度提升到前代的 3 倍,並在標題中將其描述為狹義重回 generally available LLM 領先。[5]

  • DeepSeek V4-Pro 的 benchmark 相關競爭性敘述最明確,但主要來自公司說法經媒體轉述。報導稱它在 world knowledge benchmarks 上明顯領先其他開源模型,且只略遜於頂級閉源模型;另有分析師根據其 benchmark profile 認為它可能以更低成本提供很強的 agent 能力。[6][7]

  • Kimi K2.6 目前只能確認是 Moonshot AI 的原生多模態 agentic model,並於 2026-04-20 在 Workers AI 上得到 Day 0 支援;你提供的證據沒有其可比 benchmark 分數。[1]

Confirmed facts

  • Kimi K2.6 已於 2026-04-20 在 Workers AI 上可用,Cloudflare 表示這是與 Moonshot AI 合作的 Day 0 支援;該模型被描述為 native multimodal agentic model。[1]

  • Anthropic 官方文件表示 Claude Opus 4.7 的變更會帶來 vision-heavy workloads 的 performance gains,且特別有助於 computer use、screenshot、artifact、document understanding workflows;將座標映射到影像也變得更簡單。[2]

  • VentureBeat 報導稱 Claude Opus 4.7 帶來相較前代 3 倍的解析度提升,並在標題中將其描述為狹義重回「most powerful generally available LLM」。[5]

  • 媒體報導稱 DeepSeek 提供 DeepSeek V4-Pro 與 DeepSeek V4-Flash 兩個版本;其中 V4-Pro 被描述為在 world knowledge benchmarks 上明顯領先其他開源模型,且僅略遜於頂級閉源模型。[6]

  • CNBC 報導稱 DeepSeek V4 已針對 Claude Code 與 OpenClaw 之類 agent 工具做最佳化;Counterpoint 的 Wei Sun 則認為其 benchmark profile 顯示它可能以更低成本提供優秀 agent 能力。[7]

  • Hugging Face 上存在一則要求補充 DeepSeek-V4-Pro 在 GPQA、GSM8K、HLE、MMLU-Pro、SWE-Bench Pro、SWE-Bench Verified、Terminal-Bench 2.0 等項目社群評測結果的討論。[4]

What remains inference

  • 把 Claude Opus 4.7 判定為四者整體第一,仍屬推論;現有證據沒有同一組 benchmark 的分數表可直接支持這個結論。[2][5]

  • 把 DeepSeek V4-Pro 判定為所有開源任務全面第一,也仍屬推論;目前可見的是媒體轉述的公司說法,缺少你提供證據中的原始分數表。[6]

  • 把 Kimi K2.6 放在任何明確名次,幾乎純屬猜測;目前只知道它的產品定位,沒有硬 benchmark 成績。[1]

  • 對 GPT-5.5 作任何 benchmark 結論都沒有證據基礎,因為提供材料裡沒有它的 benchmark 資料。

What the evidence suggests

  • 若只看視覺與 computer-use 類任務,Claude Opus 4.7 的證據最強,因為這是唯一在官方文件中明確聲稱該類工作流有性能提升的模型,且次級報導補充了解析度提升細節。[2][5]

  • 若只看現有材料中最明確的 benchmark 競爭描述,DeepSeek V4-Pro 在 world knowledge benchmarks 的定位最突出,因為它是唯一被直接描述為明顯領先其他開源模型的模型。[6]

  • 若看 agent tooling 與成本效益敘事,DeepSeek V4 也有較清楚的外部分析支持,因為報導提到它針對 Claude Code、OpenClaw 做了最佳化,且分析師從其 benchmark profile 推論出較強的 agent 能力/成本比。[7]

  • Kimi K2.6 看起來是以多模態與 agentic 能力為賣點,但在這組證據裡沒有足夠 benchmark 資料把它與 Claude 或 DeepSeek 做定量比較。[1]

  • 整體四模型排序:Insufficient evidence。

Conflicting evidence or uncertainty

  • 最大的不確定性不是「誰贏」,而是「有沒有可比數據」:目前沒有看到四個模型在同一 benchmark、同一版本、同一提示或工具設定下的分數。

  • Claude 的「領先」敘事主要來自次級報導的綜述與標題,而不是你提供證據中的原始官方 benchmark 表。[5]

  • DeepSeek 的最強 benchmark 主張來自公司說法經媒體轉述,因此可信度低於官方技術報告或第三方獨立評測。[6]

  • Kimi K2.6 的 benchmark 能力在這組證據裡幾乎空白,所以不能因產品描述或上線速度而推斷其分數。[1]

  • Reddit 上有人提醒 SWE-bench leaderboard 可能混用了不同版本與不同 benchmark 任務,這提示跨榜單比較可能失真;但這只是低權威來源,最多當弱提醒使用。[65]

Open questions

  • GPT-5.5 在 MMLU-Pro、GPQA、HLE、SWE-Bench Verified/Pro、Terminal-Bench 2.0、以及多模態 benchmark 上的成績是什麼?

  • Claude Opus 4.7、Kimi K2.6、DeepSeek V4 是否有同一版本 benchmark 表,且使用一致的工具權限、上下文長度、溫度與評分規則?

  • DeepSeek V4-Pro 所謂的 world knowledge benchmarks,具體是哪些測試、原始分數是多少、對照模型又是哪些?[6]

  • Kimi K2.6 是否已有第三方獨立 benchmark,而不只是上線與產品定位資訊?[1]

Sources worth trusting most

  • [2] 是 Anthropic 官方文件,對 Claude Opus 4.7 的產品級能力變更與適用工作流最可信。[2]

  • [1] 是 Cloudflare 官方 changelog,對 Kimi K2.6 的上線時間、可用性與產品定位最可信。[1]

  • [6][7] 是較可靠的媒體報導,適合用來了解 DeepSeek 的對外 benchmark 敘事與外部分析,但仍屬次級來源。[6][7]

  • [5] 可作為 Claude Opus 4.7 外界競爭定位的參考,但對硬 benchmark 來說仍弱於官方技術文件。[5]

  • [4] 只能證明社群正在補充 DeepSeek-V4-Pro 的評測結果,不能當成最終 benchmark 證據。[4]

  • [65] 權威性最低,只適合拿來提醒跨榜單比較可能有方法學問題。[65]

Recommended next step

  • 如果你要一個真正可 defend 的比較,下一步應該只蒐集四模型在共享 benchmark 上的原始分數表,優先看 MMLU-Pro、GPQA、HLE、SWE-Bench Verified/Pro、Terminal-Bench 2.0,以及多模態評測,並要求每個結果都標明是否允許 tools、browsing、test-time compute 與不同解碼設定。

  • 在目前這組證據下,最安全的暫時結論是:Claude Opus 4.7 在視覺/computer-use 能力的證據最強,[2][5] DeepSeek V4-Pro 在開源對比的 world knowledge benchmark 敘事最強,[6] Kimi K2.6 與 GPT-5.5 都不足以納入公平排名。[1]

Summary

基於目前證據,不能對 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 做可靠的總體 benchmark 排名。較可靠的局部結論是:Claude Opus 4.7 在 vision/computer-use 類場景的正向證據最強,[2][5] DeepSeek V4-Pro 有最明確的開源 benchmark 領先聲稱,[6][7] Kimi K2.6 缺 benchmark 數據,[1] GPT-5.5 則完全沒有可用資料。若要嚴格比較,現階段最誠實的答案就是:Insufficient evidence。

來源

  • [1] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com

    What's new in Claude Opus 4.7 - Claude API Docs Loading... . This change should unlock performance gains on vision-heavy workloads, and is particularly important for computer use and screenshot/artifact/document understanding workflows. Additionally, operat...

  • [4] Claude Opus 4.7: Pricing, Benchmarks & Context Windowalmcorp.com

    For coding, the official materials point to several standout numbers. Anthropic says Opus 4.7 improved resolution by 13% over Opus 4.6 on a 93-task coding benchmark. AWS cites 64.3% on SWE-bench Pro, 87.6% on SWE-bench Verified, and 69.4% on Terminal-Bench...

  • [5] Introducing Claude Opus 4.7anthropic.com

    Image 22: logo Claude Opus 4.7 feels like a real step up in intelligence. Code quality is noticeably improved, it’s cutting out the meaningless wrapper functions and fallback scaffolding that used to pile up, and fixes its own code as it goes. It’s the clea...

  • [6] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com

    Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...

  • [21] Introducing GPT-5.5openai.com

    Long context EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro Graphwalks BFS 256k f1 73.7%62.5%--76.9%- Graphwalks BFS 1mil f1 45.4%9.4%--41.2% (Opus 4.6)- Graphwalks parents 256k f1 90.1%82.8%--93.6%- Graphwalks parents 1mil f1 58.5%44....

  • [24] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai

    Image 2 OpenAI leads five of our headline evaluations and places second to Gemini 3.1 Pro Preview on three. Image 3 Effort variants provide a clear ladder to balance intelligence and cost. GPT-5.5 (xhigh) is 20% more expensive to run our Index than its pred...

  • [27] OpenAI releases GPT-5.5 with improved coding and research capabilitiesca.finance.yahoo.com

    © 2026 All rights reserved. About our ads Advertising Jobs Yahoo Finance Yahoo Finance Mail Sign in Investing.com OpenAI releases GPT-5.5 with improved coding and research capabilities Louis Juricic 1 min read Investing.com -- OpenAI announced Thursday the...

  • [36] Moonshot AI Kimi K2.6 now available on Workers AIdevelopers.cloudflare.com

    Image 2: hero image ← Back to all posts Moonshot AI Kimi K2.6 now available on Workers AI Apr 20, 2026 Workers AI @cf/moonshotai/kimi-k2.6 is now available on Workers AI, in partnership with Moonshot AI for Day 0 support. Kimi K2.6 is a native multimodal ag...

  • [45] Moonshot AI Releases Kimi K2.6 with Long-Horizon Coding, Agent ...marktechpost.com

    The Long-Horizon Coding Headline Numbers The metric that will likely get the most attention from dev teams is SWE-Bench Pro — a benchmark testing whether a model can resolve real-world GitHub issues in professional software repositories. Kimi K2.6 scores 58...

  • [57] China’s DeepSeek releases new AI model it claims beats all open-source competitorsau.finance.yahoo.com

    The model is available as DeepSeek V4-Pro and DeepSeek V4-Flash. The latter version, the company says, is a “more efficient and economical choice". “In world knowledge benchmarks, DeepSeek V4-Pro significantly leads other open-source models and is only slig...

  • [58] China's DeepSeek releases preview of long-awaited V4 model as AI ...cnbc.com

    DeepSeek also said that V4 has been optimized for use with popular agent tools such as Anthropic’s Claude Code and OpenClaw. According to Counterpoint’s principal AI analyst, Wei Sun, V4′s benchmark profile suggests it could offer “excellent agent capabilit...

  • [64] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Evaluation results []( Diamond on Idavidrein/gpqaView evaluation resultsleaderboard 90.1 Gsm8k on openai/gsm8kView evaluation resultsleaderboard 92.6 Hle on cais/hleView evaluation results 37.7 Mmlu Pro on TIGER-Lab/MMLU-ProView evaluation results 87.5 SWE...

  • [84] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co

    3. Evaluation Results ; Terminal-Bench 2.0 (Terminus-2), 66.7, 65.4 ; SWE-Bench Pro, 58.6, 57.7 ; SWE-Bench Multilingual, 76.7, - ; SWE-Bench ... 5 days ago