studioglobal
熱門探索內容
報告已發布9 個來源

GPT-5.5, Claude Opus 4.7, DeepSeek V4 hay Kimi K2.6: benchmark, giá API và cách chọn theo tác vụ

Dữ liệu công khai chưa đủ để lập một bảng tổng sắp tuyệt đối: GPT 5.5 nổi bật ở Intelligence Index 60/59, BrowseComp 84,4% và Terminal Bench 2.0 82,7%; Claude Opus 4.7 dẫn GPQA Diamond 94,2% và Humanity’s Last Exam no... DeepSeek V4 có lợi thế chi phí rõ nhất trong các số liệu được nêu: 1,74 USD cho 1 triệu token đầ...

17K0
四款 AI 模型在基準測試與 API 價格上比較的抽象儀表板
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選?Benchmark 與價格比較AI 生成配圖:比較 GPT-5.5、Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6 的性能與成本取捨。
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選?Benchmark 與價格比較. Article summary: 公開數據不支持一個絕對總冠軍:GPT 5.5 在可見 Intelligence Index 60/59、BrowseComp 84.4% 與 Terminal Bench 2.0 82.7% 最突出;Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE no tools 46.9% 領先,Kimi K2.6 則缺少完整四方同場數據。[2][7]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://

openai.com

Xếp GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 vào một bảng tổng sắp tuyệt đối nghe rất tiện, nhưng dễ dẫn tới quyết định sai. Các số liệu công khai hiện đến từ nhiều nguồn benchmark, nhiều mức suy luận khác nhau và nhiều bộ khung chạy thử khác nhau. LLM Stats cũng lưu ý rằng một phần điểm của GPT-5.5 và Claude Opus 4.7 là số do nhà cung cấp tự báo cáo ở tier suy luận cao; có thể so về xu hướng, nhưng không hoàn toàn đồng nhất về phương pháp.[3]

Vì vậy, câu hỏi nên đổi từ model nào mạnh nhất sang model nào đáng thử trước cho tác vụ của bạn. Nếu cần agent tự dùng trình duyệt, terminal và công cụ, GPT-5.5 là mốc đầu tiên. Nếu cần suy luận khó, rà soát hoặc quyết định ít dung sai lỗi, Claude Opus 4.7 đáng ưu tiên. Nếu chi phí API là nút thắt, DeepSeek V4 nổi bật. Nếu đang nghiên cứu coding-agent mã nguồn mở, Kimi K2.6 nên nằm trong danh sách thử nghiệm, nhưng chưa nên được xếp hạng ngang hàng chỉ bằng các số benchmark hiện có.[3][4][5][7]

Chọn nhanh: nên thử mô hình nào trước?

Nhu cầu chínhNên thử trướcCơ sở
Agent duyệt web, tự động hóa terminal, quy trình nhiều công cụGPT-5.5GPT-5.5 đạt 84,4% trên BrowseComp và 82,7% trên Terminal-Bench 2.0, đều cao hơn số của Claude Opus 4.7 và DeepSeek-V4-Pro-Max trong phần tóm tắt của VentureBeat.[7]
Suy luận khó, rà soát, quyết định cần độ tin cậy caoClaude Opus 4.7Claude Opus 4.7 đạt 94,2% trên GPQA Diamond và 46,9% trên Humanity’s Last Exam no tools, đều cao hơn GPT-5.5 và DeepSeek-V4-Pro-Max trong cùng bảng.[7]
Gọi API lưu lượng lớn, nhạy cảm với chi phí tokenDeepSeek V4Giá công khai của DeepSeek V4 là 1,74 USD cho 1 triệu token đầu vào và 3,48 USD cho 1 triệu token đầu ra, thấp hơn GPT-5.5 và Claude Opus 4.7 theo cùng đơn vị so sánh.[1][17]
Thử nghiệm coding-agent mã nguồn mở, workflow coding dàiKimi K2.6DocsBot mô tả Kimi K2.6 là mô hình agentic đa phương thức mã nguồn mở của Moonshot AI, có context 256K; nhưng hiện thiếu benchmark công khai cùng điều kiện với cả GPT-5.5, Claude Opus 4.7 và DeepSeek V4.[5][4]

Bảng benchmark và giá cần nhìn cùng nhau

Tên gọi DeepSeek trong các nguồn không hoàn toàn thống nhất: nguồn giá thường ghi DeepSeek V4 hoặc DeepSeek V4 Pro, trong khi một phần benchmark ghi DeepSeek-V4-Pro-Max.[1][7][17] Bảng dưới đây giữ nguyên cách gọi của nguồn để tránh coi các cấu hình khác nhau là cùng một model mặc định.

Chỉ sốGPT-5.5Claude Opus 4.7DeepSeek V4 / V4-Pro-MaxKimi K2.6
Artificial Analysis Intelligence Indexxhigh 60; high 59.[2]Adaptive Reasoning, Max Effort 57.[2]Phần tóm tắt được cung cấp không có điểm cùng đơn vị.[2]Phần tóm tắt được cung cấp không có điểm cùng đơn vị.[2]
BrowseComp84,4%.[7]79,3%.[7]DeepSeek-V4-Pro-Max 83,4%.[7]Chưa thấy điểm cùng bảng bốn bên.
Terminal-Bench 2.082,7%.[7][31]69,4%.[7]67,9%.[7]66,70%, nhưng đến từ bảng so Kimi K2.6 với Claude Opus 4.6 và GPT-5.4, không phải cùng bảng bốn bên.[4]
SWE-Bench Pro58,6%.[17][31]64,3%.[17]DeepSeek V4 Pro 55,4%.[17]58,60%, nhưng Verdent ghi rằng số này dùng Moonshot in-house harness và không phải so trực tiếp với GPT-5.5, Claude Opus 4.7, DeepSeek V4 trong cùng điều kiện.[4]
GPQA Diamond93,6%.[7]94,2%.[7]DeepSeek-V4-Pro-Max 90,1%.[7]Chưa thấy điểm cùng bảng bốn bên.
Humanity’s Last Exam, no tools41,4%; GPT-5.5 Pro là 43,1%.[7]46,9%.[7]37,7%.[7]Chưa thấy điểm cùng bảng bốn bên.
Giá API đầu vào / đầu ra, mỗi 1 triệu token5 / 30 USD; context window 1 triệu token.[1]5 / 25 USD; context window 1 triệu token.[1]1,74 / 3,48 USD; context window 1 triệu token.[1]Nguồn được cung cấp chưa có giá cùng đơn vị; DocsBot ghi context 256K.[5]

1. Nếu chỉ nhìn Intelligence Index, GPT-5.5 đang đứng trước trong phần dữ liệu thấy được

Artificial Analysis liệt kê nhóm dẫn đầu Intelligence Index như sau: GPT-5.5 xhigh đạt 60, GPT-5.5 high đạt 59, Claude Opus 4.7 Adaptive Reasoning, Max Effort đạt 57; phía sau còn có Gemini 3.1 Pro Preview và GPT-5.4 xhigh cùng mức 57.[2]

Kết luận hợp lý chỉ nên dừng ở mức hẹp: trong phần tóm tắt Intelligence Index có thể thấy, GPT-5.5 đứng trên Claude Opus 4.7.[2] Không nên từ đó suy ra thứ hạng tổng thể của cả bốn mô hình, vì cùng phần tóm tắt không đưa ra điểm Intelligence Index cùng đơn vị cho DeepSeek V4 và Kimi K2.6.[2]

2. Agent duyệt web và terminal: GPT-5.5 mạnh nhất, DeepSeek rất sát ở BrowseComp

BrowseComp thiên về đo năng lực web browsing dạng agent, tức mô hình tự tìm, đọc và tổng hợp thông tin trên web trong các bài kiểm tra có cấu trúc chặt. VentureBeat ghi kết quả: GPT-5.5 đạt 84,4%, DeepSeek-V4-Pro-Max đạt 83,4%, Claude Opus 4.7 đạt 79,3%.[7] Với nhóm tác vụ này, DeepSeek-V4-Pro-Max chỉ kém GPT-5.5 một khoảng nhỏ, còn Claude Opus 4.7 thấp hơn trong cùng bảng.[7]

Khoảng cách rõ hơn ở Terminal-Bench 2.0. VentureBeat ghi GPT-5.5 đạt 82,7%, Claude Opus 4.7 đạt 69,4%, DeepSeek đạt 67,9%; Yahoo / Investing.com cũng mô tả Terminal-Bench 2.0 là bài kiểm tra các workflow dòng lệnh và nêu điểm GPT-5.5 là 82,7%.[7][31]

Kimi K2.6 có số Terminal-Bench 2.0 là 66,70%, nhưng nguồn này so Kimi K2.6 với Claude Opus 4.6 và GPT-5.4, không phải GPT-5.5, Claude Opus 4.7 và DeepSeek V4 trong cùng một bảng.[4]

3. Coding và SWE: Claude cao hơn ở SWE-Bench Pro, nhưng workflow dùng công cụ là chuyện khác

Bảng so sánh DeepSeek V4 của DataCamp ghi SWE-Bench Pro như sau: DeepSeek V4 Pro 55,4%, GPT-5.5 58,6%, Claude Opus 4.7 64,3%.[17] Yahoo / Investing.com cũng nêu GPT-5.5 đạt 58,6% trên SWE-Bench Pro, bài đánh giá khả năng xử lý issue trên GitHub.[31]

Riêng Kimi K2.6 đáng được nhìn như một ứng viên coding-agent riêng. Verdent ghi Kimi K2.6 đạt 58,60% trên SWE-Bench Pro, 80,20% trên SWE-Bench Verified và 89,60% trên LiveCodeBench v6; nhưng cùng nguồn nói các số của Kimi K2.6 đến từ model card chính thức của Moonshot AI, và SWE-Bench Pro dùng Moonshot in-house harness.[4] Vì thế, Kimi K2.6 có thể được đưa vào vòng thử nghiệm coding-agent, nhưng không nên dùng các con số này để ép vào một bảng tổng sắp bốn bên.[4]

Trong thực tế, nếu bài toán là sửa repo lớn, review code hoặc chạy coding agent nhiều bước, một điểm SWE đơn lẻ không đủ. Claude Opus 4.7 cao nhất trong so sánh SWE-Bench Pro nhìn thấy được; GPT-5.5 dẫn ở Terminal-Bench 2.0, vốn gần hơn với quy trình dùng công cụ dài; Kimi K2.6 cần được kiểm tra lại trên chính repo, toolchain và quy trình triển khai của bạn.[17][7][4]

4. Suy luận khó và rà soát: lợi thế của Claude Opus 4.7 rõ hơn

VentureBeat ghi GPQA Diamond: Claude Opus 4.7 đạt 94,2%, GPT-5.5 đạt 93,6%, DeepSeek-V4-Pro-Max đạt 90,1%. Cùng nguồn ghi Humanity’s Last Exam no tools: Claude Opus 4.7 đạt 46,9%, GPT-5.5 đạt 41,4%, GPT-5.5 Pro đạt 43,1%, DeepSeek-V4-Pro-Max đạt 37,7%.[7]

Kết luận của LLM Stats cũng đi cùng hướng: trong 10 benchmark mà cả hai nhà cung cấp cùng báo cáo, Claude Opus 4.7 dẫn 6 benchmark, GPT-5.5 dẫn 4 benchmark. Lợi thế của Claude tập trung ở nhóm reasoning-heavy và review-grade tests, còn GPT-5.5 nổi bật hơn ở nhóm long-running tool-use tests.[3]

5. Giá và context: DeepSeek V4 có lợi thế chi phí rõ nhất

Trong API, token vừa là đơn vị độ dài văn bản vừa là đơn vị tính phí. Mashable ghi giá của DeepSeek V4 là 1,74 USD cho mỗi 1 triệu token đầu vào và 3,48 USD cho mỗi 1 triệu token đầu ra, với context window 1 triệu token. Cùng bảng ghi GPT-5.5 là 5 USD đầu vào và 30 USD đầu ra cho mỗi 1 triệu token, còn Claude Opus 4.7 là 5 USD đầu vào và 25 USD đầu ra cho mỗi 1 triệu token, cùng context window 1 triệu token.[1]

DataCamp cũng dùng cùng đơn vị giá và ghi DeepSeek V4 Pro, GPT-5.5, Claude Opus 4.7 đều có context window khoảng 1 triệu token.[17] Trong các giá công khai này, DeepSeek V4 thấp hơn rõ rệt so với GPT-5.5 và Claude Opus 4.7. Khi kết hợp với việc DeepSeek-V4-Pro-Max đạt 83,4% trên BrowseComp, rất gần GPT-5.5 ở mức 84,4%, DeepSeek V4 trở thành ứng viên đáng thử sớm cho các tuyến API nhạy cảm với chi phí.[1][7][17]

Với Kimi K2.6, các nguồn được cung cấp chưa có giá API cùng đơn vị. DocsBot mô tả Kimi K2.6 có context 256K và là mô hình agentic mã nguồn mở hướng tới long-horizon coding, coding-driven design, autonomous execution và swarm-based orchestration.[5]

Cách triển khai thực tế: đừng chọn một model duy nhất, hãy định tuyến

Với đa số nhóm sản phẩm và kỹ thuật, đáp án thực dụng không phải là chỉ mua một mô hình. Cách an toàn hơn là xây lớp định tuyến model và bộ test hồi quy riêng:

  1. Dùng GPT-5.5 làm mốc cao cấp cho agentic tool-use. Mô hình này có số công khai mạnh trên BrowseComp và Terminal-Bench 2.0; OpenAI cũng nêu GPT-5.5 đạt 84,9% trên GDPval, 78,7% trên OSWorld-Verified và 98,0% trên Tau2-bench Telecom, các benchmark liên quan tới công việc tri thức và vận hành công cụ.[7][23]
  2. Dùng Claude Opus 4.7 cho suy luận, rà soát và tác vụ ít dung sai lỗi. Claude Opus 4.7 dẫn trên GPQA Diamond, Humanity’s Last Exam no tools và nhóm reasoning-heavy / review-grade tests theo LLM Stats.[7][3]
  3. Dùng DeepSeek V4 để giảm chi phí API lưu lượng lớn. Giá token công khai của DeepSeek V4 thấp hơn GPT-5.5 và Claude Opus 4.7, trong khi điểm BrowseComp rất sát GPT-5.5.[1][7]
  4. Đưa Kimi K2.6 vào nhóm thử nghiệm coding-agent mã nguồn mở. Kimi K2.6 có các chỉ số coding và agentic đáng chú ý, nhưng hiện thiếu benchmark công khai cùng điều kiện với GPT-5.5, Claude Opus 4.7 và DeepSeek V4; vì vậy nên kiểm tra bằng repo, công cụ và điều kiện triển khai của chính bạn.[4][5]

Những giới hạn cần nhớ

  • Không phải mô hình nào cũng có benchmark cùng sân, cùng cấu hình. GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max có một phần số liệu trong cùng bảng VentureBeat; Kimi K2.6 chủ yếu xuất hiện trong bảng khác, so với Claude Opus 4.6 và GPT-5.4.[7][4]
  • Cấu hình model có thể khác nhau. Artificial Analysis tách GPT-5.5 thành xhigh / high, Claude Opus 4.7 là Adaptive Reasoning, Max Effort; VentureBeat dùng DeepSeek-V4-Pro-Max. Các cấu hình này không nhất thiết tương đương chế độ API mặc định.[2][7]
  • Điểm tự báo cáo và điểm bên thứ ba không nên được coi là một. LLM Stats nhấn mạnh một phần điểm của GPT-5.5 và Claude Opus 4.7 là do nhà cung cấp tự báo cáo ở tier suy luận cao, có thể so về hình dạng nhưng không đồng nhất về phương pháp.[3]
  • Benchmark công khai chỉ giúp ưu tiên thứ tự thử nghiệm. BrowseComp thiên về agent duyệt web, Terminal-Bench 2.0 thiên về workflow dòng lệnh, SWE-Bench Pro thiên về xử lý issue trên GitHub; chúng không thay thế được bộ đánh giá trên tác vụ thật của bạn.[7][31]

Kết luận

Nếu chỉ dùng dữ liệu công khai hiện có để sàng lọc ban đầu, GPT-5.5 là ứng viên mạnh nhất cho agentic tool-use và phần xếp hạng tổng hợp nhìn thấy được; Claude Opus 4.7 là một trong những lựa chọn mạnh nhất cho suy luận và review-grade tasks; DeepSeek V4 là ứng viên có sức hút lớn nhất về giá; còn Kimi K2.6 nên nằm trong nhóm thử nghiệm mã nguồn mở / coding-agent, nhưng hiện chưa đủ dữ liệu để xếp công bằng vào một bảng tổng sắp bốn bên.[2][3][1][4][5]

Trước khi mua hoặc đưa vào sản phẩm, hãy chạy cùng một bộ tác vụ thật: cùng prompt, cùng quyền dùng công cụ, cùng độ dài ngữ cảnh và cùng tiêu chí thành công. Benchmark công khai giúp bạn biết nên thử ai trước; lựa chọn cuối cùng vẫn nên dựa trên tình huống sản phẩm, chi phí lỗi và chi phí token của chính bạn.[3][7][31]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • Dữ liệu công khai chưa đủ để lập một bảng tổng sắp tuyệt đối: GPT 5.5 nổi bật ở Intelligence Index 60/59, BrowseComp 84,4% và Terminal Bench 2.0 82,7%; Claude Opus 4.7 dẫn GPQA Diamond 94,2% và Humanity’s Last Exam no...
  • DeepSeek V4 có lợi thế chi phí rõ nhất trong các số liệu được nêu: 1,74 USD cho 1 triệu token đầu vào và 3,48 USD cho 1 triệu token đầu ra, thấp hơn GPT 5.5 ở mức 5/30 USD và Claude Opus 4.7 ở mức 5/25 USD.[1][17]
  • Cách chọn thực dụng là định tuyến theo tác vụ: thử GPT 5.5 cho agent dùng web, terminal và nhiều công cụ; Claude Opus 4.7 cho suy luận và rà soát; DeepSeek V4 cho API lưu lượng lớn; Kimi K2.6 cho thử nghiệm coding age...

大家也會問

「GPT-5.5, Claude Opus 4.7, DeepSeek V4 hay Kimi K2.6: benchmark, giá API và cách chọn theo tác vụ」的簡短答案是什麼?

Dữ liệu công khai chưa đủ để lập một bảng tổng sắp tuyệt đối: GPT 5.5 nổi bật ở Intelligence Index 60/59, BrowseComp 84,4% và Terminal Bench 2.0 82,7%; Claude Opus 4.7 dẫn GPQA Diamond 94,2% và Humanity’s Last Exam no...

最值得優先驗證的重點是什麼?

Dữ liệu công khai chưa đủ để lập một bảng tổng sắp tuyệt đối: GPT 5.5 nổi bật ở Intelligence Index 60/59, BrowseComp 84,4% và Terminal Bench 2.0 82,7%; Claude Opus 4.7 dẫn GPQA Diamond 94,2% và Humanity’s Last Exam no... DeepSeek V4 có lợi thế chi phí rõ nhất trong các số liệu được nêu: 1,74 USD cho 1 triệu token đầu vào và 3,48 USD cho 1 triệu token đầu ra, thấp hơn GPT 5.5 ở mức 5/30 USD và Claude Opus 4.7 ở mức 5/25 USD.[1][17]

接下來在實務上該怎麼做?

Cách chọn thực dụng là định tuyến theo tác vụ: thử GPT 5.5 cho agent dùng web, terminal và nhiều công cụ; Claude Opus 4.7 cho suy luận và rà soát; DeepSeek V4 cho API lưu lượng lớn; Kimi K2.6 cho thử nghiệm coding age...

下一步適合探索哪個相關主題?

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較:2026 年誰最值得信?」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「DeepSeek V4 工程解析:1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

研究 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 的基準測試,並盡可能全面地進行比較。

Studio Global AI35 個來源

附引用的答案

基於你提供的證據,能比較出的結論是:GPT-5.5 在可見的綜合智能排名與 BrowseComp 中領先;DeepSeek V4/DeepSeek-V4-Pro-Max 在 BrowseComp、Terminal-Bench 2.0 和價格上顯示出很強的性價比;Claude Opus 4.7 仍屬前排模型;Kimi K2.6 的可用基準數據最少,因此無法做同等完整排名。證據來源有限且多為摘要片段,以下比較應視為「基於現有證據的部分比較」,不是完整評測。

Key findings

  • 綜合智能排名方面,GPT-5.5 領先。 Artificial Analysis 摘要列出的 Intelligence Index 前五名中,GPT-5.5 xhigh 為 60 分、GPT-5.5 high 為 59 分,Claude Opus 4.7 Adaptive Reasoning Max Effort 為 57 分,與 Gemini 3.1 Pro Preview、GPT-5.4 xhigh 同分段出現;該摘要沒有給出 DeepSeek V4 或 Kimi K2.6 的具體 Intelligence Index 分數。[4]

  • BrowseComp 上,GPT-5.5 略高於 DeepSeek-V4-Pro-Max,Claude Opus 4.7 落後一些。 VentureBeat 摘要稱 DeepSeek-V4-Pro-Max 在 BrowseComp 得分 83.4%,GPT-5.5 為 84.4%,Claude Opus 4.7 為 79.3%。[5]

  • Terminal-Bench 2.0 上,DeepSeek V4 有可見分數,但其他模型細節不足。 VentureBeat 摘要稱 DeepSeek 在 Terminal-Bench 2.0 得分 67.9%,並稱其接近 Claude Opus 4.7,但摘要沒有提供 Claude Opus 4.7 的完整數字,也沒有提供 GPT-5.5 或 Kimi K2.6 的 Terminal-Bench 2.0 分數。[5]

  • 成本方面,DeepSeek V4 明顯低於 GPT-5.5;Claude Opus 4.7 的輸入價格片段可見但輸出價格不完整。 Mashable 摘要稱 DeepSeek V4 的 API 價格為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48,且上下文窗口為 100 萬;同一摘要稱 GPT-5.5 為每 100 萬輸入 token $5、每 100 萬輸出 token $30,且上下文窗口為 100 萬。[3] Mashable 摘要也顯示 Claude Opus 4.7 的輸入價格為每 100 萬 token $5,但輸出價格在提供片段中被截斷。[3]

  • DeepSeek V4 的性價比主張較強,但需要完整原文驗證。 VentureBeat 標題稱 DeepSeek-V4 以 Opus 4.7/GPT-5.5 約六分之一成本達到接近最先進智能,但目前可用證據只提供部分 benchmark 與價格片段,缺少完整計算方法。[5]

  • Kimi K2.6 的基準證據不足。 可用證據中有 Claude Opus 4.7 與 Kimi K2.6 的 SourceForge 比較頁,以及 Artificial Analysis 的 DeepSeek V4 Pro 與 Kimi K2.6 比較頁標題,但片段沒有提供 Kimi K2.6 的具體分數、價格、上下文窗口或任務表現。[2][4]

基準與價格對照

維度GPT-5.5Claude Opus 4.7DeepSeek V4 / V4-Pro-MaxKimi K2.6
Intelligence Indexxhigh 60;high 59。[4]Adaptive Reasoning Max Effort 57。[4]可用片段未提供分數。[4]可用片段未提供分數。[4]
BrowseComp84.4%。[5]79.3%。[5]DeepSeek-V4-Pro-Max 83.4%。[5]無可用分數。
Terminal-Bench 2.0無可用分數。摘要稱 DeepSeek 接近 Claude,但未給完整 Claude 分數。[5]67.9%。[5]無可用分數。
API 價格$5 / 100 萬輸入 token;$30 / 100 萬輸出 token;100 萬上下文。[3]可見片段顯示 $5 / 100 萬輸入 token;輸出價格片段不完整。[3]$1.74 / 100 萬輸入 token;$3.48 / 100 萬輸出 token;100 萬上下文。[3]無可用價格。
證據充分度中等:有官方系統卡存在、第三方排名與價格片段。[7][4][3]中等偏低:有第三方排名與部分價格/benchmark。[4][5][3]中等:有 BrowseComp、Terminal-Bench、價格片段。[5][3]低:只有比較頁存在,缺少具體 benchmark 數字。[2][4]

Evidence notes

  • GPT-5.5 的官方性較強,但官方 benchmark 片段不足。 OpenAI 的 GPT-5.5 System Card 於 2026 年 4 月 23 日發布,但提供的片段沒有列出具體 benchmark 成績。[7]

  • 第三方 benchmark 來源比個人測試更適合做排名依據。 Artificial Analysis 提供了 Intelligence Index 排名片段,VentureBeat 提供了 BrowseComp 和 Terminal-Bench 2.0 的部分數字,因此這兩類證據比 LinkedIn 個人測試更適合作為量化比較依據。[4][5][31]

  • 個人實測只能作為補充,不宜作為排名依據。 LinkedIn 摘要描述一名用戶用 GPT-5.5 Codex 與 Claude Code on Opus 4.7 做了 4 個 one-shot head-to-head 實驗,並指出 benchmark 只能說明部分情況;但摘要沒有提供可複核的分數表或完整任務結果。[31]

  • SourceForge 對 Claude Opus 4.7 與 Kimi K2.6 的比較主要是產品/公司資訊,不是 benchmark 數據。 該片段顯示 Anthropic 與 Moonshot AI 的公司資訊,以及 Claude Opus 4.7 vs Kimi K2.6 的比較頁存在,但沒有提供模型能力分數。[2]

Limitations / uncertainty

  • Insufficient evidence. 目前證據不足以對四個模型做「全面」基準排名,因為 Kimi K2.6 缺少具體 benchmark 數字,DeepSeek V4 在 Intelligence Index 中也沒有可見分數。[2][4]

  • 不同來源可能使用不同模型配置。 Artificial Analysis 中 GPT-5.5 有 xhigh/high,Claude Opus 4.7 有 Adaptive Reasoning Max Effort;VentureBeat 則提到 DeepSeek-V4-Pro-Max,這些配置不一定代表普通 API 默認模式。[4][5]

  • 部分價格與 benchmark 資訊被截斷。 Mashable 片段提供 DeepSeek V4 與 GPT-5.5 的完整輸入/輸出價格,但 Claude Opus 4.7 的輸出價格沒有出現在可用片段中。[3]

  • BrowseComp 和 Terminal-Bench 2.0 不能代表所有任務。 BrowseComp 偏向 agentic web browsing,Terminal-Bench 2.0 偏向終端/開發環境任務;它們不能直接代表寫作、長上下文理解、多語言、數學、視覺或企業安全表現。[5]

Summary

  • 若只看可見綜合智能排名:GPT-5.5 第一,Claude Opus 4.7 屬第一梯隊;DeepSeek V4 與 Kimi K2.6 因缺少同表分數無法排序。[4]

  • 若看 BrowseComp:GPT-5.5 84.4% 最高,DeepSeek-V4-Pro-Max 83.4% 非常接近,Claude Opus 4.7 為 79.3%;Kimi K2.6 無可用分數。[5]

  • 若看性價比:DeepSeek V4 的可見 API 價格明顯低於 GPT-5.5,且其 BrowseComp 接近 GPT-5.5;但完整成本結論仍需 Claude 與 Kimi 的完整價格和更多任務分數。[3][5]

  • 最可靠的結論是:GPT-5.5 在現有證據中性能最強,DeepSeek V4 最像高性價比追趕者,Claude Opus 4.7 仍在高端模型梯隊,Kimi K2.6 目前證據不足,不能公平排名。[4][5][2]

來源

  • [1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [3] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...

  • [4] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [5] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...

  • [7] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    DeepSeek-V4-Pro-Max’s best showing is on BrowseComp, the benchmark measuring agentic AI web browsing prowess (especially highly containerized information), where it scores 83.4%, narrowly behind GPT-5.5 at 84.4% andahead of Claude Opus 4.7 at 79.3%. On Term...

  • [17] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...

  • [23] Introducing GPT-5.5 - OpenAIopenai.com

    GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...

  • [31] OpenAI releases GPT-5.5 with improved coding and research capabilitiesuk.finance.yahoo.com

    Louis Juricic 1 min read Investing.com -- OpenAI announced Thursday the release of GPT-5.5, its latest AI model now available to Plus, Pro, Business, and Enterprise users through ChatGPT and Codex platforms. The model achieved 82.7% accuracy on Terminal-Ben...