studioglobal
Trending Discover
ReportsPublished14 sources

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6: nên chọn mô hình nào?

Nếu cần một lựa chọn mặc định để thử trước, GPT 5.5 đang là ứng viên mạnh nhất về hiệu năng tổng hợp và tác vụ agent trong terminal; Claude Opus 4.7 đáng ưu tiên cho nghiên cứu dài, phân tích nhiều bước và tài liệu tà... Chênh lệch giá có thể đảo ngược quyết định mua API: tài liệu OpenAI ghi GPT 5.5 ở mức 5 USD/triệ...

17K0
GPT-5.5、Claude Opus 4.7、DeepSeek V4 与 Kimi K2.6 的 AI 模型基准和成本对比示意图
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6:2026 基准、成本与选型结论四个前沿 AI 模型的选型,关键不只是基准分数,还包括成本、上下文、工具能力和部署约束。
AI Prompt

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6:2026 基准、成本与选型结论. Article summary: 截至 2026 年 4 月的公开资料,GPT 5.5 是最稳妥的综合默认项:Artificial Analysis 给 GPT 5.5 xHigh 60、High 59,高于 Claude Opus 4.7 的 57;但 Claude 在 HLE 无工具 46.9% 领先,DeepSeek V4 和 Kimi K2.6 分别更适合低成本与开权重场景。[4][6][9][25]. Topic tags: ai, ai benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek V4 vs GPT-5.5 vs Claude Opus vs GLM: Cost and Benchmark Comparison for AI Agent Fleets. DeepSeek V4, GPT-5.5, Claude Opus, and GLM compared on cost, benchmarks, and self" source context "DeepSeek V4 vs GPT-5.5 vs Claude Opus vs GLM - Flowtivity" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https

openai.com

Sai lầm phổ biến khi so GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 là chỉ hỏi: mô hình nào mạnh nhất? Với đội kỹ thuật hoặc sản phẩm, câu hỏi hữu ích hơn là: mô hình nào đủ tốt cho bài toán của mình, ở mức chi phí, độ trễ và quyền kiểm soát chấp nhận được?

Dựa trên dữ liệu công khai hiện có, câu trả lời nên đi theo hướng chọn theo nhiệm vụ: GPT-5.5 giống lựa chọn mặc định hiệu năng cao; Claude Opus 4.7 hợp với nghiên cứu dài, nhiều bước và yêu cầu kỷ luật tài liệu; DeepSeek V4 có lợi thế rõ về giá; Kimi K2.6 là ứng viên quan trọng khi cần mở trọng số, ngữ cảnh dài và đầu vào đa phương thức.[4][6][7][9]

Bảng chọn nhanh

Nếu ưu tiên của bạn là…Nên đánh giá trướcVì sao
Năng lực tổng hợp, workflow agent phức tạp, tác vụ coding trong terminalGPT-5.5Artificial Analysis xếp GPT-5.5 xHigh ở mức 60 và GPT-5.5 High ở mức 59, cao hơn Claude Opus 4.7 ở mức 57; VentureBeat tổng hợp Terminal-Bench 2.0 của GPT-5.5 là 82,7%.[4][6]
Nghiên cứu tài liệu dài, phân tích nhiều bước, xử lý tài liệu tài chínhClaude Opus 4.7Anthropic cho biết Opus 4.7 đạt 0,715 trong benchmark research-agent nội bộ, và đạt 0,813 ở module General Finance, cao hơn Opus 4.6 ở mức 0,767.[7]
Sản lượng gọi API lớn, ngân sách chặt, cần gần năng lực frontier nhưng giá thấp hơnDeepSeek V4Mashable tổng hợp giá DeepSeek V4 là 1,74 USD/triệu token đầu vào và 3,48 USD/triệu token đầu ra, thấp hơn GPT-5.5 và Claude Opus 4.7 trong cùng bảng.[3]
Mở trọng số, đầu vào ảnh/video, ngữ cảnh 256KKimi K2.6Artificial Analysis gọi Kimi K2.6 là mô hình mở trọng số dẫn đầu mới, hỗ trợ đầu vào ảnh, video và ngữ cảnh tối đa 256K.[9]

Vì sao không nên chỉ nhìn một bảng xếp hạng

Hiện chưa có một đánh giá công khai hoàn chỉnh bao phủ cả bốn mô hình trong cùng thời điểm, cùng đơn vị test, cùng ngân sách suy luận, cùng quyền dùng công cụ và cùng cấu hình triển khai. Dữ liệu khả dụng đến từ trang công bố của hãng, bảng xếp hạng bên thứ ba, tổng hợp báo chí, tài liệu API, trang định tuyến mô hình và thử nghiệm cá nhân; vì vậy khẩu径 đo lường không hoàn toàn giống nhau.[4][5][6][7][8][9][16][34][35]

Điều này ảnh hưởng trực tiếp tới thứ hạng. Artificial Analysis phân biệt GPT-5.5 xHigh, GPT-5.5 High và Claude Opus 4.7 Adaptive Reasoning Max Effort; tài liệu OpenAI API cũng cho biết GPT-5.5 có các mức reasoning effort gồm none, low, medium, high và xhigh.[4][35] Nói cách khác, một mô hình thắng trên bảng xếp hạng không có nghĩa nó sẽ thắng trong prompt, toolchain, giới hạn độ trễ và quy trình kiểm duyệt của bạn.

Các benchmark công khai đáng chú ý

Chỉ sốGPT-5.5Claude Opus 4.7DeepSeek V4 / V4 ProKimi K2.6Nên hiểu thế nào
Artificial Analysis Intelligence IndexxHigh 60; High 59 [4]57 [4]Gói dữ liệu này chưa có điểm chính xác cùng bảngOpenRouter tổng hợp AA Intelligence là 53,9 [5]GPT-5.5 dẫn đầu ở bảng tổng hợp này; Kimi K2.6 là ứng viên mở trọng số ở nhóm cao.
Terminal-Bench 2.082,7% [6]69,4% [6]67,9% [6]Chưa thấy điểm công khai cùng nguồnVới tác vụ agent trong terminal, lợi thế của GPT-5.5 là rõ nhất.
SWE-Bench Pro58,6% [6]Chưa có số cùng nguồn đủ để đối chiếu trong gói dữ liệu này55,4% [6]Một số tài liệu Kimi chủ yếu so với GPT-5.4 hoặc Opus 4.6, không nên xem là đối chiếu trực tiếp với bốn mô hình này [14][15]GPT-5.5 và DeepSeek V4 có thể so trong cùng tổng hợp; Kimi cần đọc thận trọng theo nguồn.
Humanity’s Last Exam, không dùng công cụ41,4%; GPT-5.5 Pro là 43,1% [6]46,9% [6]37,7% [6]Chưa thấy điểm cùng nguồnClaude Opus 4.7 dẫn đầu trong thiết lập này.
Humanity’s Last Exam, có dùng công cụ52,2%; GPT-5.5 Pro là 57,2% [6]54,7% [6]48,2% [6]Chưa thấy điểm cùng nguồnClaude cao hơn GPT-5.5 bản base, nhưng thấp hơn GPT-5.5 Pro.
BrowseComp84,4% [8]Chưa thấy điểm cùng nguồnV4 Pro-Max 83,4% [6]83,2% [8]Ở tác vụ duyệt web và hiểu nội dung web, GPT-5.5, DeepSeek V4 Pro-Max và Kimi K2.6 khá sát nhau trong các tổng hợp công khai.
Chỉ số AA của Kimi K2.6Không áp dụngKhông áp dụngKhông áp dụngIntelligence 53,9; Coding 47,1; Agentic 66,0 [5]Năng lực agent của Kimi đáng chú ý, nhưng vẫn nên test lại trong toolchain thật.

GPT-5.5: lựa chọn mặc định mạnh cho tác vụ phức tạp

Trang công bố của OpenAI cho biết GPT-5.5 và GPT-5.5 Pro đã khả dụng sau cập nhật ngày 24/4/2026.[25] Tài liệu OpenAI API mô tả gpt-5.5 là mô hình dành cho coding và công việc chuyên nghiệp, có ngữ cảnh 1M, đầu ra tối đa 128K, hỗ trợ function calling, web search, file search và computer use.[35]

Về benchmark công khai, GPT-5.5 là ứng viên hợp lý để dùng làm đường chuẩn hiệu năng cao. Artificial Analysis chấm GPT-5.5 xHigh 60 và GPT-5.5 High 59; VentureBeat tổng hợp Terminal-Bench 2.0 của GPT-5.5 là 82,7%, cao hơn Claude Opus 4.7 ở mức 69,4% và DeepSeek V4 ở mức 67,9%.[4][6]

Điểm phải tính kỹ là chi phí. Tài liệu OpenAI API niêm yết GPT-5.5 ở mức 5 USD/triệu token đầu vào và 30 USD/triệu token đầu ra.[35] Nếu hệ thống của bạn tạo báo cáo dài, chạy agent nhiều vòng hoặc sinh đầu ra lớn, chi phí token đầu ra có thể thành biến số quyết định.

Nên thử trước khi bạn cần: coding agent phức tạp, tự động hóa terminal, nghiên cứu qua nhiều công cụ, workflow chuyên nghiệp cần kết hợp function calling, tìm kiếm web và tìm kiếm file.[35]

Claude Opus 4.7: mạnh ở nhiệm vụ dài, nhiều bước và kỷ luật tài liệu

Claude Opus 4.7 được định vị rõ ở các bài toán dài hơi và cần tính nhất quán. Anthropic cho biết mô hình này đạt 0,715 trong benchmark research-agent nội bộ, đồng hạng cao nhất về điểm tổng thể trong sáu module, đồng thời có hiệu năng long-context nhất quán nhất trong nhóm được thử nghiệm.[7]

Ở module General Finance, Anthropic cho biết Opus 4.7 đạt 0,813, cao hơn Opus 4.6 ở mức 0,767, và thể hiện tốt về công bố căn cứ cũng như kỷ luật dữ liệu.[7] Với các nhóm phải xử lý hồ sơ tài chính, hợp đồng, báo cáo dài hoặc tài liệu có nhiều ràng buộc, đây là tín hiệu đáng quan tâm.

Trong tổng hợp Humanity’s Last Exam của VentureBeat, Claude Opus 4.7 đạt 46,9% khi không dùng công cụ, cao hơn GPT-5.5 ở mức 41,4% và DeepSeek V4 ở mức 37,7%. Khi có công cụ, Claude đạt 54,7%, cao hơn GPT-5.5 bản base ở mức 52,2%, nhưng thấp hơn GPT-5.5 Pro ở mức 57,2%.[6]

Tuy nhiên, Claude không thắng GPT-5.5 ở mọi chỉ số. Trong Terminal-Bench 2.0, GPT-5.5 đạt 82,7%, cao hơn đáng kể so với Claude Opus 4.7 ở mức 69,4%.[6] Một nguồn bên thứ ba nêu Opus 4.7 đạt 82,4% trên SWE-bench Verified, nhưng đây không phải đối chiếu cùng nguồn giữa cả bốn mô hình, nên không nên trộn trực tiếp với SWE-Bench Pro hay các bảng khác để tạo một điểm tổng.[1][6]

Nên thử trước khi bạn cần: nghiên cứu tài liệu dài, xử lý tài liệu tài chính, phân tích cần nêu căn cứ rõ, workflow nhiều bước với yêu cầu kiểm tra và hiệu đính cao.[7]

DeepSeek V4: bài toán kinh tế là lợi thế chính

DeepSeek V4 nổi bật nhất ở giá. Mashable tổng hợp mức giá API của DeepSeek V4 là 1,74 USD/triệu token đầu vào và 3,48 USD/triệu token đầu ra; trong cùng tổng hợp, GPT-5.5 là 5 USD và 30 USD, còn Claude Opus 4.7 là 5 USD và 25 USD.[3]

Về hiệu năng, DeepSeek V4 tiến sát nhóm đầu trong một số chỉ số nhưng không dẫn toàn diện. VentureBeat tổng hợp DeepSeek V4 đạt 37,7% trên Humanity’s Last Exam không dùng công cụ và 48,2% khi có công cụ, thấp hơn các mức tương ứng của GPT-5.5, GPT-5.5 Pro và Claude Opus 4.7.[6] Trên Terminal-Bench 2.0, DeepSeek đạt 67,9%, gần Claude Opus 4.7 ở mức 69,4%, nhưng vẫn thấp hơn GPT-5.5 ở mức 82,7%.[6]

Vì vậy, DeepSeek V4 phù hợp để đưa vào vòng test đầu tiên cho hệ thống sản xuất nhạy cảm về chi phí, thay vì xem là lựa chọn thay thế vô điều kiện cho mọi mô hình frontier đóng. Câu hỏi thực tế là: chất lượng của nó có vượt ngưỡng chấp nhận trong nhiệm vụ của bạn không, và giá thấp hơn có bù được chi phí retry, kiểm duyệt thủ công và độ trễ hay không.[3][6]

Nên thử trước khi bạn cần: xử lý hàng loạt, throughput lớn, ứng dụng biên lợi nhuận thấp, hệ thống có thể chấp nhận một mức kiểm tra chất lượng bổ sung để giảm mạnh chi phí token.[3]

Kimi K2.6: ứng viên mở trọng số đáng chú ý, nhưng cần test trực tiếp hơn

Kimi K2.6 đáng chú ý vì kết hợp mở trọng số, đa phương thức và ngữ cảnh dài. Artificial Analysis gọi Kimi K2.6 là mô hình mở trọng số dẫn đầu mới, hỗ trợ đầu vào ảnh và video, đầu ra văn bản, với độ dài ngữ cảnh tối đa 256K.[9]

Trang OpenRouter liệt kê Kimi K2.6 có Artificial Analysis Intelligence 53,9, Coding 47,1 và Agentic 66,0; cùng trang ghi tối đa 256K token và đầu ra tối đa 66K.[5] Với đội muốn chủ động hơn về triển khai, kiểm soát nhà cung cấp hoặc xây workflow dùng ảnh/video, Kimi đáng được đưa vào shortlist.

Ở chỉ số nghiên cứu web, DocsBot tổng hợp BrowseComp của Kimi K2.6 là 83,2%, gần GPT-5.5 ở mức 84,4%.[8] Nhưng cần lưu ý: một số tài liệu về Kimi K2.6 chủ yếu so nó với GPT-5.4 hoặc Claude Opus 4.6, chứ không phải đối chiếu trực tiếp với GPT-5.5, Claude Opus 4.7 và DeepSeek V4 trong cùng một bài test.[14][15]

Nên thử trước khi bạn cần: hệ sinh thái mở trọng số, quyền tự chủ triển khai cao hơn, xử lý ngữ cảnh dài, đầu vào ảnh/video, hoặc workflow cần cân bằng giữa chi phí và khả năng kiểm soát.[5][9]

Chi phí, ngữ cảnh và triển khai: phần dễ bị bỏ qua

Mô hìnhThông tin giá và dung lượng công khaiTác động khi chọn
GPT-5.55 USD/triệu token đầu vào, 30 USD/triệu token đầu ra; ngữ cảnh 1M; đầu ra tối đa 128K; hỗ trợ function calling, web search, file search và computer use [35]Phù hợp nhiệm vụ phức tạp, giá trị cao; áp lực chi phí lớn nếu đầu ra dài hoặc agent chạy nhiều vòng.
Claude Opus 4.7Mashable tổng hợp 5 USD/triệu token đầu vào, 25 USD/triệu token đầu ra, và ngữ cảnh 1M [3]Giá đầu ra thấp hơn GPT-5.5; hợp với nhiệm vụ cần tính nhất quán dài hạn và kỷ luật tài liệu.[7]
DeepSeek V4Mashable tổng hợp 1,74 USD/triệu token đầu vào, 3,48 USD/triệu token đầu ra, và ngữ cảnh 1M [3]Rất đáng thử cho batch processing, throughput lớn và ứng dụng nhạy cảm ngân sách.
Kimi K2.6OpenRouter liệt kê một route ở mức 0,7448 USD/triệu token đầu vào và 4,655 USD/triệu token đầu ra; tối đa 256K token và đầu ra tối đa 66K [5]Hợp để đánh giá khi cần mở trọng số, ngữ cảnh dài và đầu vào đa phương thức; giá theo route không nên hiểu là giá thống nhất của mọi nhà cung cấp.[5][9]

Giá API chỉ là một phần của tổng chi phí. Với workflow dùng nhiều công cụ hoặc chạy lâu, hướng dẫn GPT-5.5 API của OpenAI khuyến nghị benchmark với các mô hình khác theo độ chính xác, lượng token tiêu thụ và độ trễ đầu-cuối.[34] Tài liệu mô hình của OpenAI cũng cho thấy GPT-5.5 có thể chỉnh reasoning effort từ none đến xhigh, một biến số có thể tác động tới cả chất lượng lẫn chi phí.[35]

Nên tự test thế nào trước khi đưa vào sản xuất

Benchmark công khai hữu ích để rút gọn danh sách, nhưng không thay thế được bài test nội bộ. Tối thiểu, hãy ghi lại bốn nhóm chỉ số: tỷ lệ hoàn thành nhiệm vụ, kiểu lỗi, độ trễ đầu-cuối, và chi phí token kèm chi phí retry. Với workflow dùng nhiều công cụ hoặc chạy lâu, OpenAI cũng khuyến nghị so sánh mô hình theo độ chính xác, token tiêu thụ và độ trễ đầu-cuối.[34]

Thử nghiệm cá nhân có thể là tín hiệu phụ, nhưng không nên xem là bảng xếp hạng chuẩn. Trong bài test coding tháng 4/2026 của AkitaOnRails, Claude Opus 4.7 đạt 97 điểm, GPT-5.5 xHigh Codex đạt 96, Kimi K2.6 đạt 87 và DeepSeek V4 Pro đạt 69; cùng bảng ghi chi phí ước tính lần lượt khoảng 1,10 USD, 10 USD, 0,30 USD và 0,50 USD.[16]

Giá trị của những kết quả kiểu này nằm ở lời nhắc: mô hình tốt nhất trên giấy chưa chắc là mô hình tốt nhất trong codebase, quyền dùng công cụ, prompt, tiêu chuẩn review và cơ chế retry của bạn.[16][34]

Kết luận thực dụng

Nếu chỉ được chọn một mô hình để đưa vào vòng đánh giá đầu tiên, hãy bắt đầu với GPT-5.5. Nó đang có lợi thế rõ trong Artificial Analysis Intelligence Index và Terminal-Bench 2.0 do VentureBeat tổng hợp.[4][6]

Nếu nhiệm vụ của bạn thiên về nghiên cứu tài liệu dài, tài liệu tài chính, phân tích nhiều bước hoặc cần kỷ luật dữ liệu cao, Claude Opus 4.7 nên nằm trong nhóm ưu tiên. Dữ liệu research-agent nội bộ của Anthropic và tổng hợp HLE của VentureBeat đều cho thấy mô hình này cạnh tranh mạnh ở các hướng đó.[6][7]

Nếu ràng buộc lớn nhất là sản lượng gọi API và ngân sách, DeepSeek V4 là ứng viên đáng test đường cong chi phí/chất lượng nhất. Các tổng hợp giá công khai cho thấy chi phí đầu vào và đầu ra của nó thấp hơn đáng kể so với GPT-5.5 và Claude Opus 4.7.[3]

Nếu bạn cần mở trọng số, đầu vào đa phương thức hoặc ngữ cảnh 256K, Kimi K2.6 là một trong những ứng viên đáng đánh giá nhất theo dữ liệu công khai hiện có. Nhưng mức độ đối chiếu trực tiếp, cùng nguồn giữa Kimi K2.6 với GPT-5.5, Claude Opus 4.7 và DeepSeek V4 vẫn còn hạn chế.[5][8][9]

Cách an toàn nhất là dùng benchmark công khai để biết nên bắt đầu từ đâu, rồi dùng nhiệm vụ thật của chính bạn để quyết định mô hình nào được đưa vào production. Bảng xếp hạng giúp thu hẹp lựa chọn; nó không thay bạn cân đối chất lượng, chi phí và độ trễ trong vận hành thực tế.[34]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Search & fact-check with Studio Global AI

Key takeaways

  • Nếu cần một lựa chọn mặc định để thử trước, GPT 5.5 đang là ứng viên mạnh nhất về hiệu năng tổng hợp và tác vụ agent trong terminal; Claude Opus 4.7 đáng ưu tiên cho nghiên cứu dài, phân tích nhiều bước và tài liệu tà...
  • Chênh lệch giá có thể đảo ngược quyết định mua API: tài liệu OpenAI ghi GPT 5.5 ở mức 5 USD/triệu token đầu vào và 30 USD/triệu token đầu ra, trong khi Mashable tổng hợp DeepSeek V4 ở mức 1,74 USD và 3,48 USD; Claude...
  • Đừng gộp cứng điểm từ nhiều bảng xếp hạng thành một điểm tổng. Reasoning effort, quyền dùng công cụ, bộ định tuyến API, độ trễ và chi phí retry đều có thể làm kết quả trong sản phẩm thật khác đáng kể.[34][35]

People also ask

What is the short answer to "GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6: nên chọn mô hình nào?"?

Nếu cần một lựa chọn mặc định để thử trước, GPT 5.5 đang là ứng viên mạnh nhất về hiệu năng tổng hợp và tác vụ agent trong terminal; Claude Opus 4.7 đáng ưu tiên cho nghiên cứu dài, phân tích nhiều bước và tài liệu tà...

What are the key points to validate first?

Nếu cần một lựa chọn mặc định để thử trước, GPT 5.5 đang là ứng viên mạnh nhất về hiệu năng tổng hợp và tác vụ agent trong terminal; Claude Opus 4.7 đáng ưu tiên cho nghiên cứu dài, phân tích nhiều bước và tài liệu tà... Chênh lệch giá có thể đảo ngược quyết định mua API: tài liệu OpenAI ghi GPT 5.5 ở mức 5 USD/triệu token đầu vào và 30 USD/triệu token đầu ra, trong khi Mashable tổng hợp DeepSeek V4 ở mức 1,74 USD và 3,48 USD; Claude...

What should I do next in practice?

Đừng gộp cứng điểm từ nhiều bảng xếp hạng thành một điểm tổng. Reasoning effort, quyền dùng công cụ, bộ định tuyến API, độ trễ và chi phí retry đều có thể làm kết quả trong sản phẩm thật khác đáng kể.[34][35]

Which related topic should I explore next?

Continue with "Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto" for another angle and extra citations.

Open related page

What should I compare this against?

Cross-check this answer against "DeepSeek V4 工程解析:1M 上下文、MoE 与 API 迁移要点".

Open related page

Continue your research

Research conversation

You

Research question

研究 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 的基准测试,并尽可能全面地进行比较。请以研究报告的格式呈现。

Studio Global AI40 sources

Cited answer

截至 2026-04-26,可核查的公开资料显示:GPT-5.5 是四者中综合基准最强的闭源模型,Claude Opus 4.7 在长程编码、数据纪律和多步任务上紧随其后,Kimi K2.6 是目前证据中最强的开权重模型,DeepSeek V4 Pro 的主要优势是接近前沿模型的能力与显著更低的 API 成本。[1][3][4][5][6] 但四者并没有完整、同源、同设置的官方横向评测;尤其 DeepSeek V4 与 Kimi K2.6 的逐项官方对比证据不足,因此部分结论应视为“公开资料下的最佳估计”。[4][5][6][7]

Key findings

  • 综合智能排名上,Artificial Analysis 的公开比较显示 GPT-5.5 xHigh 位列第一,GPT-5.5 High 第二,Claude Opus 4.7 与 Gemini 3.1 Pro Preview 同处 57 分档位,而 Kimi K2.6 在其 Intelligence Index 上为 54 分、位列开权重模型第一梯队。[5][6]

  • 编码与代理任务上,OpenAI 官方表格给出 GPT-5.5 在 Terminal-Bench 2.0 为 82.7%,在 SWE-Bench Pro 为 58.6%,并称其是 OpenAI 当时最强的 agentic coding 模型。[1] Anthropic 官方没有在可抓取文本中给出完整统一表格,但称 Opus 4.7 相比 Opus 4.6 在高级软件工程、复杂长程任务和自我验证方面显著提升,并引用客户 93-task coding benchmark 中 resolution 提升 13%。[3]

  • 推理与数学上,OpenAI 官方表格显示 GPT-5.5 在 FrontierMath Tier 1–3 为 51.7%、Tier 4 为 35.4%,高于表中 Claude Opus 4.7 的 43.8% 与 22.9%。[1] 但 VentureBeat 汇总的 Humanity’s Last Exam 数据显示,在无工具设置下 Claude Opus 4.7 为 46.9%,高于 GPT-5.5 的 41.4% 与 DeepSeek V4 的 37.7%。[4]

  • 浏览与研究型任务上,GPT-5.5 在 OpenAI 表格中的 BrowseComp 为 84.4%,Claude Opus 4.7 为 79.3%。[1] VentureBeat 报道 DeepSeek V4 Pro-Max 在 BrowseComp 为 83.4%,DocsBot 汇总 Kimi K2.6 为 83.2%,因此该项上 GPT-5.5、DeepSeek V4、Kimi K2.6 非常接近,Claude Opus 4.7 落后一些。[4][7]

  • 成本上,OpenAI API 文档列出 GPT-5.5 为 $5 / 百万输入 token、$30 / 百万输出 token,并支持 1M 上下文与 128K 最大输出。[2] Anthropic 官方称 Claude Opus 4.7 价格维持 $5 / 百万输入 token、$25 / 百万输出 token。[3] VentureBeat 引用 DeepSeek API 定价称 DeepSeek V4 Pro 为 $1.74 / 百万输入 token、$3.48 / 百万输出 token,显著低于 GPT-5.5 与 Claude Opus 4.7。[4]

  • 开权重生态上,Kimi K2.6 被 Artificial Analysis 称为“new leading open weights model”,其模型为 1T 总参数、32B 激活参数的 MoE,支持 256K 上下文、图像和视频输入、文本输出。[5] DeepSeek V4 被报道为 1.6T 参数 MoE、MIT License、可在 Hugging Face 与 DeepSeek API 获取,因此在可部署性和成本上更开放、更便宜。[4]

Benchmark comparison

维度 / 基准GPT-5.5Claude Opus 4.7DeepSeek V4 / V4 ProKimi K2.6解读
Artificial Analysis Intelligence IndexxHigh 60;High 59 [6]57 [6]V4 Pro 被列为领先开权重模型之一,但本次资料未给出同表精确分数 [6]54,开权重第一梯队 [5]GPT-5.5 综合领先,Claude 接近,Kimi 是开权重最强代表之一。
Terminal-Bench 2.082.7% [1]68.5% [1]Insufficient evidenceInsufficient evidenceGPT-5.5 在命令行代理工作流上优势明显。
SWE-Bench Pro58.6% [1]Insufficient evidenceInsufficient evidence第三方资料显示可与 GPT-5.4 / Opus 4.6 同档,但缺少同源 GPT-5.5 / Opus 4.7 对比 [5]GPT-5.5 有官方分数;其他模型缺少同设置数据。
GDPval / GDPval-AAGPT-5.5 wins-or-ties 84.9% [1]80.3% [1]Insufficient evidenceGDPval-AA Elo 1520,高于 Kimi K2.5 的 1309 [5]GPT 与 Claude 可在 OpenAI 表中横比;Kimi 的 AA Elo 不应与 OpenAI 的百分比分数直接相加比较。
BrowseComp84.4% [1]79.3% [1]83.4% [4]83.2% [7]GPT-5.5 略高,DeepSeek 与 Kimi 非常接近,Claude 稍弱。
FrontierMath Tier 1–351.7% [1]43.8% [1]Insufficient evidenceInsufficient evidenceGPT-5.5 在该官方表格中领先 Claude。
FrontierMath Tier 435.4% [1]22.9% [1]Insufficient evidenceInsufficient evidence难题数学上 GPT-5.5 与 Claude 差距扩大。
Humanity’s Last Exam,无工具41.4% [4]46.9% [4]37.7% [4]Insufficient evidenceClaude 在该报道的无工具 HLE 设置中最高。
Humanity’s Last Exam,有工具52.2%;GPT-5.5 Pro 为 57.2% [4]54.7% [4]48.2% [4]Insufficient evidence工具设置下 Claude 高于 GPT-5.5 base,但低于 GPT-5.5 Pro。
CyberGym81.8% [1]73.1% [1]Insufficient evidenceInsufficient evidenceGPT-5.5 在 OpenAI 表格中领先。
AA-Omniscience / 幻觉率Insufficient evidence幻觉率 36%,作为对照项出现 [5]Insufficient evidence幻觉率 39%,低于 Kimi K2.5 的 65% [5]Kimi K2.6 的低幻觉率是其明显亮点。
τ²-Bench TelecomInsufficient evidenceInsufficient evidenceInsufficient evidence96% [5]Kimi K2.6 在工具使用 / 电信任务中表现强。

Model-by-model assessment

GPT-5.5

GPT-5.5 的主要优势是综合能力、agentic coding、计算机使用、浏览研究与数学基准的均衡领先。[1][2][6] OpenAI 官方称 GPT-5.5 擅长写代码、调试、在线研究、数据分析、创建文档和表格、操作软件并跨工具完成任务。[1]

GPT-5.5 的主要短板是成本较高,API 文档列出的输出价格为 $30 / 百万 token,高于 Claude Opus 4.7 的 $25 / 百万 token,也远高于 DeepSeek V4 Pro 的 $3.48 / 百万 token。[2][3][4] 如果任务量极大且边际成本敏感,DeepSeek V4 Pro 或 Kimi K2.6 可能在成本效益上更有吸引力。[4][5]

Claude Opus 4.7

Claude Opus 4.7 的优势是长程编码、复杂任务执行、视觉增强、数据纪律和对不确定性的处理。[3] Anthropic 官方称 Opus 4.7 在高级软件工程上明显优于 Opus 4.6,并且在复杂长时间任务中更严谨、更一致、更会验证自己的输出。[3]

Claude Opus 4.7 在部分硬指标上不总是领先 GPT-5.5;例如 OpenAI 表格中 GPT-5.5 在 Terminal-Bench 2.0、BrowseComp、FrontierMath 和 CyberGym 均高于 Claude Opus 4.7。[1] 但在 VentureBeat 汇总的 HLE 无工具数据中,Claude Opus 4.7 为 46.9%,高于 GPT-5.5 的 41.4%。[4]

DeepSeek V4 / V4 Pro

DeepSeek V4 Pro 的核心竞争力是成本、开放可用性和接近前沿模型的能力。[4] VentureBeat 报道 DeepSeek V4 是 1.6T 参数 MoE、MIT License,并通过 Hugging Face 与 DeepSeek API 提供。[4]

DeepSeek V4 Pro 在已见共享基准中通常接近但不全面超过 GPT-5.5 或 Claude Opus 4.7。[4] VentureBeat 的数据称 DeepSeek 在 HLE 无工具为 37.7%、有工具为 48.2%,低于 GPT-5.5、GPT-5.5 Pro 与 Claude Opus 4.7 的对应分数。[4] 但它的 API 成本远低于 GPT-5.5 与 Claude Opus 4.7,因此适合高吞吐、成本敏感、可自托管或开源优先的场景。[4]

Kimi K2.6

Kimi K2.6 的定位是强开权重、多模态、长上下文和低幻觉率。[5] Artificial Analysis 称其为新的领先开权重模型,并给出 Intelligence Index 54、GDPval-AA Elo 1520、τ²-Bench Telecom 96%、幻觉率 39%、256K 上下文、图像和视频输入支持等结果。[5]

Kimi K2.6 与 GPT-5.5 的直接可比官方数据较少,因此不能简单声称它全面超过 GPT-5.5 或 Claude Opus 4.7。[5][7] 在 BrowseComp 上,DocsBot 汇总 Kimi K2.6 为 83.2%,接近 GPT-5.5 的 84.4%,但该数据来自不同汇总源,需谨慎比较。[1][7]

Practical recommendations

  • 如果目标是最高综合智能、agentic coding、浏览研究和工具任务,优先选择 GPT-5.5。[1][2][6]

  • 如果目标是长程工程任务、复杂文档/视觉理解、较强自我校验和比 GPT-5.5 略低的输出价格,优先选择 Claude Opus 4.7。[3]

  • 如果目标是大规模推理、低成本 API、开源许可证或部署灵活性,优先评估 DeepSeek V4 Pro。[4]

  • 如果目标是开权重、多模态输入、256K 长上下文、低幻觉率和强工具使用,优先评估 Kimi K2.6。[5]

  • 如果目标是联网研究或网页检索类任务,GPT-5.5、DeepSeek V4 和 Kimi K2.6 的公开 BrowseComp 分数非常接近,建议用自己的真实工作流做小样本 A/B 测试。[1][4][7]

Evidence notes

本报告主要使用以下编号来源:OpenAI 官方 GPT-5.5 发布页 [1]、OpenAI API 模型文档 [2]、Anthropic 官方 Claude Opus 4.7 发布页 [3]、VentureBeat 对 DeepSeek V4 的报道与基准汇总 [4]、Artificial Analysis 对 Kimi K2.6 的评测 [5]、Artificial Analysis 的 GPT-5.5 / DeepSeek V4 比较页 [6]、DocsBot 的 Kimi K2.6 / GPT-5.5 对比页 [7]、OpenRouter 的 DeepSeek V4 Pro / Kimi K2.6 提供商对比页 [8]、AkitaOnRails 的 2026 年 4 月编码实测 [9]

官方来源的证据权重最高,尤其是 OpenAI 与 Anthropic 自家发布页和 API 文档。[1][2][3] 第三方基准的优势是可横向比较,但常受提示词、工具链、推理强度、温度、样本集和服务商封装影响,因此本报告把 Artificial Analysis、VentureBeat、DocsBot、OpenRouter 和个人实测作为补充证据而非最终裁决。[4][5][6][7][8][9]

Limitations / uncertainty

Insufficient evidence:没有找到四个模型在同一组织、同一时间、同一推理预算、同一工具设置下覆盖所有关键基准的完整公开表格。[1][3][4][5][6][7]

Insufficient evidence:DeepSeek V4 与 Kimi K2.6 的官方逐项基准、尤其是与 GPT-5.5 和 Claude Opus 4.7 的同源对比,在本次可核查材料中不完整。[4][5][6][7]

部分分数来自模型厂商自己的发布页,可能更偏向展示该模型强项。[1][3] 部分分数来自第三方聚合或媒体报道,可能存在模型版本、调用参数、工具权限或供应商路由差异。[4][5][6][7][8]

Summary

综合公开基准看,GPT-5.5 是默认的最高性能选择,Claude Opus 4.7 是最接近的闭源替代并在长程工程与数据纪律上很强,Kimi K2.6 是开权重阵营最强候选,DeepSeek V4 Pro 则是成本效益和开放部署最突出的候选。[1][3][4][5][6]

如果你要做采购或技术选型,不应只看排行榜;建议用自己的 30–100 个真实任务建立私有评测集,并同时记录准确率、失败模式、延迟、token 消耗、可控性、工具调用成功率和总成本。[1][2][4][5]

Sources

  • [1] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai

    Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...

  • [3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [4] DeepSeek V4 Pro (Reasoning, High Effort) vs GPT-5.5 (medium)artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [5] DeepSeek V4 Pro vs Kimi K2.6 - AI Model Comparison | OpenRouteropenrouter.ai

    Ready Output will appear here... Pricing Input$0.7448 / M tokens Output$4.655 / M tokens Images– – Features Input Modalities text, image Output Modalities text Quantization int4 Max Tokens (input + output)256K Max Output Tokens 66K Stream cancellation Suppo...

  • [6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....

  • [7] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [8] Kimi K2.6 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai

    BrowseComp Evaluates browsing and web comprehension capabilities 83.2% Thinking mode; context management Source 84.4% Source CharXiv Reasoning Evaluates information synthesis from complex charts and scientific visualizations 80.4% RQ; 86.7 with Python Sourc...

  • [9] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    ➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...

  • [14] Kimi K2.6 Tested: Does It Beat Claude and GPT-5? | Lorka AIlorka.ai

    Benchmark What it tests Kimi K2.6 GPT-5.4 Opus 4.6 Gemini 3.1 Pro --- --- --- HLE-Full (with tools) Agentic reasoning with tool use 54.0% 52.1% 53.0% 51.4% DeepSearchQA (F1) Research retrieval and synthesis 92.5% 78.6% 91.3% 81.9% SWE-Bench Pro Multi-file c...

  • [15] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [16] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com

    Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...

  • [25] Introducing GPT-5.5 - OpenAIopenai.com

    Update on April 24, 2026: GPT‑5.5 and GPT‑5.5 Pro are now available ... GPT‑5.5 achieved leading performance among models with published scores. 3 days ago

  • [34] Using GPT-5.5 | OpenAI APIdevelopers.openai.com

    For tool-heavy or long-running workflows, verify that your application handles phase , preambles, and assistant-item replay correctly. Benchmark against other models on accuracy, token consumption, and end-to-end latency. [...] More efficient reasoning: GPT...

  • [35] Models | OpenAI APIdevelopers.openai.com

    GPT-5.5 New A new class of intelligence for coding and professional work. Model ID gpt-5.5 [Reasoning none low medium high xhigh Input price $5 / Input MTok Output price $30 / Output MTok Latency Fast Max output 128K tokens Context window 1M Tools Functions...