studioglobal
Khám phá xu hướng
Báo cáoĐã xuất bản7 nguồn

GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6: so sánh benchmark theo từng tác vụ

Không có “vua benchmark” duy nhất: Claude Opus 4.7 dẫn GPQA Diamond 94.2% và HLE không tool 46.9%, GPT 5.5 Pro dẫn HLE có tool 57.2% và BrowseComp 90.1%, còn GPT 5.5 dẫn Terminal Bench 2.0 với 82.7%; Kimi K2.6 thiếu m... DeepSeek V4 Pro Max không dẫn các hàng benchmark trực tiếp trong bảng VentureBeat, nhưng được mô...

17K0
Minh họa so sánh benchmark giữa GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026Benchmark các mô hình AI lớn nên được đọc theo tác vụ: reasoning, tool use, terminal, coding và chi phí.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026. Article summary: Không có mô hình thắng tuyệt đối: Claude Opus 4.7 dẫn GPQA Diamond ở 94.2% và HLE không tool, GPT 5.5 Pro dẫn HLE có tool ở 57.2%, còn GPT 5.5 dẫn Terminal Bench 2.0 ở 82.7%.. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "# 2026年4月最新四大模型横评:Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4,差距到底有多大?. # 同周发布四大旗舰,差距到底有多大?Kimi K2.6 / Claude Opus 4.7 / GPT-5.5 / DeepSeek V4 深度横评. **2026 年 4 月的第三周,AI" source context "2026年4月最新四大模型横评:Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4,差距到底有多大? - 七牛云行业应用 - 博客园" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4h

openai.com

Benchmark AI năm 2026 nên được đọc như bản đồ năng lực, không phải một bảng xếp hạng tổng lực. Với các nguồn hiện có, kết luận đáng tin nhất là chọn mô hình theo tác vụ: Claude Opus 4.7 mạnh ở reasoning không dùng tool và SWE-Bench Pro; GPT-5.5 Pro nổi bật ở tool use và browsing; GPT-5.5 có tín hiệu tốt nhất trên terminal; DeepSeek V4 đáng chú ý về chi phí/hiệu năng nhưng có cảnh báo hallucination; còn Kimi K2.6 có một số điểm riêng lẻ nhưng chưa có ma trận so sánh đồng nhất với đầy đủ các đối thủ [1][2][3][8][9].

Bảng so sánh benchmark chính

Dấu “—” trong bảng nghĩa là nguồn được trích không cung cấp số liệu đối chiếu trực tiếp cho mô hình đó trên cùng benchmark, không phải điểm bằng 0.

BenchmarkGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek-V4-Pro-MaxKimi K2.6Dẫn đầu trong dữ liệu này
GPQA Diamond93.6%94.2%90.1%— trong bảng trực tiếp; LLM Stats liệt kê GPQA 0.91Claude Opus 4.7 [2][8]
Humanity’s Last Exam, không dùng tool41.4%43.1%46.9%37.7%Claude Opus 4.7 [2]
Humanity’s Last Exam, có tool52.2%57.2%54.7%48.2%GPT-5.5 Pro [2]
Terminal-Bench 2.082.7%69.4%67.9%GPT-5.5 [2]
SWE-Bench Pro / SWE Pro58.6%64.3%55.4%LLM Stats liệt kê 0.59Claude Opus 4.7 [2][3]
BrowseComp84.4%90.1%79.3%83.4%DocsBot liệt kê 83.2%GPT-5.5 Pro trong bảng VentureBeat [2][9]
MCP Atlas / MCPAtlas Public75.3%79.1%73.6%Claude Opus 4.7 [2]

Bảng này cho thấy lý do không nên tuyên bố một mô hình “thắng toàn diện”. Claude Opus 4.7 dẫn nhiều bài reasoning và software engineering trong dữ liệu trực tiếp; GPT-5.5 Pro dẫn các bài có tool và browsing; GPT-5.5 dẫn Terminal-Bench 2.0; còn Kimi K2.6 xuất hiện chủ yếu ở các nguồn riêng như LLM Stats và DocsBot, không phải trong cùng một bảng đối chiếu đầy đủ [2][3][8][9].

Reasoning khó: Claude Opus 4.7 đang nhỉnh hơn

Trong bảng so sánh trực tiếp của VentureBeat, Claude Opus 4.7 đạt 94.2% trên GPQA Diamond, cao hơn GPT-5.5 ở 93.6% và DeepSeek-V4-Pro-Max ở 90.1% [2]. Khoảng cách giữa Claude và GPT-5.5 không lớn, nhưng Claude vẫn là mô hình đứng đầu hàng GPQA Diamond trong dữ liệu đó [2].

Claude Opus 4.7 cũng dẫn Humanity’s Last Exam không dùng tool với 46.9%, so với GPT-5.5 Pro 43.1%, GPT-5.5 41.4% và DeepSeek-V4-Pro-Max 37.7% [2]. Nếu tác vụ chính là câu hỏi tri thức khó, reasoning khoa học hoặc bài kiểm tra không có công cụ hỗ trợ, dữ liệu hiện có nghiêng về Claude Opus 4.7 [2].

Kimi K2.6 có tín hiệu riêng trên GPQA: LLM Stats liệt kê Kimi K2.6 ở mức 0.91, trong khi Claude Opus 4.7 và GPT-5.5 cùng được liệt kê ở mức làm tròn 0.94 trên leaderboard đó [8]. Tuy nhiên, đây không phải cùng bảng GPQA Diamond trực tiếp của VentureBeat, nên nên xem là dữ liệu tham khảo thay vì phép so sánh tuyệt đối [2][8].

Tool use và web browsing: GPT-5.5 Pro nổi bật nhất

Khi benchmark cho phép dùng công cụ, thứ hạng thay đổi rõ. Trên Humanity’s Last Exam có tool, GPT-5.5 Pro đạt 57.2%, cao hơn Claude Opus 4.7 ở 54.7%, GPT-5.5 ở 52.2% và DeepSeek-V4-Pro-Max ở 48.2% [2].

BrowseComp cũng nghiêng về GPT-5.5 Pro trong bảng VentureBeat: GPT-5.5 Pro đạt 90.1%, GPT-5.5 đạt 84.4%, DeepSeek-V4-Pro-Max đạt 83.4% và Claude Opus 4.7 đạt 79.3% [2]. DocsBot liệt kê Kimi K2.6 ở 83.2% trên BrowseComp, nhưng dữ liệu này nằm trong một trang so sánh riêng giữa Kimi K2.6 và DeepSeek-V4 Pro, không phải cùng ma trận đầy đủ của VentureBeat [9].

Vì vậy, nếu workload phụ thuộc nhiều vào browsing, tool orchestration hoặc tìm kiếm thông tin trên web, GPT-5.5 Pro là lựa chọn nổi bật nhất trong bộ số liệu được trích [2].

Terminal và agentic CLI: GPT-5.5 có lợi thế rõ

Terminal-Bench 2.0 quan trọng với các tác vụ agent thao tác trong môi trường shell, thay vì chỉ trả lời câu hỏi. Benchmark này được mô tả là đo khả năng hoàn thành workflow CLI thực tế, gồm thao tác file, chạy script, debug và phối hợp công cụ [5].

Trong bảng VentureBeat, GPT-5.5 đạt 82.7% trên Terminal-Bench 2.0, vượt Claude Opus 4.7 ở 69.4% và DeepSeek-V4-Pro-Max ở 67.9% [2]. Nếu use case chính là agent chạy lệnh, sửa lỗi qua terminal, tự động hóa repo hoặc workflow nhiều bước trong shell, đây là lợi thế rõ nhất của GPT-5.5 trong dữ liệu hiện có [2][5].

Software engineering: Claude Opus 4.7 dẫn SWE-Bench Pro

SWE-Bench Pro là tín hiệu đáng chú ý cho các tác vụ kỹ thuật phần mềm phức tạp. LLM Stats mô tả benchmark này là phiên bản nâng cao của SWE-Bench, đánh giá các tác vụ software engineering thực tế, cần suy luận kéo dài và giải quyết nhiều bước [3].

Trong bảng VentureBeat, Claude Opus 4.7 đạt 64.3% trên SWE-Bench Pro / SWE Pro, cao hơn GPT-5.5 ở 58.6% và DeepSeek-V4-Pro-Max ở 55.4% [2]. LLM Stats cũng liệt kê Claude Opus 4.7 ở 0.64, GPT-5.5 ở 0.59, Kimi K2.6 ở 0.59 và DeepSeek-V4-Pro-Max ở 0.55 trên SWE-Bench Pro [3].

Hai nguồn dùng cách trình bày điểm khác nhau, nhưng cho cùng một tín hiệu chính: Claude Opus 4.7 dẫn nhóm này trên SWE-Bench Pro; GPT-5.5 và Kimi K2.6 ở sát nhau trong bảng LLM Stats; DeepSeek-V4-Pro-Max thấp hơn trong các số liệu được trích [2][3].

DeepSeek V4: hấp dẫn về chi phí, nhưng cần kiểm soát hallucination

DeepSeek-V4-Pro-Max không dẫn đầu hàng nào trong bảng đối chiếu trực tiếp của VentureBeat: mô hình này đạt 90.1% trên GPQA Diamond, 37.7% trên Humanity’s Last Exam không tool, 48.2% trên Humanity’s Last Exam có tool, 67.9% trên Terminal-Bench 2.0, 55.4% trên SWE-Bench Pro, 83.4% trên BrowseComp và 73.6% trên MCP Atlas [2].

Điểm hấp dẫn của DeepSeek V4 nằm ở hiệu năng trên chi phí. VentureBeat mô tả DeepSeek-V4 là gần state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [2]. Tuy nhiên, Artificial Analysis ghi nhận DeepSeek V4 Pro Max đạt -10 trên AA-Omniscience, cải thiện 11 điểm so với V3.2 Reasoning ở -21, đồng thời nói V4 Pro và V4 Flash có tỷ lệ hallucination rất cao, lần lượt 94% và 96% [1].

Không nên suy diễn rằng DeepSeek V4 chắc chắn kém tin cậy nhất trong toàn bộ nhóm, vì các nguồn được trích không cung cấp cùng một thước đo hallucination cho GPT-5.5, Claude Opus 4.7 và Kimi K2.6 [1]. Kết luận an toàn hơn là: DeepSeek V4 đáng cân nhắc nếu chi phí là ưu tiên, nhưng cần kiểm thử hallucination nghiêm túc trên dữ liệu và quy trình thật của bạn [1][2].

Kimi K2.6: có tín hiệu tốt, nhưng thiếu dữ liệu đồng nhất

Kimi K2.6 là mô hình khó xếp hạng nhất trong bài so sánh này, vì dữ liệu không nằm trong cùng một ma trận benchmark đầy đủ với GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 và DeepSeek-V4-Pro-Max [2][3][8][9].

Các nguồn khác vẫn cho một số tín hiệu đáng chú ý. LLM Stats liệt kê Kimi K2.6 ở 0.91 trên GPQA và 0.59 trên SWE-Bench Pro [3][8]. DocsBot liệt kê Kimi K2.6 đạt 96.4% trên AIME 2026 ở thinking mode, 27.9% trên APEX Agents và 83.2% trên BrowseComp; cùng trang DocsBot liệt kê DeepSeek-V4 Pro ở 83.4% trên BrowseComp [9].

Vì các điểm này đến từ nguồn và ngữ cảnh khác nhau, kết luận hợp lý không phải là Kimi K2.6 thắng hay thua toàn diện. Thay vào đó, Kimi K2.6 nên được xem là ứng viên đáng thử khi các benchmark riêng của nó khớp với nhu cầu, đặc biệt nếu bạn có thể tự chạy bài kiểm thử nội bộ trên dữ liệu thật [3][8][9].

Nên chọn mô hình nào?

  • Reasoning khoa học hoặc tri thức khó không dùng tool: chọn Claude Opus 4.7 trước, vì mô hình này dẫn GPQA Diamond và Humanity’s Last Exam không tool trong bảng đối chiếu trực tiếp [2].
  • Tác vụ cần tool, web hoặc browsing: ưu tiên GPT-5.5 Pro, vì mô hình này dẫn Humanity’s Last Exam có tool và BrowseComp trong dữ liệu được trích [2].
  • Agent chạy terminal, workflow CLI, sửa lỗi qua shell: GPT-5.5 có tín hiệu mạnh nhất với 82.7% trên Terminal-Bench 2.0 [2][5].
  • Software engineering phức tạp: Claude Opus 4.7 dẫn SWE-Bench Pro trong cả bảng VentureBeat và LLM Stats; GPT-5.5 và Kimi K2.6 ở cùng mức 0.59 trong bảng LLM Stats [2][3].
  • Tối ưu chi phí/hiệu năng: DeepSeek V4 đáng cân nhắc vì được mô tả là gần state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5, nhưng cần kiểm soát rủi ro hallucination [1][2].
  • Muốn thử Kimi K2.6: hãy coi các điểm GPQA, SWE-Bench Pro, AIME 2026, APEX Agents và BrowseComp như tín hiệu riêng lẻ, không phải bằng chứng cho vị trí số một toàn diện [3][8][9].

Những giới hạn cần nhớ khi đọc benchmark

Thứ nhất, GPT-5.5 Pro chỉ có số liệu ở một số hàng trong bảng VentureBeat, nên không thể giả định bản Pro dẫn hoặc thua ở mọi benchmark không được báo cáo [2]. Thứ hai, dữ liệu Kimi K2.6 chủ yếu đến từ LLM Stats và DocsBot, không phải cùng bảng đối chiếu đầy đủ với GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 và DeepSeek-V4-Pro-Max [2][3][8][9].

Thứ ba, OpenAI có system card riêng cho GPT-5.5, trong đó CoT-Control gồm hơn 13,000 tác vụ xây dựng từ GPQA, MMLU-Pro, HLE, BFCL và SWE-Bench Verified [20]. Đây là thông tin hữu ích về cách GPT-5.5 được đánh giá, nhưng các nguồn được trích không có kết quả CoT-Control tương đương cho Claude Opus 4.7, DeepSeek V4 và Kimi K2.6 để xếp hạng ngang hàng [20].

Nếu buộc phải tóm gọn: Claude Opus 4.7 là lựa chọn mạnh nhất trong dữ liệu này cho reasoning khó và SWE-Bench Pro; GPT-5.5 Pro mạnh nhất ở bài có tool và browsing; GPT-5.5 nổi bật nhất ở terminal; DeepSeek V4 đáng xem xét khi chi phí là ưu tiên; Kimi K2.6 có tín hiệu tốt nhưng thiếu ma trận so sánh đồng nhất [1][2][3][8][9].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • Không có “vua benchmark” duy nhất: Claude Opus 4.7 dẫn GPQA Diamond 94.2% và HLE không tool 46.9%, GPT 5.5 Pro dẫn HLE có tool 57.2% và BrowseComp 90.1%, còn GPT 5.5 dẫn Terminal Bench 2.0 với 82.7%; Kimi K2.6 thiếu m...
  • DeepSeek V4 Pro Max không dẫn các hàng benchmark trực tiếp trong bảng VentureBeat, nhưng được mô tả là gần state of the art với chi phí khoảng 1/6 so với Opus 4.7 và GPT 5.5; cần kiểm thử riêng vì Artificial Analysis...
  • Cách chọn thực dụng: Claude cho reasoning khó và SWE Bench Pro; GPT 5.5 Pro cho tool, browsing và web research; GPT 5.5 cho workflow terminal; DeepSeek cho bài toán chi phí; Kimi khi các benchmark riêng như GPQA, SWE...

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "GPT-5.5, Claude Opus 4.7, DeepSeek V4 và Kimi K2.6: so sánh benchmark theo từng tác vụ" là gì?

Không có “vua benchmark” duy nhất: Claude Opus 4.7 dẫn GPQA Diamond 94.2% và HLE không tool 46.9%, GPT 5.5 Pro dẫn HLE có tool 57.2% và BrowseComp 90.1%, còn GPT 5.5 dẫn Terminal Bench 2.0 với 82.7%; Kimi K2.6 thiếu m...

Những điểm chính cần xác nhận đầu tiên là gì?

Không có “vua benchmark” duy nhất: Claude Opus 4.7 dẫn GPQA Diamond 94.2% và HLE không tool 46.9%, GPT 5.5 Pro dẫn HLE có tool 57.2% và BrowseComp 90.1%, còn GPT 5.5 dẫn Terminal Bench 2.0 với 82.7%; Kimi K2.6 thiếu m... DeepSeek V4 Pro Max không dẫn các hàng benchmark trực tiếp trong bảng VentureBeat, nhưng được mô tả là gần state of the art với chi phí khoảng 1/6 so với Opus 4.7 và GPT 5.5; cần kiểm thử riêng vì Artificial Analysis...

Tôi nên làm gì tiếp theo trong thực tế?

Cách chọn thực dụng: Claude cho reasoning khó và SWE Bench Pro; GPT 5.5 Pro cho tool, browsing và web research; GPT 5.5 cho workflow terminal; DeepSeek cho bài toán chi phí; Kimi khi các benchmark riêng như GPQA, SWE...

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Claude Opus 4.7, GPT-5.5, DeepSeek V4 và Kimi K2.6: benchmark 2026 nói gì?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "DeepSeek V4: không chỉ là 1M token, mà là bài toán MoE và API".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn

Câu hỏi nghiên cứu

Nghiên cứu benchmarks của GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6 và so sánh chúng một cách toàn diện nhất

Studio Global AI28 nguồn

Câu trả lời được trích dẫn

Dựa trên bộ bằng chứng được cung cấp, không thể so sánh đầy đủ cả 5 mô hình vì không có dữ liệu benchmark cho Kimi K2.6; Insufficient evidence. Trong các benchmark có số liệu, Claude Opus 4.7 đứng đầu GPQA Diamond và Humanity’s Last Exam không dùng công cụ, GPT-5.5 Pro đứng đầu Humanity’s Last Exam có công cụ, còn GPT-5.5 đứng đầu Terminal-Bench 2.0 [3]. DeepSeek-V4-Pro-Max ở gần nhóm đầu nhưng thua mô hình dẫn đầu trong các benchmark được trích dẫn, dù được mô tả là có chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [3].

Key findings

  • Claude Opus 4.7 mạnh nhất trong nhóm benchmark tri thức/lý luận khó không dùng công cụ: Claude Opus 4.7 đạt 94.2% trên GPQA Diamond, cao hơn GPT-5.5 ở 93.6% và DeepSeek-V4-Pro-Max ở 90.1% [3]. Claude Opus 4.7 cũng đạt 46.9% trên Humanity’s Last Exam không dùng công cụ, cao hơn GPT-5.5 Pro 43.1%, GPT-5.5 41.4% và DeepSeek-V4-Pro-Max 37.7% [3].

  • GPT-5.5 Pro dẫn đầu khi có công cụ: Trên Humanity’s Last Exam có công cụ, GPT-5.5 Pro đạt 57.2%, cao hơn Claude Opus 4.7 ở 54.7%, GPT-5.5 ở 52.2% và DeepSeek-V4-Pro-Max ở 48.2% [3].

  • GPT-5.5 nổi bật nhất ở tác vụ terminal/agentic CLI: Trên Terminal-Bench 2.0, GPT-5.5 đạt 82.7%, cao hơn Claude Opus 4.7 ở 69.4% và DeepSeek-V4-Pro-Max ở 67.9% [3]. Terminal-Bench 2.0 được mô tả là benchmark đo khả năng hoàn thành workflow CLI thực tế gồm thao tác file, chạy script, debug và phối hợp công cụ [7].

  • DeepSeek-V4-Pro-Max có vị trí tốt về hiệu năng/chi phí nhưng chưa dẫn benchmark chính trong evidence: Nguồn [3] mô tả DeepSeek-V4 là “near state-of-the-art” với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5, nhưng trong các số liệu benchmark được trích, DeepSeek-V4-Pro-Max không đứng đầu GPQA Diamond, Humanity’s Last Exam hoặc Terminal-Bench 2.0 [3].

  • DeepSeek V4 có tín hiệu rủi ro hallucination: Nguồn [2] cho biết DeepSeek V4 Pro Max đạt -10 trên AA-Omniscience, cải thiện 11 điểm so với V3.2 Reasoning ở -21, chủ yếu nhờ độ chính xác cao hơn [2]. Cùng nguồn nói V4 Pro và V4 Flash có tỷ lệ hallucination “rất cao”, nhưng phần evidence bị cắt ở con số “94…”, nên không thể xác nhận chính xác tỷ lệ phần trăm [2].

  • Kimi K2.6 không thể đánh giá từ bộ evidence này: Không có nguồn nào trong evidence cung cấp điểm benchmark, giá, độ trễ, coding score, reasoning score hoặc hallucination score cho Kimi K2.6; Insufficient evidence.

Bảng so sánh benchmark có số liệu

Benchmark / năng lựcGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek-V4-Pro-MaxKimi K2.6Mô hình dẫn đầu trong evidence
GPQA Diamond93.6%Không có số liệu94.2%90.1%Insufficient evidenceClaude Opus 4.7 [3]
Humanity’s Last Exam, không dùng công cụ41.4%43.1%46.9%37.7%Insufficient evidenceClaude Opus 4.7 [3]
Humanity’s Last Exam, có công cụ52.2%57.2%54.7%48.2%Insufficient evidenceGPT-5.5 Pro [3]
Terminal-Bench 2.082.7%Không có số liệu69.4%67.9%Insufficient evidenceGPT-5.5 [3]
AA-OmniscienceKhông có số liệuKhông có số liệuKhông có số liệu-10Insufficient evidenceKhông đủ dữ liệu đối chiếu giữa 5 mô hình [2]
SWE-Bench ProKhông đủ số liệuKhông đủ số liệuCó mốc 0.64 trong snippetSnippet hiển thị “#11 of 11” nhưng không có điểm đầy đủInsufficient evidenceKhông đủ dữ liệu lập ranking đầy đủ [4]

So sánh theo từng mục đích sử dụng

  • Nếu ưu tiên lý luận khoa học/tri thức khó: Claude Opus 4.7 có lợi thế nhẹ trên GPQA Diamond với 94.2%, so với GPT-5.5 ở 93.6% và DeepSeek-V4-Pro-Max ở 90.1% [3].

  • Nếu ưu tiên bài kiểm tra tổng hợp cực khó không dùng tool: Claude Opus 4.7 dẫn Humanity’s Last Exam không dùng công cụ với 46.9%, cao hơn GPT-5.5 Pro 43.1% và GPT-5.5 41.4% [3].

  • Nếu ưu tiên bài toán có tool: GPT-5.5 Pro là lựa chọn mạnh nhất trong evidence vì đạt 57.2% trên Humanity’s Last Exam có công cụ, cao hơn Claude Opus 4.7 ở 54.7% [3].

  • Nếu ưu tiên workflow terminal, automation và tác vụ agentic CLI: GPT-5.5 vượt rõ rệt với 82.7% trên Terminal-Bench 2.0, trong khi Claude Opus 4.7 đạt 69.4% và DeepSeek-V4-Pro-Max đạt 67.9% [3].

  • Nếu ưu tiên chi phí/hiệu năng: DeepSeek-V4 đáng chú ý vì được mô tả là đạt mức gần state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [3]. Tuy nhiên, evidence không cung cấp bảng giá chi tiết hoặc giá token, nên không thể kiểm chứng sâu hơn về tổng chi phí sử dụng thực tế.

  • Nếu ưu tiên độ tin cậy và giảm hallucination: Evidence chỉ có dữ liệu hallucination cho DeepSeek V4, trong đó nguồn [2] nói hallucination vẫn rất cao dù AA-Omniscience cải thiện [2]. Không có dữ liệu hallucination tương đương cho GPT-5.5, Claude Opus 4.7 hoặc Kimi K2.6 trong evidence, nên không thể kết luận mô hình nào đáng tin cậy nhất về mặt này.

Evidence notes

  • Nguồn chính cho bảng so sánh số liệu giữa GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 và DeepSeek-V4-Pro-Max là [3]. Các kết luận về mô hình đứng đầu từng benchmark trong bảng đều dựa trên các số liệu được trích trong [3].

  • GPT-5.5 có tài liệu hệ thống riêng về đánh giá an toàn/điều khiển chuỗi suy luận: system card nói GPT-5.5 được đo bằng CoT-Control, một bộ đánh giá hơn 13,000 tác vụ xây dựng từ các benchmark như GPQA và MMLU-Pro [1]. Tuy nhiên, evidence không cung cấp kết quả CoT-Control tương ứng cho Claude Opus 4.7, DeepSeek V4 hoặc Kimi K2.6, nên không thể dùng CoT-Control để so sánh ngang hàng [1].

  • Nguồn [6] cũng lặp lại rằng GPT-5.5 được đánh giá controllability bằng CoT-Control với hơn 13,000 tác vụ từ các benchmark đã có như GPQA và MMLU-Pro [6]. Đây là bằng chứng hữu ích về phạm vi đánh giá GPT-5.5, nhưng không đủ để lập ranking giữa 5 mô hình [6].

  • Nguồn [4] có nhắc đến SWE-Bench Pro cho DeepSeek-V4-Pro-Max và hiển thị Claude Opus 4.7 ở mức 0.64 trong snippet, nhưng phần evidence không đủ đầy đủ để so sánh SWE-Bench Pro giữa tất cả mô hình [4].

Limitations / uncertainty

  • Thiếu hoàn toàn dữ liệu Kimi K2.6: Không có benchmark nào cho Kimi K2.6 trong evidence, nên mọi xếp hạng có Kimi đều là Insufficient evidence.

  • Thiếu nguồn chính thức cho Claude Opus 4.7 và DeepSeek V4 trong bảng chính: Các số liệu so sánh trực tiếp chủ yếu đến từ nguồn [3], không phải model card chính thức của từng nhà cung cấp trong evidence [3].

  • Thiếu nhiều benchmark quan trọng: Evidence không cung cấp số liệu đầy đủ cho MMLU-Pro, AIME, LiveCodeBench, SWE-Bench Verified, MMMU, latency, context window, throughput hoặc giá token cho cả 5 mô hình.

  • Không thể kết luận “mô hình tốt nhất toàn diện” một cách tuyệt đối: Với evidence hiện có, chỉ có thể nói Claude Opus 4.7 dẫn một số benchmark reasoning không dùng tool, GPT-5.5/GPT-5.5 Pro dẫn các benchmark tool/terminal được trích, còn DeepSeek-V4-Pro-Max có lợi thế được mô tả về chi phí nhưng có cảnh báo hallucination [2][3].

Summary

  • Tốt nhất về GPQA Diamond: Claude Opus 4.7, 94.2% [3].

  • Tốt nhất về Humanity’s Last Exam không tool: Claude Opus 4.7, 46.9% [3].

  • Tốt nhất về Humanity’s Last Exam có tool: GPT-5.5 Pro, 57.2% [3].

  • Tốt nhất về Terminal-Bench 2.0: GPT-5.5, 82.7% [3].

  • Đáng chú ý về chi phí/hiệu năng: DeepSeek-V4, được mô tả là gần state-of-the-art với chi phí khoảng 1/6 so với Opus 4.7 và GPT-5.5 [3].

  • Không thể đánh giá: Kimi K2.6, vì không có dữ liệu benchmark trong evidence; Insufficient evidence.

Nguồn

  • [1] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [2] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...

  • [3] DeepSeek-V4-Pro-Max: Pricing, Benchmarks & Performancellm-stats.com

    SWE-Bench ProView → 11 of 11 Image 35: LLM Stats Logo SWE-Bench Pro is an advanced version of SWE-Bench that evaluates language models on complex, real-world software engineering tasks requiring extended reasoning and multi-step problem solving. More 1Image...

  • [5] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai

    Terminal-Bench 2.0 measures the ability to complete real CLI workflows: multi-step tasks involving file manipulation, script execution, debugging, and tool coordination. GPT-5.5's 82.7% score is the highest ever recorded, though the margin over Claude Mytho...

  • [8] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com

    9Image 42GPT-5 mini 0.22 10Image 43o3 0.16 GPQAView → 4 of 10 Image 44: LLM Stats Logo A challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. Questions are Google-proof and extremely difficult, w...

  • [9] Kimi K2.6 vs DeepSeek-V4 Pro - Detailed Performance & Feature Comparisondocsbot.ai

    Benchmark Kimi K2.6 DeepSeek-V4 Pro --- AIME 2026 American Invitational Mathematics Examination 2026 - Evaluates advanced mathematical problem-solving abilities (contest-level math) 96.4% Thinking mode Source Not available APEX Agents Evaluates long-horizon...

  • [20] [PDF] GPT-5.5 System Card - Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...