studioglobal
Популярное в «Открыть»
ОтчетыОпубликовано9 источники

So sánh benchmark GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4

GPT 5.5 dẫn ở ARC AGI 2 với 85% so với 75,8% của Claude, và ở Terminal Bench 2.0 với 82,7%.[1][3] Claude Opus 4.7 có lợi thế rõ hơn ở HLE và SWE Bench Pro, gồm 64,3% trên SWE Bench Pro so với 58,6% của GPT 5.5 và 55,4% của DeepSeek V4 Pro.[3][9] Kimi K2.6 là ứng viên coding/agentic đáng thử, còn DeepSeek V4 thường k...

18K0
Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
Промпт ИИ

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.

openai.com

Đừng đọc các benchmark AI như một cuộc đua 100 mét có một vạch đích duy nhất. Các nguồn hiện có dùng bộ test, chế độ chạy và phiên bản model khác nhau; phần giao nhau giữa GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4 cũng không đầy đủ. Cách nhìn thực dụng hơn là: GPT-5.5 nổi bật ở ARC và các tác vụ tác nhân chạy trong terminal, Claude Opus 4.7 mạnh ở HLE và SWE-Bench Pro, Kimi K2.6 là ứng viên coding/agentic đáng chú ý, đặc biệt nếu cần hướng open-weight, còn DeepSeek V4 thường không đứng đầu điểm thô nhưng có lợi thế lớn về giá API.[1][2][3][4][6][8][9][13]

Kết luận nhanh theo từng model

  • GPT-5.5: nên được thử trước nếu bài toán giống ARC hoặc tác vụ agent dùng terminal. DocsBot ghi GPT-5.5 đạt 85% trên ARC-AGI-2 so với 75,8% của Claude Opus 4.7; VentureBeat ghi 82,7% trên Terminal-Bench 2.0, cao hơn 69,4% của Claude và 67,9% của DeepSeek.[1][3]
  • Claude Opus 4.7: nổi bật ở các bài kiểm tra suy luận khó và rà soát phần mềm. VentureBeat cho Claude cao hơn GPT-5.5 và DeepSeek trên Humanity’s Last Exam, cả khi không dùng công cụ lẫn khi có công cụ; DataCamp ghi Claude đạt 64,3% trên SWE-Bench Pro so với 58,6% của GPT-5.5 và 55,4% của DeepSeek V4 Pro.[3][9]
  • Kimi K2.6: là lựa chọn coding/agentic cạnh tranh, nhưng xuất hiện ít hơn trong các bảng so sánh trực tiếp với cả ba đối thủ. Trong Artificial Analysis, Kimi đạt 54, so với 57 của GPT-5.5 medium và 52 của Claude Opus 4.7 non-reasoning high; trong coding benchmark của AkitaOnRails, Kimi đạt 87.[13][8]
  • DeepSeek V4: trong các nguồn này giống một lựa chọn price-performance hơn là model dẫn đầu benchmark. Mashable ghi giá API của DeepSeek V4 là $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra, so với $5/$30 của GPT-5.5 và $5/$25 của Claude Opus 4.7.[2]

Bảng so sánh benchmark

Dấu nghĩa là phần nguồn được cung cấp không có kết quả đủ tương đồng cho model đó.

Benchmark / nguồnGPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4Cách đọc nhanh
ARC-AGI-2, DocsBot85%75,8%GPT-5.5 hơn Claude 9,2 điểm phần trăm.[1]
ARC-AGI-1, DocsBot95%93,5%GPT-5.5 nhỉnh hơn Claude.[1]
Artificial Analysis leaderboard57, GPT-5.5 medium52, Claude Opus 4.7 non-reasoning high54Ở lát cắt này, GPT-5.5 cao hơn Kimi và chế độ Claude được ghi; DeepSeek V4 không xuất hiện trong đoạn nguồn.[13]
Humanity’s Last Exam, không dùng công cụ, VentureBeat41,4%46,9%37,7%Claude dẫn trong các dòng cơ bản được hiển thị.[3]
Humanity’s Last Exam, có công cụ, VentureBeat52,2%; GPT-5.5 Pro — 57,2%54,7%48,2%Claude cao hơn GPT-5.5 cơ bản, nhưng dòng GPT-5.5 Pro cao hơn Claude.[3]
Terminal-Bench 2.0, VentureBeat82,7%69,4%67,9%Đây là khoảng cách rõ nhất nghiêng về GPT-5.5 trong nhóm nguồn này.[3]
SWE-Bench Pro, DataCamp58,6%64,3%55,4%, DeepSeek V4 ProClaude cao hơn GPT-5.5 và DeepSeek V4 Pro.[9]
SWE-Bench Verified, Verdent87,6%80,2%Claude cao hơn Kimi ở lát cắt coding này.[6]
Coding benchmark, AkitaOnRails96, GPT-5.5 xHigh/Codex978778, V4 Flash; 69, V4 ProClaude và GPT-5.5 gần như ngang nhau; Kimi cao hơn cả hai dòng DeepSeek V4.[8]

Vì sao không thể tuyên bố một nhà vô địch duy nhất

Vấn đề không nằm ở chỗ thiếu model mạnh, mà ở chỗ các dòng kết quả không hoàn toàn cùng hệ quy chiếu. Artificial Analysis so sánh GPT-5.5 medium, Kimi K2.6 và Claude Opus 4.7 non-reasoning high; AkitaOnRails dùng GPT-5.5 xHigh/Codex và tách riêng DeepSeek V4 Flash với DeepSeek V4 Pro; VentureBeat lại có cả GPT-5.5 và GPT-5.5 Pro.[13][8][3]

Ngay cả cặp GPT-5.5 và Claude Opus 4.7 cũng không cho ra một đáp án gọn gàng. LLM Stats viết rằng trong 10 benchmark mà cả hai nhà cung cấp cùng báo cáo, Opus 4.7 dẫn 6 bài, còn GPT-5.5 dẫn 4 bài; lợi thế của Claude tập trung ở các bài reasoning-heavy và review-grade, trong khi lợi thế của GPT-5.5 tập trung ở long-running tool-use và tác vụ shell-driven.[4]

Nói cách khác: nếu bạn chỉ nhìn một con số tổng, rất dễ chọn nhầm model cho công việc thật.

GPT-5.5 mạnh nhất ở đâu?

Các tín hiệu rõ nhất cho GPT-5.5 nằm ở ARC và Terminal-Bench. Trên ARC-AGI-2, GPT-5.5 đạt 85% so với 75,8% của Claude Opus 4.7; trên ARC-AGI-1, GPT-5.5 đạt 95% so với 93,5% của Claude.[1] Đây là nhóm bài thiên về nhận dạng quy luật, suy luận trừu tượng và giải quyết puzzle thị giác.

Ở Terminal-Bench 2.0, GPT-5.5 đạt 82,7%, cao hơn đáng kể so với 69,4% của Claude Opus 4.7 và 67,9% của DeepSeek.[3] Nếu workflow của bạn là agent chạy lệnh, đọc log, sửa file, dùng công cụ và xử lý nhiều bước trong môi trường giống terminal, đây là điểm cộng lớn.

Artificial Analysis cũng đặt GPT-5.5 medium trên hai đối thủ có mặt trong đoạn nguồn: 57 điểm, so với 54 của Kimi K2.6 và 52 của Claude Opus 4.7 non-reasoning high.[13] Tuy nhiên, đây không phải là bảng xếp hạng phổ quát cho mọi chế độ chạy; LLM Stats vẫn cho thấy Claude Opus 4.7 thắng GPT-5.5 ở một số bài reasoning và software-engineering.[4]

Claude Opus 4.7 mạnh nhất ở đâu?

Claude Opus 4.7 trông tốt nhất ở các bài cần suy luận nặng và kiểm tra phần mềm phức tạp. Trên Humanity’s Last Exam không dùng công cụ, VentureBeat ghi Claude đạt 46,9%, GPT-5.5 đạt 41,4% và DeepSeek đạt 37,7%; khi bật công cụ, Claude đạt 54,7%, GPT-5.5 đạt 52,2% và DeepSeek đạt 48,2%.[3]

Trên SWE-Bench Pro, DataCamp ghi Claude Opus 4.7 đạt 64,3%, so với 58,6% của GPT-5.5 và 55,4% của DeepSeek V4 Pro.[9] Điều này khớp với bức tranh tổng quát của LLM Stats: Claude dẫn GPT-5.5 ở GPQA, HLE không công cụ, HLE có công cụ, SWE-Bench Pro, MCP Atlas và FinanceAgent v1.1.[4]

Nếu bạn cần model đóng vai trò người rà soát code, bắt lỗi logic, đánh giá thay đổi lớn trong repo hoặc xử lý yêu cầu có rủi ro cao, Claude Opus 4.7 là ứng viên nên thử sớm.

Nên hiểu Kimi K2.6 như thế nào?

Kimi K2.6 khó được xếp vào một bảng tổng duy nhất cùng GPT-5.5, Claude Opus 4.7 và DeepSeek V4, vì model này không luôn xuất hiện trong cùng các bảng benchmark. Trong đoạn nguồn của Artificial Analysis, Kimi K2.6 đạt 54, thấp hơn GPT-5.5 medium với 57 nhưng cao hơn Claude Opus 4.7 non-reasoning high với 52.[13]

Trong coding benchmark của AkitaOnRails, Kimi K2.6 đạt 87: thấp hơn Claude Opus 4.7 với 97 và GPT-5.5 xHigh/Codex với 96, nhưng cao hơn DeepSeek V4 Flash với 78 và DeepSeek V4 Pro với 69.[8] Ở một so sánh khác của Verdent trên SWE-Bench Verified, Claude Opus 4.7 đạt 87,6%, còn Kimi K2.6 đạt 80,2%.[6]

Khác biệt đáng chú ý của Kimi là hướng open-weight — tức có thể tải trọng số và tự triển khai, thay vì chỉ gọi qua API. Verdent viết rằng weights của K2.6 có trên Hugging Face và có thể chạy qua vLLM, SGLang hoặc KTransformers; cùng nguồn này nêu cấu hình tối thiểu khả dụng là 4× H100 cho biến thể INT4 khi giảm context.[6]

README trên Hugging Face cũng nêu một số chỉ số agentic của Kimi K2.6, như HLE-Full có công cụ 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 và MCPMark 55,9. Nhưng bảng đó chủ yếu so Kimi với GPT-5.4, Claude Opus 4.6 và Gemini 3.1 Pro, không phải đầy đủ bốn model trong bài này.[25]

DeepSeek V4: không dẫn điểm thô, nhưng đáng chú ý vì giá

Trong các nguồn được cung cấp, DeepSeek V4 thường giống một model giá trị cao hơn là model có điểm benchmark tối đa. VentureBeat cho thấy DeepSeek đứng sau GPT-5.5 và Claude Opus 4.7 trên HLE không công cụ, HLE có công cụ và Terminal-Bench 2.0.[3] DataCamp ghi DeepSeek V4 Pro đạt 55,4% trên SWE-Bench Pro, thấp hơn 58,6% của GPT-5.5 và 64,3% của Claude Opus 4.7.[9] Trong AkitaOnRails, DeepSeek V4 Flash đạt 78 và DeepSeek V4 Pro đạt 69, đều thấp hơn Kimi K2.6, GPT-5.5 xHigh/Codex và Claude Opus 4.7 trong cùng bảng.[8]

Nhưng giá API làm thay đổi bài toán sản phẩm. Mashable ghi DeepSeek V4 có giá $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra; GPT-5.5 là $5/$30, còn Claude Opus 4.7 là $5/$25.[2] Điều này không biến DeepSeek thành nhà vô địch benchmark, nhưng có thể khiến nó trở thành lựa chọn hợp lý cho tạo bản nháp số lượng lớn, tác vụ rủi ro thấp hoặc eval nội bộ cần chạy nhiều lượt.

Nên thử model nào trước?

  • ARC, visual reasoning và puzzle trừu tượng: bắt đầu với GPT-5.5, vì trong so sánh DocsBot, model này cao hơn Claude Opus 4.7 trên ARC-AGI-2 và ARC-AGI-1.[1]
  • Hard reasoning và tác vụ kiểu HLE: bắt đầu với Claude Opus 4.7 nếu so các dòng cơ bản; lưu ý rằng dòng GPT-5.5 Pro trong VentureBeat lại cao hơn Claude trên HLE có công cụ.[3]
  • Terminal, shell-driven agents và tool-use: bắt đầu với GPT-5.5, vì Terminal-Bench 2.0 là kết quả trực tiếp rất mạnh của model này trong các nguồn hiện có.[3][4]
  • SWE-Bench Pro và software engineering cần review kỹ: bắt đầu với Claude Opus 4.7, vì DataCamp và LLM Stats đều chỉ ra lợi thế của Claude ở SWE-Bench Pro.[9][4]
  • Open-weight hoặc self-hosted coding/agentic: thử Kimi K2.6 nếu khả năng chạy qua Hugging Face, vLLM, SGLang hoặc KTransformers quan trọng hơn việc chỉ dùng API đóng.[6]
  • Thử nghiệm khối lượng lớn, nhạy cảm chi phí: cân nhắc DeepSeek V4 nếu giá mỗi lượt chạy quan trọng hơn điểm benchmark tối đa.[2][3][9]

Chốt lại

Nếu chỉ nhìn benchmark, cặp trên cùng là GPT-5.5 và Claude Opus 4.7, nhưng mỗi model thắng ở một kiểu việc khác nhau. GPT-5.5 sáng hơn ở ARC và Terminal-Bench; Claude Opus 4.7 nổi bật ở HLE và SWE-Bench Pro.[1][3][4][9] Kimi K2.6 là ứng viên coding/agentic mạnh, nhất là khi cần đường tự triển khai với weights, dù số so sánh trực tiếp với cả nhóm còn ít.[6][8][13] DeepSeek V4 thường thấp hơn về điểm thô trong các dòng dữ liệu này, nhưng giá API khiến nó đáng thử cho các bài toán price-performance.[2][3][9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

  • GPT 5.5 dẫn ở ARC AGI 2 với 85% so với 75,8% của Claude, và ở Terminal Bench 2.0 với 82,7%.[1][3]
  • Claude Opus 4.7 có lợi thế rõ hơn ở HLE và SWE Bench Pro, gồm 64,3% trên SWE Bench Pro so với 58,6% của GPT 5.5 và 55,4% của DeepSeek V4 Pro.[3][9]
  • Kimi K2.6 là ứng viên coding/agentic đáng thử, còn DeepSeek V4 thường không dẫn điểm thô nhưng rẻ hơn: $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra.[2][8][13]

Люди также спрашивают

Каков краткий ответ на вопрос «So sánh benchmark GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4»?

GPT 5.5 dẫn ở ARC AGI 2 với 85% so với 75,8% của Claude, và ở Terminal Bench 2.0 với 82,7%.[1][3]

Какие ключевые моменты необходимо проверить в первую очередь?

GPT 5.5 dẫn ở ARC AGI 2 với 85% so với 75,8% của Claude, và ở Terminal Bench 2.0 với 82,7%.[1][3] Claude Opus 4.7 có lợi thế rõ hơn ở HLE và SWE Bench Pro, gồm 64,3% trên SWE Bench Pro so với 58,6% của GPT 5.5 và 55,4% của DeepSeek V4 Pro.[3][9]

Что мне делать дальше на практике?

Kimi K2.6 là ứng viên coding/agentic đáng thử, còn DeepSeek V4 thường không dẫn điểm thô nhưng rẻ hơn: $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra.[2][8][13]

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI27 источники

Цитируемый ответ

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

МодельЧто есть по бенчмаркам в доступных данныхВывод
GPT-5.585% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium [5][6]Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.775.8% на ARC-AGI-2 против 85% у GPT-5.5 [5]В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.654 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [6][3]Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам [7]Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

  • На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта [5].

  • В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе [6].

  • Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [3].

  • Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя [7].

Evidence notes

  • Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% [5].

  • Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 [6].

  • Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках [3].

Limitations / uncertainty

  • Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.

  • Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score [7].

  • Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis [5][6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 [3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно [7].

Источники