ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

So sánh benchmark GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4

GPT 5.5 dẫn ở ARC AGI 2 với 85% so với 75,8% của Claude, và ở Terminal Bench 2.0 với 82,7%.[1][3] Claude Opus 4.7 có lợi thế rõ hơn ở HLE và SWE Bench Pro, gồm 64,3% trên SWE Bench Pro so với 58,6% của GPT 5.5 và 55,4% của DeepSeek V4 Pro.[3][9] Kimi K2.6 là ứng viên coding/agentic đáng thử, còn DeepSeek V4 thường k...

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

18K0

Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.
openai.com

Đừng đọc các benchmark AI như một cuộc đua 100 mét có một vạch đích duy nhất. Các nguồn hiện có dùng bộ test, chế độ chạy và phiên bản model khác nhau; phần giao nhau giữa GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4 cũng không đầy đủ. Cách nhìn thực dụng hơn là: GPT-5.5 nổi bật ở ARC và các tác vụ tác nhân chạy trong terminal, Claude Opus 4.7 mạnh ở HLE và SWE-Bench Pro, Kimi K2.6 là ứng viên coding/agentic đáng chú ý, đặc biệt nếu cần hướng open-weight, còn DeepSeek V4 thường không đứng đầu điểm thô nhưng có lợi thế lớn về giá API.^[1]^[2]^[3]^[4]^[6]^[8]^[9]^[13]

Kết luận nhanh theo từng model

GPT-5.5: nên được thử trước nếu bài toán giống ARC hoặc tác vụ agent dùng terminal. DocsBot ghi GPT-5.5 đạt 85% trên ARC-AGI-2 so với 75,8% của Claude Opus 4.7; VentureBeat ghi 82,7% trên Terminal-Bench 2.0, cao hơn 69,4% của Claude và 67,9% của DeepSeek.^[1]^[3]
Claude Opus 4.7: nổi bật ở các bài kiểm tra suy luận khó và rà soát phần mềm. VentureBeat cho Claude cao hơn GPT-5.5 và DeepSeek trên Humanity’s Last Exam, cả khi không dùng công cụ lẫn khi có công cụ; DataCamp ghi Claude đạt 64,3% trên SWE-Bench Pro so với 58,6% của GPT-5.5 và 55,4% của DeepSeek V4 Pro.^[3]^[9]
Kimi K2.6: là lựa chọn coding/agentic cạnh tranh, nhưng xuất hiện ít hơn trong các bảng so sánh trực tiếp với cả ba đối thủ. Trong Artificial Analysis, Kimi đạt 54, so với 57 của GPT-5.5 medium và 52 của Claude Opus 4.7 non-reasoning high; trong coding benchmark của AkitaOnRails, Kimi đạt 87.^[13]^[8]
DeepSeek V4: trong các nguồn này giống một lựa chọn price-performance hơn là model dẫn đầu benchmark. Mashable ghi giá API của DeepSeek V4 là $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra, so với $5/$30 của GPT-5.5 và $5/$25 của Claude Opus 4.7.^[2]

Bảng so sánh benchmark

Dấu — nghĩa là phần nguồn được cung cấp không có kết quả đủ tương đồng cho model đó.

Benchmark / nguồn	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Cách đọc nhanh
ARC-AGI-2, DocsBot	85%	75,8%	—	—	GPT-5.5 hơn Claude 9,2 điểm phần trăm.^[1]
ARC-AGI-1, DocsBot	95%	93,5%	—	—	GPT-5.5 nhỉnh hơn Claude.^[1]
Artificial Analysis leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 non-reasoning high	54	—	Ở lát cắt này, GPT-5.5 cao hơn Kimi và chế độ Claude được ghi; DeepSeek V4 không xuất hiện trong đoạn nguồn.^[13]
Humanity’s Last Exam, không dùng công cụ, VentureBeat	41,4%	46,9%	—	37,7%	Claude dẫn trong các dòng cơ bản được hiển thị.^[3]
Humanity’s Last Exam, có công cụ, VentureBeat	52,2%; GPT-5.5 Pro — 57,2%	54,7%	—	48,2%	Claude cao hơn GPT-5.5 cơ bản, nhưng dòng GPT-5.5 Pro cao hơn Claude.^[3]
Terminal-Bench 2.0, VentureBeat	82,7%	69,4%	—	67,9%	Đây là khoảng cách rõ nhất nghiêng về GPT-5.5 trong nhóm nguồn này.^[3]
SWE-Bench Pro, DataCamp	58,6%	64,3%	—	55,4%, DeepSeek V4 Pro	Claude cao hơn GPT-5.5 và DeepSeek V4 Pro.^[9]
SWE-Bench Verified, Verdent	—	87,6%	80,2%	—	Claude cao hơn Kimi ở lát cắt coding này.^[6]
Coding benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude và GPT-5.5 gần như ngang nhau; Kimi cao hơn cả hai dòng DeepSeek V4.^[8]

Vì sao không thể tuyên bố một nhà vô địch duy nhất

Vấn đề không nằm ở chỗ thiếu model mạnh, mà ở chỗ các dòng kết quả không hoàn toàn cùng hệ quy chiếu. Artificial Analysis so sánh GPT-5.5 medium, Kimi K2.6 và Claude Opus 4.7 non-reasoning high; AkitaOnRails dùng GPT-5.5 xHigh/Codex và tách riêng DeepSeek V4 Flash với DeepSeek V4 Pro; VentureBeat lại có cả GPT-5.5 và GPT-5.5 Pro.^[13]^[8]^[3]

Ngay cả cặp GPT-5.5 và Claude Opus 4.7 cũng không cho ra một đáp án gọn gàng. LLM Stats viết rằng trong 10 benchmark mà cả hai nhà cung cấp cùng báo cáo, Opus 4.7 dẫn 6 bài, còn GPT-5.5 dẫn 4 bài; lợi thế của Claude tập trung ở các bài reasoning-heavy và review-grade, trong khi lợi thế của GPT-5.5 tập trung ở long-running tool-use và tác vụ shell-driven.^[4]

Nói cách khác: nếu bạn chỉ nhìn một con số tổng, rất dễ chọn nhầm model cho công việc thật.

GPT-5.5 mạnh nhất ở đâu?

Các tín hiệu rõ nhất cho GPT-5.5 nằm ở ARC và Terminal-Bench. Trên ARC-AGI-2, GPT-5.5 đạt 85% so với 75,8% của Claude Opus 4.7; trên ARC-AGI-1, GPT-5.5 đạt 95% so với 93,5% của Claude.^[1] Đây là nhóm bài thiên về nhận dạng quy luật, suy luận trừu tượng và giải quyết puzzle thị giác.

Ở Terminal-Bench 2.0, GPT-5.5 đạt 82,7%, cao hơn đáng kể so với 69,4% của Claude Opus 4.7 và 67,9% của DeepSeek.^[3] Nếu workflow của bạn là agent chạy lệnh, đọc log, sửa file, dùng công cụ và xử lý nhiều bước trong môi trường giống terminal, đây là điểm cộng lớn.

Artificial Analysis cũng đặt GPT-5.5 medium trên hai đối thủ có mặt trong đoạn nguồn: 57 điểm, so với 54 của Kimi K2.6 và 52 của Claude Opus 4.7 non-reasoning high.^[13] Tuy nhiên, đây không phải là bảng xếp hạng phổ quát cho mọi chế độ chạy; LLM Stats vẫn cho thấy Claude Opus 4.7 thắng GPT-5.5 ở một số bài reasoning và software-engineering.^[4]

Claude Opus 4.7 mạnh nhất ở đâu?

Claude Opus 4.7 trông tốt nhất ở các bài cần suy luận nặng và kiểm tra phần mềm phức tạp. Trên Humanity’s Last Exam không dùng công cụ, VentureBeat ghi Claude đạt 46,9%, GPT-5.5 đạt 41,4% và DeepSeek đạt 37,7%; khi bật công cụ, Claude đạt 54,7%, GPT-5.5 đạt 52,2% và DeepSeek đạt 48,2%.^[3]

Trên SWE-Bench Pro, DataCamp ghi Claude Opus 4.7 đạt 64,3%, so với 58,6% của GPT-5.5 và 55,4% của DeepSeek V4 Pro.^[9] Điều này khớp với bức tranh tổng quát của LLM Stats: Claude dẫn GPT-5.5 ở GPQA, HLE không công cụ, HLE có công cụ, SWE-Bench Pro, MCP Atlas và FinanceAgent v1.1.^[4]

Nếu bạn cần model đóng vai trò người rà soát code, bắt lỗi logic, đánh giá thay đổi lớn trong repo hoặc xử lý yêu cầu có rủi ro cao, Claude Opus 4.7 là ứng viên nên thử sớm.

Nên hiểu Kimi K2.6 như thế nào?

Kimi K2.6 khó được xếp vào một bảng tổng duy nhất cùng GPT-5.5, Claude Opus 4.7 và DeepSeek V4, vì model này không luôn xuất hiện trong cùng các bảng benchmark. Trong đoạn nguồn của Artificial Analysis, Kimi K2.6 đạt 54, thấp hơn GPT-5.5 medium với 57 nhưng cao hơn Claude Opus 4.7 non-reasoning high với 52.^[13]

Trong coding benchmark của AkitaOnRails, Kimi K2.6 đạt 87: thấp hơn Claude Opus 4.7 với 97 và GPT-5.5 xHigh/Codex với 96, nhưng cao hơn DeepSeek V4 Flash với 78 và DeepSeek V4 Pro với 69.^[8] Ở một so sánh khác của Verdent trên SWE-Bench Verified, Claude Opus 4.7 đạt 87,6%, còn Kimi K2.6 đạt 80,2%.^[6]

Khác biệt đáng chú ý của Kimi là hướng open-weight — tức có thể tải trọng số và tự triển khai, thay vì chỉ gọi qua API. Verdent viết rằng weights của K2.6 có trên Hugging Face và có thể chạy qua vLLM, SGLang hoặc KTransformers; cùng nguồn này nêu cấu hình tối thiểu khả dụng là 4× H100 cho biến thể INT4 khi giảm context.^[6]

README trên Hugging Face cũng nêu một số chỉ số agentic của Kimi K2.6, như HLE-Full có công cụ 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 và MCPMark 55,9. Nhưng bảng đó chủ yếu so Kimi với GPT-5.4, Claude Opus 4.6 và Gemini 3.1 Pro, không phải đầy đủ bốn model trong bài này.^[25]

DeepSeek V4: không dẫn điểm thô, nhưng đáng chú ý vì giá

Trong các nguồn được cung cấp, DeepSeek V4 thường giống một model giá trị cao hơn là model có điểm benchmark tối đa. VentureBeat cho thấy DeepSeek đứng sau GPT-5.5 và Claude Opus 4.7 trên HLE không công cụ, HLE có công cụ và Terminal-Bench 2.0.^[3] DataCamp ghi DeepSeek V4 Pro đạt 55,4% trên SWE-Bench Pro, thấp hơn 58,6% của GPT-5.5 và 64,3% của Claude Opus 4.7.^[9] Trong AkitaOnRails, DeepSeek V4 Flash đạt 78 và DeepSeek V4 Pro đạt 69, đều thấp hơn Kimi K2.6, GPT-5.5 xHigh/Codex và Claude Opus 4.7 trong cùng bảng.^[8]

Nhưng giá API làm thay đổi bài toán sản phẩm. Mashable ghi DeepSeek V4 có giá $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra; GPT-5.5 là $5/$30, còn Claude Opus 4.7 là $5/$25.^[2] Điều này không biến DeepSeek thành nhà vô địch benchmark, nhưng có thể khiến nó trở thành lựa chọn hợp lý cho tạo bản nháp số lượng lớn, tác vụ rủi ro thấp hoặc eval nội bộ cần chạy nhiều lượt.

Nên thử model nào trước?

ARC, visual reasoning và puzzle trừu tượng: bắt đầu với GPT-5.5, vì trong so sánh DocsBot, model này cao hơn Claude Opus 4.7 trên ARC-AGI-2 và ARC-AGI-1.^[1]
Hard reasoning và tác vụ kiểu HLE: bắt đầu với Claude Opus 4.7 nếu so các dòng cơ bản; lưu ý rằng dòng GPT-5.5 Pro trong VentureBeat lại cao hơn Claude trên HLE có công cụ.^[3]
Terminal, shell-driven agents và tool-use: bắt đầu với GPT-5.5, vì Terminal-Bench 2.0 là kết quả trực tiếp rất mạnh của model này trong các nguồn hiện có.^[3]^[4]
SWE-Bench Pro và software engineering cần review kỹ: bắt đầu với Claude Opus 4.7, vì DataCamp và LLM Stats đều chỉ ra lợi thế của Claude ở SWE-Bench Pro.^[9]^[4]
Open-weight hoặc self-hosted coding/agentic: thử Kimi K2.6 nếu khả năng chạy qua Hugging Face, vLLM, SGLang hoặc KTransformers quan trọng hơn việc chỉ dùng API đóng.^[6]
Thử nghiệm khối lượng lớn, nhạy cảm chi phí: cân nhắc DeepSeek V4 nếu giá mỗi lượt chạy quan trọng hơn điểm benchmark tối đa.^[2]^[3]^[9]

Chốt lại

Nếu chỉ nhìn benchmark, cặp trên cùng là GPT-5.5 và Claude Opus 4.7, nhưng mỗi model thắng ở một kiểu việc khác nhau. GPT-5.5 sáng hơn ở ARC và Terminal-Bench; Claude Opus 4.7 nổi bật ở HLE và SWE-Bench Pro.^[1]^[3]^[4]^[9] Kimi K2.6 là ứng viên coding/agentic mạnh, nhất là khi cần đường tự triển khai với weights, dù số so sánh trực tiếp với cả nhóm còn ít.^[6]^[8]^[13] DeepSeek V4 thường thấp hơn về điểm thô trong các dòng dữ liệu này, nhưng giá API khiến nó đáng thử cho các bài toán price-performance.^[2]^[3]^[9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

GPT 5.5 dẫn ở ARC AGI 2 với 85% so với 75,8% của Claude, và ở Terminal Bench 2.0 với 82,7%.[1][3]
Claude Opus 4.7 có lợi thế rõ hơn ở HLE và SWE Bench Pro, gồm 64,3% trên SWE Bench Pro so với 58,6% của GPT 5.5 và 55,4% của DeepSeek V4 Pro.[3][9]
Kimi K2.6 là ứng viên coding/agentic đáng thử, còn DeepSeek V4 thường không dẫn điểm thô nhưng rẻ hơn: $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra.[2][8][13]

Люди также спрашивают

Каков краткий ответ на вопрос «So sánh benchmark GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4»?

GPT 5.5 dẫn ở ARC AGI 2 với 85% so với 75,8% của Claude, và ở Terminal Bench 2.0 với 82,7%.[1][3]

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Kimi K2.6 là ứng viên coding/agentic đáng thử, còn DeepSeek V4 thường không dẫn điểm thô nhưng rẻ hơn: $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra.[2][8][13]

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года

Claude Opus 4.7 против GPT-5.5, DeepSeek V4 и Kimi K2.6: кто сильнее по бенчмаркам

Northwest и Southeast timber: почему ответ — «larger; larger»

Почему при большей заменяемости Northwest и Southeast timber обе эластичности становятся larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek против OpenAI, Claude, Gemini и Grok: решат цена и доверие, а не рейтинги

Сможет ли DeepSeek обойти OpenAI, Claude, Gemini и Grok?

Illustration of an AI coding agent connected to cloud database and backup systems

Инцидент PocketOS: что на самом деле показывает история с Claude, Cursor и удалённой базой

Удаление базы PocketOS: урок не в том, что «ИИ сошёл с ума»

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 апр. 202627 источники

Цитируемый ответ

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis ^[5]^[6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 ^[3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно ^[7].

Источники

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...

Популярное в «Открыть»

ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

So sánh benchmark GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

18K0

Kết luận nhanh theo từng model

GPT-5.5: nên được thử trước nếu bài toán giống ARC hoặc tác vụ agent dùng terminal. DocsBot ghi GPT-5.5 đạt 85% trên ARC-AGI-2 so với 75,8% của Claude Opus 4.7; VentureBeat ghi 82,7% trên Terminal-Bench 2.0, cao hơn 69,4% của Claude và 67,9% của DeepSeek.^[1]^[3]
Claude Opus 4.7: nổi bật ở các bài kiểm tra suy luận khó và rà soát phần mềm. VentureBeat cho Claude cao hơn GPT-5.5 và DeepSeek trên Humanity’s Last Exam, cả khi không dùng công cụ lẫn khi có công cụ; DataCamp ghi Claude đạt 64,3% trên SWE-Bench Pro so với 58,6% của GPT-5.5 và 55,4% của DeepSeek V4 Pro.^[3]^[9]
Kimi K2.6: là lựa chọn coding/agentic cạnh tranh, nhưng xuất hiện ít hơn trong các bảng so sánh trực tiếp với cả ba đối thủ. Trong Artificial Analysis, Kimi đạt 54, so với 57 của GPT-5.5 medium và 52 của Claude Opus 4.7 non-reasoning high; trong coding benchmark của AkitaOnRails, Kimi đạt 87.^[13]^[8]
DeepSeek V4: trong các nguồn này giống một lựa chọn price-performance hơn là model dẫn đầu benchmark. Mashable ghi giá API của DeepSeek V4 là $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra, so với $5/$30 của GPT-5.5 và $5/$25 của Claude Opus 4.7.^[2]

Bảng so sánh benchmark

Dấu — nghĩa là phần nguồn được cung cấp không có kết quả đủ tương đồng cho model đó.

Benchmark / nguồn	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Cách đọc nhanh
ARC-AGI-2, DocsBot	85%	75,8%	—	—	GPT-5.5 hơn Claude 9,2 điểm phần trăm.^[1]
ARC-AGI-1, DocsBot	95%	93,5%	—	—	GPT-5.5 nhỉnh hơn Claude.^[1]
Artificial Analysis leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 non-reasoning high	54	—	Ở lát cắt này, GPT-5.5 cao hơn Kimi và chế độ Claude được ghi; DeepSeek V4 không xuất hiện trong đoạn nguồn.^[13]
Humanity’s Last Exam, không dùng công cụ, VentureBeat	41,4%	46,9%	—	37,7%	Claude dẫn trong các dòng cơ bản được hiển thị.^[3]
Humanity’s Last Exam, có công cụ, VentureBeat	52,2%; GPT-5.5 Pro — 57,2%	54,7%	—	48,2%	Claude cao hơn GPT-5.5 cơ bản, nhưng dòng GPT-5.5 Pro cao hơn Claude.^[3]
Terminal-Bench 2.0, VentureBeat	82,7%	69,4%	—	67,9%	Đây là khoảng cách rõ nhất nghiêng về GPT-5.5 trong nhóm nguồn này.^[3]
SWE-Bench Pro, DataCamp	58,6%	64,3%	—	55,4%, DeepSeek V4 Pro	Claude cao hơn GPT-5.5 và DeepSeek V4 Pro.^[9]
SWE-Bench Verified, Verdent	—	87,6%	80,2%	—	Claude cao hơn Kimi ở lát cắt coding này.^[6]
Coding benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude và GPT-5.5 gần như ngang nhau; Kimi cao hơn cả hai dòng DeepSeek V4.^[8]

Vì sao không thể tuyên bố một nhà vô địch duy nhất

Nói cách khác: nếu bạn chỉ nhìn một con số tổng, rất dễ chọn nhầm model cho công việc thật.

GPT-5.5 mạnh nhất ở đâu?

Claude Opus 4.7 mạnh nhất ở đâu?

Nên hiểu Kimi K2.6 như thế nào?

DeepSeek V4: không dẫn điểm thô, nhưng đáng chú ý vì giá

Nên thử model nào trước?

ARC, visual reasoning và puzzle trừu tượng: bắt đầu với GPT-5.5, vì trong so sánh DocsBot, model này cao hơn Claude Opus 4.7 trên ARC-AGI-2 và ARC-AGI-1.^[1]
Hard reasoning và tác vụ kiểu HLE: bắt đầu với Claude Opus 4.7 nếu so các dòng cơ bản; lưu ý rằng dòng GPT-5.5 Pro trong VentureBeat lại cao hơn Claude trên HLE có công cụ.^[3]
Terminal, shell-driven agents và tool-use: bắt đầu với GPT-5.5, vì Terminal-Bench 2.0 là kết quả trực tiếp rất mạnh của model này trong các nguồn hiện có.^[3]^[4]
SWE-Bench Pro và software engineering cần review kỹ: bắt đầu với Claude Opus 4.7, vì DataCamp và LLM Stats đều chỉ ra lợi thế của Claude ở SWE-Bench Pro.^[9]^[4]
Open-weight hoặc self-hosted coding/agentic: thử Kimi K2.6 nếu khả năng chạy qua Hugging Face, vLLM, SGLang hoặc KTransformers quan trọng hơn việc chỉ dùng API đóng.^[6]
Thử nghiệm khối lượng lớn, nhạy cảm chi phí: cân nhắc DeepSeek V4 nếu giá mỗi lượt chạy quan trọng hơn điểm benchmark tối đa.^[2]^[3]^[9]

Chốt lại

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

GPT 5.5 dẫn ở ARC AGI 2 với 85% so với 75,8% của Claude, và ở Terminal Bench 2.0 với 82,7%.[1][3]
Claude Opus 4.7 có lợi thế rõ hơn ở HLE và SWE Bench Pro, gồm 64,3% trên SWE Bench Pro so với 58,6% của GPT 5.5 và 55,4% của DeepSeek V4 Pro.[3][9]
Kimi K2.6 là ứng viên coding/agentic đáng thử, còn DeepSeek V4 thường không dẫn điểm thô nhưng rẻ hơn: $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra.[2][8][13]

Люди также спрашивают

Каков краткий ответ на вопрос «So sánh benchmark GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4»?

GPT 5.5 dẫn ở ARC AGI 2 với 85% so với 75,8% của Claude, và ở Terminal Bench 2.0 với 82,7%.[1][3]

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 апр. 202627 источники

Цитируемый ответ

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Источники

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...

Популярное в «Открыть»

ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

So sánh benchmark GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

18K0

Kết luận nhanh theo từng model

GPT-5.5: nên được thử trước nếu bài toán giống ARC hoặc tác vụ agent dùng terminal. DocsBot ghi GPT-5.5 đạt 85% trên ARC-AGI-2 so với 75,8% của Claude Opus 4.7; VentureBeat ghi 82,7% trên Terminal-Bench 2.0, cao hơn 69,4% của Claude và 67,9% của DeepSeek.^[1]^[3]
Claude Opus 4.7: nổi bật ở các bài kiểm tra suy luận khó và rà soát phần mềm. VentureBeat cho Claude cao hơn GPT-5.5 và DeepSeek trên Humanity’s Last Exam, cả khi không dùng công cụ lẫn khi có công cụ; DataCamp ghi Claude đạt 64,3% trên SWE-Bench Pro so với 58,6% của GPT-5.5 và 55,4% của DeepSeek V4 Pro.^[3]^[9]
Kimi K2.6: là lựa chọn coding/agentic cạnh tranh, nhưng xuất hiện ít hơn trong các bảng so sánh trực tiếp với cả ba đối thủ. Trong Artificial Analysis, Kimi đạt 54, so với 57 của GPT-5.5 medium và 52 của Claude Opus 4.7 non-reasoning high; trong coding benchmark của AkitaOnRails, Kimi đạt 87.^[13]^[8]
DeepSeek V4: trong các nguồn này giống một lựa chọn price-performance hơn là model dẫn đầu benchmark. Mashable ghi giá API của DeepSeek V4 là $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra, so với $5/$30 của GPT-5.5 và $5/$25 của Claude Opus 4.7.^[2]

Bảng so sánh benchmark

Dấu — nghĩa là phần nguồn được cung cấp không có kết quả đủ tương đồng cho model đó.

Benchmark / nguồn	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Cách đọc nhanh
ARC-AGI-2, DocsBot	85%	75,8%	—	—	GPT-5.5 hơn Claude 9,2 điểm phần trăm.^[1]
ARC-AGI-1, DocsBot	95%	93,5%	—	—	GPT-5.5 nhỉnh hơn Claude.^[1]
Artificial Analysis leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 non-reasoning high	54	—	Ở lát cắt này, GPT-5.5 cao hơn Kimi và chế độ Claude được ghi; DeepSeek V4 không xuất hiện trong đoạn nguồn.^[13]
Humanity’s Last Exam, không dùng công cụ, VentureBeat	41,4%	46,9%	—	37,7%	Claude dẫn trong các dòng cơ bản được hiển thị.^[3]
Humanity’s Last Exam, có công cụ, VentureBeat	52,2%; GPT-5.5 Pro — 57,2%	54,7%	—	48,2%	Claude cao hơn GPT-5.5 cơ bản, nhưng dòng GPT-5.5 Pro cao hơn Claude.^[3]
Terminal-Bench 2.0, VentureBeat	82,7%	69,4%	—	67,9%	Đây là khoảng cách rõ nhất nghiêng về GPT-5.5 trong nhóm nguồn này.^[3]
SWE-Bench Pro, DataCamp	58,6%	64,3%	—	55,4%, DeepSeek V4 Pro	Claude cao hơn GPT-5.5 và DeepSeek V4 Pro.^[9]
SWE-Bench Verified, Verdent	—	87,6%	80,2%	—	Claude cao hơn Kimi ở lát cắt coding này.^[6]
Coding benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude và GPT-5.5 gần như ngang nhau; Kimi cao hơn cả hai dòng DeepSeek V4.^[8]

Vì sao không thể tuyên bố một nhà vô địch duy nhất

Nói cách khác: nếu bạn chỉ nhìn một con số tổng, rất dễ chọn nhầm model cho công việc thật.

GPT-5.5 mạnh nhất ở đâu?

Claude Opus 4.7 mạnh nhất ở đâu?

Nên hiểu Kimi K2.6 như thế nào?

DeepSeek V4: không dẫn điểm thô, nhưng đáng chú ý vì giá

Nên thử model nào trước?

ARC, visual reasoning và puzzle trừu tượng: bắt đầu với GPT-5.5, vì trong so sánh DocsBot, model này cao hơn Claude Opus 4.7 trên ARC-AGI-2 và ARC-AGI-1.^[1]
Hard reasoning và tác vụ kiểu HLE: bắt đầu với Claude Opus 4.7 nếu so các dòng cơ bản; lưu ý rằng dòng GPT-5.5 Pro trong VentureBeat lại cao hơn Claude trên HLE có công cụ.^[3]
Terminal, shell-driven agents và tool-use: bắt đầu với GPT-5.5, vì Terminal-Bench 2.0 là kết quả trực tiếp rất mạnh của model này trong các nguồn hiện có.^[3]^[4]
SWE-Bench Pro và software engineering cần review kỹ: bắt đầu với Claude Opus 4.7, vì DataCamp và LLM Stats đều chỉ ra lợi thế của Claude ở SWE-Bench Pro.^[9]^[4]
Open-weight hoặc self-hosted coding/agentic: thử Kimi K2.6 nếu khả năng chạy qua Hugging Face, vLLM, SGLang hoặc KTransformers quan trọng hơn việc chỉ dùng API đóng.^[6]
Thử nghiệm khối lượng lớn, nhạy cảm chi phí: cân nhắc DeepSeek V4 nếu giá mỗi lượt chạy quan trọng hơn điểm benchmark tối đa.^[2]^[3]^[9]

Chốt lại

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

GPT 5.5 dẫn ở ARC AGI 2 với 85% so với 75,8% của Claude, và ở Terminal Bench 2.0 với 82,7%.[1][3]
Claude Opus 4.7 có lợi thế rõ hơn ở HLE và SWE Bench Pro, gồm 64,3% trên SWE Bench Pro so với 58,6% của GPT 5.5 và 55,4% của DeepSeek V4 Pro.[3][9]
Kimi K2.6 là ứng viên coding/agentic đáng thử, còn DeepSeek V4 thường không dẫn điểm thô nhưng rẻ hơn: $1.74 cho 1 triệu token đầu vào và $3.48 cho 1 triệu token đầu ra.[2][8][13]

Люди также спрашивают

Каков краткий ответ на вопрос «So sánh benchmark GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4»?

GPT 5.5 dẫn ở ARC AGI 2 với 85% so với 75,8% của Claude, và ở Terminal Bench 2.0 với 82,7%.[1][3]

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 апр. 202627 источники

Цитируемый ответ

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Источники

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...