studioglobal
Популярное в «Открыть»
ОтчетыОпубликовано8 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4: mô hình nào dẫn ở đâu?

Không có mô hình thắng tất cả. Trong bảng chung, Claude Opus 4.7 dẫn GPQA Diamond 94,2% và HLE không dùng công cụ 46,9%; GPT 5.5 dẫn Terminal Bench 2.0 với 82,7%; GPT 5.5 Pro dẫn HLE có công cụ 57,2% và BrowseComp 90,...

17K0
Сравнение AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахИллюстрация к сравнению GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по ключевым AI-бенчмаркам.
Промпт ИИ

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond — 94.2% — и HLE без инструментов — 46.9%, GPT 5.5 — в Terminal Bench 2.0 с 82.7%, а GPT 5.5 Pro — в HLE с инструментами и BrowseComp.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2.6 vs GPT-5.5 vs DeepSeek V4](https://www.youtube.com/watch?v=hqPVqQtgWOc). 🤯xCreate 8.4K views • 1 day ago Live Playlist ()Mix (50+)](https://www.youtube.com/watch?v=3928" source context "Kimi K2.6 vs GPT-5.5 vs DeepSeek V4 - YouTube" Reference image 2: visual subject "# GPT-5.5vs Claude Opus 4.7. Get a detailed comparison of AI language modelsOpenAI's GPT-5.5andAnthropic's

openai.com

Đọc các benchmark này nên theo tinh thần: mỗi mô hình có sân nhà riêng. Bảng dễ so sánh nhất hiện có bao gồm GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 và DeepSeek-V4-Pro-Max. Riêng Kimi K2.6 được ghép thêm từ model card trên Hugging Face và file đánh giá riêng, nên không thể xem các số của Kimi là cùng một lượt đối đầu trực tiếp với các mô hình còn lại [6][25][37].

Thêm một điểm dễ nhầm: trong bảng chung, DeepSeek là DeepSeek-V4-Pro-Max; còn dữ liệu SWE-Bench Verified ở nguồn khác là DeepSeek V4-Pro [6][15]. Vì vậy, kết luận chính xác hơn là từng biến thể DeepSeek V4 có kết quả khác nhau theo từng nguồn, không phải cả dòng V4 có một con số đại diện duy nhất.

Nên thử mô hình nào trước?

  • Reasoning khó, không dùng công cụ: nên thử Claude Opus 4.7 trước, vì mô hình này dẫn GPQA Diamond và Humanity’s Last Exam không dùng công cụ trong bảng chung [6].
  • Tác vụ agent chạy trong terminal: GPT-5.5 nổi bật nhất ở Terminal-Bench 2.0, đạt 82,7%, so với 69,4% của Claude Opus 4.7 và 67,9% của DeepSeek-V4-Pro-Max [6].
  • Reasoning có công cụ và browsing: GPT-5.5 Pro dẫn ở những dòng có dữ liệu cho bản Pro: 57,2% trong HLE có công cụ và 90,1% trong BrowseComp [6].
  • Coding và thử nghiệm với weights có thể tự chạy: Kimi K2.6 đáng được kiểm tra riêng. Model card ghi 80,2 trên SWE-Bench Verified, 58,6 trên SWE-Bench Pro và 66,7 trên Terminal-Bench 2.0 [25][37]. Nguồn về Kimi cũng cho biết weights có trên Hugging Face và có thể chạy qua vLLM, SGLang hoặc KTransformers [7].
  • Khi chi phí quan trọng hơn vị trí số một: DeepSeek V4 không dẫn các dòng benchmark trong bảng chung, nhưng nguồn công bố giá API ở mức $1.74 cho 1 triệu input token và $3.48 cho 1 triệu output token, thấp hơn mức $5/$30 của GPT-5.5 và $5/$25 của Claude Opus 4.7 [6][14][19].

Bảng so sánh nhanh

BenchmarkGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek V4Kimi K2.6Dẫn đầu theo dữ liệu hiện có
GPQA Diamond93,6% [6]chưa có94,2% [6]90,1% ở DeepSeek-V4-Pro-Max [6]chưa cóClaude Opus 4.7 [6]
Humanity’s Last Exam, không dùng công cụ41,4% [6]43,1% [6]46,9% [6]37,7% ở DeepSeek-V4-Pro-Max [6]chưa cóClaude Opus 4.7 [6]
Humanity’s Last Exam, có công cụ52,2% [6]57,2% [6]54,7% [6]48,2% ở DeepSeek-V4-Pro-Max [6]chưa cóGPT-5.5 Pro [6]
Terminal-Bench 2.082,7% [6]chưa có69,4% [6]67,9% ở DeepSeek-V4-Pro-Max [6]66,7 [25][33]GPT-5.5 [6]
SWE-Bench Pro / SWE Pro58,6% [6]chưa có64,3% [6]55,4% ở DeepSeek-V4-Pro-Max [6]58,6 [25]Claude Opus 4.7 [6]
BrowseComp84,4% [6]90,1% [6]79,3% [6]83,4% ở DeepSeek-V4-Pro-Max [6]chưa cóGPT-5.5 Pro [6]
MCP Atlas / MCPAtlas Public75,3% [6]chưa có79,1% [6]73,6% ở DeepSeek-V4-Pro-Max [6]chưa cóClaude Opus 4.7 [6]
SWE-Bench Verifiedchưa cóchưa có87,6% trong so sánh riêng [15]80,6% cho DeepSeek V4-Pro, không phải Pro-Max [15]80,2 [25][37]Không có một dòng chung cho tất cả [15][25][37]

Chưa có nghĩa là nguồn tương ứng không công bố chỉ số, không phải mô hình đạt 0 điểm.

Reasoning: Claude nhỉnh hơn khi không dùng công cụ, GPT-5.5 Pro thắng khi có công cụ

Ở GPQA Diamond, khoảng cách giữa Claude Opus 4.7 và GPT-5.5 không lớn: 94,2% so với 93,6%; DeepSeek-V4-Pro-Max đạt 90,1% [6]. Nhưng trong Humanity’s Last Exam không dùng công cụ, lợi thế của Claude rõ hơn: 46,9%, so với 41,4% của GPT-5.5, 43,1% của GPT-5.5 Pro và 37,7% của DeepSeek-V4-Pro-Max [6].

Thứ hạng đổi chiều khi HLE cho phép dùng công cụ. Ở dòng này, GPT-5.5 Pro đạt 57,2%, Claude Opus 4.7 đạt 54,7%, GPT-5.5 đạt 52,2%, còn DeepSeek-V4-Pro-Max đạt 48,2% [6]. Cách đọc gọn nhất: Claude đang mạnh hơn ở reasoning thuần, còn GPT-5.5 Pro dẫn ở reasoning có công cụ trong dòng HLE được công bố [6].

Coding và tác vụ agent: khoảng cách lớn nhất nằm ở Terminal-Bench

Khoảng cách nổi bật nhất của GPT-5.5 trong nhóm dữ liệu này là Terminal-Bench 2.0: 82,7% so với 69,4% của Claude Opus 4.7 và 67,9% của DeepSeek-V4-Pro-Max [6]. Với Kimi K2.6, model card ghi 66,7 trên Terminal-Bench 2.0; leaderboard LLM Stats cũng nêu 0,667 cho Kimi K2.6 và 0,694 cho Claude Opus 4.7 [25][33]. Như vậy, Kimi ở gần Claude và DeepSeek trong thước đo này, nhưng vẫn thấp hơn đáng kể so với GPT-5.5 theo bảng chung [6][25][33].

Ở SWE-Bench Pro / SWE Pro, bức tranh khác đi: Claude Opus 4.7 dẫn với 64,3%, GPT-5.5 đạt 58,6%, còn DeepSeek-V4-Pro-Max đạt 55,4% [6]. Kimi K2.6 cũng được Hugging Face ghi 58,6 trên SWE-Bench Pro, nhưng đây không phải cùng một lượt so sánh trực tiếp với dòng trong bảng chung [6][25].

SWE-Bench Verified không nên bị biến thành bảng xếp hạng chung cho cả bốn mô hình. Kimi K2.6 có điểm 80,2 trong model card và file eval [25][37]. Một bài tổng quan riêng về DeepSeek V4 nêu 87,6% cho Claude Opus 4.7 và 80,6% cho DeepSeek V4-Pro, nhưng không có dòng đầy đủ cho GPT-5.5 và cũng không phải DeepSeek-V4-Pro-Max [15].

Hồ sơ từng mô hình

GPT-5.5 và GPT-5.5 Pro

GPT-5.5 nổi bật nhất ở Terminal-Bench 2.0: 82,7%, là kết quả cao nhất trong bảng chung ở dòng này [6]. GPT-5.5 Pro không xuất hiện ở mọi benchmark, nhưng khi có dữ liệu, bản Pro đứng đầu ở HLE có công cụ với 57,2% và BrowseComp với 90,1% [6].

Kết luận thực dụng: GPT-5.5 nên được thử sớm cho các kịch bản agent làm việc trong terminal; GPT-5.5 Pro đáng ưu tiên khi bài toán cần công cụ, browsing hoặc reasoning kèm hành động bên ngoài [6].

Claude Opus 4.7

Claude Opus 4.7 dẫn nhiều dòng trong bảng chung: 94,2% ở GPQA Diamond, 46,9% ở HLE không dùng công cụ, 64,3% ở SWE-Bench Pro / SWE Pro và 79,1% ở MCP Atlas / MCPAtlas Public [6]. Đổi lại, Claude thua GPT-5.5 ở Terminal-Bench 2.0 và thua GPT-5.5 Pro ở HLE có công cụ cũng như BrowseComp [6].

Nếu cần chọn một mô hình đầu tiên cho reasoning khó không dùng công cụ, hoặc coding gần với dạng bài SWE-Bench Pro, Claude Opus 4.7 là ứng viên mạnh nhất theo các dòng dữ liệu này [6].

Kimi K2.6

Kimi K2.6 không thể được xếp hạng thật chặt với toàn bộ nhóm còn lại, vì các con số trong bài này đến từ model card Hugging Face và file eval riêng [25][37]. Dù vậy, ở mảng coding, Kimi vẫn rất đáng chú ý: model card ghi 80,2 trên SWE-Bench Verified, 58,6 trên SWE-Bench Pro, 76,7 trên SWE-Bench Multilingual, 66,7 trên Terminal-Bench 2.0 và 73,1 trên OSWorld-Verified [25][37].

Điểm thú vị về vận hành là nguồn về Kimi cho biết weights có trên Hugging Face và có thể chạy qua vLLM, SGLang hoặc KTransformers [7]. Điều này không biến Kimi thành người thắng bảng benchmark chung, nhưng khiến nó trở thành ứng viên riêng cho các đội muốn thử nghiệm tự vận hành hoặc triển khai cục bộ [7][25].

DeepSeek V4

Trong bảng chung, DeepSeek được đại diện bằng DeepSeek-V4-Pro-Max [6]. Ở các dòng được nêu, mô hình này không đứng đầu: 90,1% ở GPQA Diamond, 37,7% ở HLE không dùng công cụ, 48,2% ở HLE có công cụ, 67,9% ở Terminal-Bench 2.0, 55,4% ở SWE-Bench Pro / SWE Pro, 83,4% ở BrowseComp và 73,6% ở MCP Atlas / MCPAtlas Public [6].

Điểm mạnh của DeepSeek V4 trong bức tranh này không phải là vị trí số một, mà là chi phí. Mashable và DataCamp nêu giá API DeepSeek V4 ở mức $1.74 cho 1 triệu input token và $3.48 cho 1 triệu output token; cùng các nguồn này ghi $5/$30 cho GPT-5.5 và $5/$25 cho Claude Opus 4.7 [14][19]. Nếu ngân sách là ràng buộc lớn, DeepSeek V4 đáng được đưa vào eval nội bộ, nhưng không nên gọi là mô hình dẫn đầu benchmark theo bảng này [6][14][19].

Các giới hạn cần nhớ

  1. Không có một lượt chạy chung cho mọi mô hình ở mọi benchmark. Bảng chung bao phủ GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 và DeepSeek-V4-Pro-Max; Kimi K2.6 được bổ sung từ nguồn riêng [6][25][37].
  2. DeepSeek V4 có nhiều biến thể trong các nguồn khác nhau. Bảng chung dùng DeepSeek-V4-Pro-Max, còn số SWE-Bench Verified riêng thuộc DeepSeek V4-Pro [6][15].
  3. GPT-5.5 Pro không có dữ liệu ở tất cả các dòng. Không nên suy kết quả của bản Pro sang những benchmark mà nguồn không công bố [6].
  4. Kimi K2.6 nên được kiểm chứng bằng eval riêng của từng đội. Các số trên Hugging Face hữu ích, nhưng không đến từ cùng bảng so sánh với GPT-5.5, Claude Opus 4.7 và DeepSeek-V4-Pro-Max [6][25][37].

Kết luận ngắn

Nếu chỉ nhìn các dòng có thể so sánh trong bảng chung, Claude Opus 4.7 thắng GPQA Diamond, Humanity’s Last Exam không dùng công cụ, SWE-Bench Pro và MCP Atlas; GPT-5.5 thắng Terminal-Bench 2.0; GPT-5.5 Pro thắng HLE có công cụ và BrowseComp [6]. Kimi K2.6 là ứng viên coding đáng thử nhờ các số riêng trên Hugging Face và weights có thể truy cập, nhưng chưa thể xếp hạng nghiêm ngặt với toàn bộ nhóm nếu thiếu một lượt chạy chung [7][25][37]. DeepSeek V4 không dẫn đầu các dòng benchmark nêu ở đây, nhưng nhờ giá API thấp hơn, vẫn là lựa chọn đáng kiểm tra cho các kịch bản nhạy cảm về chi phí [6][14][19].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

  • Không có mô hình thắng tất cả. Trong bảng chung, Claude Opus 4.7 dẫn GPQA Diamond 94,2% và HLE không dùng công cụ 46,9%; GPT 5.5 dẫn Terminal Bench 2.0 với 82,7%; GPT 5.5 Pro dẫn HLE có công cụ 57,2% và BrowseComp 90,...
  • Kimi K2.6 nên được đọc như dữ liệu bổ sung, không phải cùng một lượt chạy với các mô hình còn lại: model card ghi 80,2 trên SWE Bench Verified, 58,6 trên SWE Bench Pro và 66,7 trên Terminal Bench 2.0 [25][37].
  • DeepSeek V4 không đứng đầu trong các dòng benchmark nêu ở bảng chung, nhưng các nguồn công bố giá API thấp hơn: $1.74 cho 1 triệu input token và $3.48 cho 1 triệu output token, so với $5/$30 của GPT 5.5 và $5/$25 của...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 và DeepSeek V4: mô hình nào dẫn ở đâu?»?

Không có mô hình thắng tất cả. Trong bảng chung, Claude Opus 4.7 dẫn GPQA Diamond 94,2% và HLE không dùng công cụ 46,9%; GPT 5.5 dẫn Terminal Bench 2.0 với 82,7%; GPT 5.5 Pro dẫn HLE có công cụ 57,2% và BrowseComp 90,...

Какие ключевые моменты необходимо проверить в первую очередь?

Không có mô hình thắng tất cả. Trong bảng chung, Claude Opus 4.7 dẫn GPQA Diamond 94,2% và HLE không dùng công cụ 46,9%; GPT 5.5 dẫn Terminal Bench 2.0 với 82,7%; GPT 5.5 Pro dẫn HLE có công cụ 57,2% và BrowseComp 90,... Kimi K2.6 nên được đọc như dữ liệu bổ sung, không phải cùng một lượt chạy với các mô hình còn lại: model card ghi 80,2 trên SWE Bench Verified, 58,6 trên SWE Bench Pro và 66,7 trên Terminal Bench 2.0 [25][37].

Что мне делать дальше на практике?

DeepSeek V4 không đứng đầu trong các dòng benchmark nêu ở bảng chung, nhưng các nguồn công bố giá API thấp hơn: $1.74 cho 1 triệu input token và $3.48 cho 1 triệu output token, so với $5/$30 của GPT 5.5 và $5/$25 của...

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы

Вопрос исследования

Изучите показатели GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 в бенчмарках. Пожалуйста, сделайте отчёт удобным для чтения.

Studio Global AI40 источники

Цитируемый ответ

Я нашёл сопоставимые данные не по всем четырём моделям в одном и том же независимом тестовом прогоне. Поэтому ниже — аккуратная сводка: GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max сравниваются по одной опубликованной таблице, а Kimi K2.6 добавлен по отдельной карточке модели; прямое сравнение с Kimi нужно считать ориентировочным, а не строго «один к одному» [9][15].

Key findings

  • Claude Opus 4.7 выглядит сильнейшим в GPQA Diamond: 94.2% против 93.6% у GPT-5.5 и 90.1% у DeepSeek-V4-Pro-Max [9].

  • Claude Opus 4.7 также лидирует в Humanity’s Last Exam без инструментов: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max [9].

  • GPT-5.5 Pro лидирует в Humanity’s Last Exam с инструментами: 57.2% против 54.7% у Claude Opus 4.7, 52.2% у GPT-5.5 и 48.2% у DeepSeek-V4-Pro-Max [9].

  • GPT-5.5 заметно впереди в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7, 67.9% у DeepSeek-V4-Pro-Max и 66.7% у Kimi K2.6 [9][15].

  • Kimi K2.6 выглядит очень сильной открытой/доступной по весам моделью для coding-бенчмарков: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual и 66.7 на Terminal-Bench 2.0 [15].

  • DeepSeek-V4-Pro-Max в найденной таблице стабильно ниже GPT-5.5 и Claude Opus 4.7 по GPQA, HLE и Terminal-Bench 2.0, но остаётся близко к Claude в Terminal-Bench 2.0: 67.9% против 69.4% [9].

Сводная таблица

БенчмаркGPT-5.5GPT-5.5 ProClaude Opus 4.7DeepSeek-V4-Pro-MaxKimi K2.6Кто впереди
GPQA Diamond93.6% [9]н/д94.2% [9]90.1% [9]н/дClaude Opus 4.7
Humanity’s Last Exam, без инструментов41.4% [9]43.1% [9]46.9% [9]37.7% [9]н/дClaude Opus 4.7
Humanity’s Last Exam, с инструментами52.2% [9]57.2% [9]54.7% [9]48.2% [9]н/дGPT-5.5 Pro
Terminal-Bench 2.082.7% [9]н/д69.4% [9]67.9% [9]66.7 [15]GPT-5.5
SWE-Bench Verifiedн/дн/дн/дн/д80.2 [15]недостаточно данных
SWE-Bench Proн/дн/дн/дн/д58.6 [15]недостаточно данных
SWE-Bench Multilingualн/дн/дн/дн/д76.7 [15]недостаточно данных

По моделям

GPT-5.5

  • GPT-5.5 показывает лучший найденный результат в Terminal-Bench 2.0 среди сопоставленных моделей: 82.7% [9].

  • GPT-5.5 уступает Claude Opus 4.7 в GPQA Diamond: 93.6% против 94.2% [9].

  • GPT-5.5 уступает Claude Opus 4.7 в Humanity’s Last Exam без инструментов: 41.4% против 46.9% [9].

  • GPT-5.5 Pro, отдельный более сильный режим/вариант в найденной таблице, выходит на первое место в HLE с инструментами: 57.2% [9].

Claude Opus 4.7

  • Claude Opus 4.7 — лидер по GPQA Diamond среди моделей в найденной таблице: 94.2% [9].

  • Claude Opus 4.7 — лидер по HLE без инструментов: 46.9% [9].

  • Claude Opus 4.7 занимает второе место в HLE с инструментами после GPT-5.5 Pro: 54.7% против 57.2% [9].

  • В Terminal-Bench 2.0 Claude Opus 4.7 значительно уступает GPT-5.5: 69.4% против 82.7% [9].

Kimi K2.6

  • Kimi K2.6 имеет сильный профиль в coding-задачах: 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 76.7 на SWE-Bench Multilingual [15].

  • Kimi K2.6 набирает 66.7 в Terminal-Bench 2.0, что близко к DeepSeek-V4-Pro-Max 67.9 и Claude Opus 4.7 69.4, но заметно ниже GPT-5.5 82.7 [9][15].

  • Kimi K2.6 в найденных источниках описывается как новая сильная open-weights модель, а её карточка модели приводит отдельную таблицу результатов по coding и agentic-бенчмаркам [14][15].

DeepSeek V4

  • В найденной сопоставимой таблице указана именно версия DeepSeek-V4-Pro-Max, поэтому выводы по DeepSeek V4 лучше читать как выводы по этой конкретной версии, а не обязательно по всей линейке V4 [9].

  • DeepSeek-V4-Pro-Max показывает 90.1% на GPQA Diamond, что ниже GPT-5.5 93.6% и Claude Opus 4.7 94.2% [9].

  • DeepSeek-V4-Pro-Max показывает 37.7% на HLE без инструментов и 48.2% на HLE с инструментами, что ниже GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 в той же таблице [9].

  • В Terminal-Bench 2.0 DeepSeek-V4-Pro-Max набирает 67.9%, что почти на уровне Claude Opus 4.7 69.4%, но существенно ниже GPT-5.5 82.7% [9].

Evidence notes

  • Самая полезная найденная таблица сравнивает DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 по GPQA Diamond, HLE и Terminal-Bench 2.0 [9].

  • Для Kimi K2.6 наиболее конкретные найденные цифры идут из карточки модели: Terminal-Bench 2.0 — 66.7, SWE-Bench Pro — 58.6, SWE-Bench Multilingual — 76.7, SWE-Bench Verified — 80.2 и OSWorld-Verified — 73.1 [15].

  • Источник по GPT-5.5 и Claude Opus 4.7 также указывает даты релиза: GPT-5.5 — 23 апреля 2026 года, Claude Opus 4.7 — 16 апреля 2026 года [10].

Limitations / uncertainty

  • Insufficient evidence для полностью строгого сравнения всех четырёх моделей в одном независимом прогоне с одинаковыми настройками, потому что Kimi K2.6 не присутствует в основной найденной таблице вместе с GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max [9][15].

  • Insufficient evidence для уверенного сравнения всех четырёх моделей по SWE-Bench Verified, потому что найденные конкретные SWE-Bench-цифры относятся к Kimi K2.6, а сопоставимые значения для GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max в доступных фрагментах не были полно представлены [15].

  • Результаты по DeepSeek относятся к варианту DeepSeek-V4-Pro-Max, поэтому их не следует автоматически переносить на все версии DeepSeek V4 [9].

Summary

Если смотреть только на найденные сопоставимые бенчмарки, Claude Opus 4.7 сильнее в GPQA и HLE без инструментов, GPT-5.5/GPT-5.5 Pro сильнее в Terminal-Bench 2.0 и HLE с инструментами, а DeepSeek-V4-Pro-Max держится близко к Claude в Terminal-Bench, но уступает в reasoning-тестах [9]. Kimi K2.6 выглядит особенно интересной для coding-сценариев благодаря 80.2 на SWE-Bench Verified и 58.6 на SWE-Bench Pro, но её нельзя строго ранжировать против всех трёх остальных моделей без единого общего тестового прогона [15].

Источники

  • [6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...

  • [7] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...

  • [14] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [15] DeepSeek V4 Preview: The Complete 2026 Guide - o-mega | AIo-mega.ai

    7. Head-to-Head: DeepSeek V4 vs Claude Opus 4.7 Claude Opus 4.7, released just eight days before DeepSeek V4 on April 16, represents Anthropic's most capable model and the current leader in agentic coding tasks. The comparison with V4-Pro reveals a more nua...

  • [19] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...

  • [25] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co

    OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...

  • [33] Terminal-Bench 2.0 Leaderboardllm-stats.com

    Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.820 — — $25.00 / $125.00 2 OpenAI GPT-5.3 Codex OpenAI 0.773 — 400K $1.75 / $14.00 3 OpenAI GPT-5.4 OpenAI 0.751 — 1.0M $2.50 / $15.00 4 Anthropic Claude Opus 4....

  • [37] .eval_results/swe_bench_verified.yaml · moonshotai/Kimi-K2.6 at mainhuggingface.co

    Hugging Face's logo moonshotai / Kimi-K2.6 like 1.04k Follow Moonshot AI 9.2k bigeagle's picture --- - dataset: id: SWE-bench/SWE-bench\ Verified task\ id: swe\ bench\ %\ resolved value: 80.2 date: '2026-04-20' source: url: name: Model Card user: SaylorTwift