GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: победитель зависит от задачи

Единого чемпиона по открытым данным назвать рано: GPT 5.5 показывает 82,7 % в Terminal Bench 2.0, а Claude Opus 4.7 — 64,3 % в SWE Bench Pro и 87,6 % в SWE Bench Verified; при этом общего независимого тестового стенда... Kimi K2.6 имеет опубликованные значения SWE Bench Pro 58,6 %, SWE Bench Verified 80,2 % и Termin...

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

17K0

네 개의 AI 모델 벤치마크 점수를 비교하는 추상적인 대시보드 일러스트 — GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다AI 생성 이미지. 네 모델의 공개 벤치마크 비교를 상징적으로 표현했습니다.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다. Article summary: 종합 1위는 보류가 맞습니다. 공개값 기준으로 GPT 5.5는 Terminal Bench 2.0 82.7%, Claude Opus 4.7은 SWE Bench Pro 64.3%·SWE Bench Verified 87.6%가 강하지만, 네 모델을 같은 하네스로 평가한 독립 비교는 부족합니다 [19][27][5].. Topic tags: ai, benchmarks, openai, chatgpt, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and Kimi K2.6 Changes Everything" Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownun
openai.com

Если смотреть только на опубликованные бенчмарки, свести GPT-5.5, Claude Opus 4.7, DeepSeek V4 и Kimi K2.6 к простой турнирной таблице не получится. GPT-5.5 и Claude Opus 4.7 чаще встречаются в одних и тех же публичных сравнениях, у Kimi K2.6 часть цифр идёт из модельной карты и отдельного тестового стенда, а для DeepSeek V4 в доступных источниках не хватает прямых значений по ключевым coding-бенчмаркам ^[1]^[2]^[5]^[6].

Практический вывод проще: выбирать стоит не «самую умную модель вообще», а первую модель для проверки под конкретную задачу — терминал, GitHub-issues, веб-поиск, длинный мультимодальный ввод или массовые API-вызовы.

Коротко: кого тестировать первым

Терминальные coding-агенты — GPT-5.5. OpenAI заявляет 82,7 % в Terminal-Bench 2.0; в публичных сравнениях Claude Opus 4.7 указан с 69,4 %, а Kimi K2.6 — с 66,7 % ^[19]^[8]^[13]^[6].
Ремонт кода и реальные GitHub-issues — Claude Opus 4.7. Для него опубликованы 64,3 % в SWE-Bench Pro и 87,6 % в SWE-Bench Verified; показатель GPT-5.5 в SWE-Bench Pro — 58,6 % ^[27]^[19].
Браузинг и веб-поиск — GPT-5.5. В BrowseComp для GPT-5.5 указано 84,4 %, для Claude Opus 4.7 — 79,3 % ^[8]^[13].
Длинный мультимодальный контекст — Kimi K2.6. Модель описывается как поддерживающая текст, изображения, видео и 256k-контекстный маршрут ^[7].
Дешёвые массовые вызовы API — DeepSeek V4. Mashable приводит цены $1,74 за 1 млн входных и $3,48 за 1 млн выходных токенов против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7; но отчёты о высоком hallucination rate нужно учитывать заранее ^[3]^[2].

Сводная таблица бенчмарков

— означает не ноль и не провал модели, а отсутствие в предоставленных публичных источниках напрямую сопоставимого значения для этой строки.

Бенчмарк	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Как читать
Terminal-Bench 2.0	82,7 % ^[19]	69,4 % ^[8]^[13]	66,7 % ^[6]	—	Для долгих shell- и CLI-сценариев публичный лидер — GPT-5.5.
SWE-Bench Pro	58,6 % ^[19]	64,3 % ^[27]	58,6 % ^[1]^[6]	—	В задачах ремонта кода и GitHub-issues впереди Claude Opus 4.7.
SWE-Bench Verified	—	87,6 % ^[27]	80,2 % ^[1]^[6]	—	По доступным данным здесь сравнимы прежде всего Claude и Kimi.
GPQA Diamond	93,6 % ^[8]^[13]	94,2 % ^[8]^[13]	—	—	Разрыв между GPT-5.5 и Claude Opus 4.7 минимален, но опубликованное значение Claude чуть выше.
HLE with tools	52,2 % ^[8]	54,7 % ^[8]^[29]	54,0 % ^[6]	—	Claude и Kimi выглядят сильнее, но для Kimi стоит отдельно проверять условия оценки ^[6].
BrowseComp	84,4 % ^[8]^[13]	79,3 % ^[8]^[13]	—	—	В браузинг- и web-search-подобных задачах публичное значение выше у GPT-5.5.
OSWorld-Verified	78,7 % ^[13]	78,0 % ^[13]	—	—	Разница между GPT-5.5 и Claude Opus 4.7 почти несущественная.
MCP Atlas	75,3 % ^[13]	79,1 % ^[13]	—	—	В MCP- и tool-интеграциях опубликованное значение выше у Claude Opus 4.7.

GPT-5.5: сильный кандидат для терминальных агентов

OpenAI описывает Terminal-Bench 2.0 как проверку сложных workflows в командной строке, где нужны планирование, итерации и координация инструментов; в этом тесте GPT-5.5 набирает 82,7 % ^[19]. В SWE-Bench Pro, который оценивает решение реальных GitHub-issues, OpenAI указывает для GPT-5.5 58,6 % ^[19].

Из этого следует понятный сценарий применения: GPT-5.5 стоит первым запускать там, где модель должна долго работать в терминале — воспроизводить CI-ошибки, выполнять shell-команды, менять файлы, запускать тесты и исправлять результат по итерациям. Но это не значит, что GPT-5.5 автоматически лучший кодер во всех режимах: в SWE-Bench Pro Claude Opus 4.7 показывает 64,3 %, то есть выше, чем 58,6 % у GPT-5.5 ^[27]^[19].

Claude Opus 4.7: сильнее в код-ремонте и проверочных задачах

Claude Opus 4.7 особенно заметен в SWE-Bench-линейке: 64,3 % в SWE-Bench Pro и 87,6 % в SWE-Bench Verified ^[27]. DataCamp также отмечает, что Opus 4.7 оценивали на 14 бенчмарках, охватывающих coding, reasoning, tool use, computer use и visual reasoning ^[27].

В прямых публичных сравнениях с GPT-5.5 Claude Opus 4.7 чуть впереди в GPQA Diamond — 94,2 % против 93,6 % — и заметно впереди в MCP Atlas — 79,1 % против 75,3 % ^[8]^[13]. Зато в Terminal-Bench 2.0 и BrowseComp опубликованные значения выше у GPT-5.5 ^[8]^[13]^[19]. Поэтому более точная формулировка такая: Claude Opus 4.7 — сильный первый кандидат для ремонта кода, ревизии решений и tool-heavy workflows, но не безусловный победитель во всех агентных сценариях.

Kimi K2.6: интересен длинным мультимодальным вводом, но цифры надо сверять

Для Kimi K2.6 опубликованы 58,6 % в SWE-Bench Pro и 80,2 % в SWE-Bench Verified; отдельный обзор также приводит 66,7 % в Terminal-Bench 2.0 и 54,0 % в HLE with tools ^[1]^[6]. Важно, что источник по Kimi связывает эти числа с официальной модельной картой Moonshot AI и отдельно помечает SWE-Bench Pro как Moonshot in-house harness ^[6].

Поэтому одинаковые 58,6 % у Kimi K2.6 и GPT-5.5 в SWE-Bench Pro не стоит автоматически читать как идеальную ничью в одном и том же эксперименте ^[1]^[6]^[19]. Зато у Kimi есть другой явный повод попасть в шорт-лист: модель описывается как поддерживающая текст, изображения, видео и 256k-контекстный маршрут ^[7]. Если продукт работает с длинными документами, скриншотами, видеофрагментами или смешанным контентом, Kimi K2.6 стоит проверять отдельно.

DeepSeek V4: сильный ценовой аргумент, но нужен контроль качества

В строках Terminal-Bench, SWE-Bench Pro, SWE-Bench Verified и GPQA Diamond для DeepSeek V4 в этой подборке остаётся пробел: предоставленные источники не дают достаточно прямых, сопоставимых значений по тем же бенчмаркам ^[2]^[5]. Зато есть другие сигналы. Artificial Analysis сообщает, что DeepSeek V4 Pro Max получил −10 в AA-Omniscience, улучшившись на 11 пунктов относительно V3.2, а V4 Flash Max получил −23 ^[2]. Тот же источник указывает очень высокий hallucination rate: 94 % для V4 Pro и 96 % для V4 Flash, то есть модель, по этой оценке, почти всегда отвечает даже тогда, когда не знает ответа ^[2].

Архитектурно DeepSeek V4 тоже заслуживает внимания. DataCamp описывает его как Mixture of Experts: Pro-модель имеет 1,6 трлн параметров всего и 49 млрд активных, Flash-модель — 284 млрд всего и 13 млрд активных ^[4]. По цене DeepSeek V4 выглядит особенно агрессивно: Mashable приводит $1,74 за 1 млн входных и $3,48 за 1 млн выходных токенов, тогда как GPT-5.5 указан с $5/$30, а Claude Opus 4.7 — с $5/$25 за 1 млн токенов ^[3].

Вывод: DeepSeek V4 может быть разумным кандидатом для массовых, чувствительных к цене задач, особенно если ответы можно проверять автоматически или пропускать через постобработку. Для критичных продуктов — юридических, финансовых, медицинских, инженерных — его стоит оценивать только с собственным набором тестов, фильтрами ошибок и явной стратегией обнаружения галлюцинаций ^[2]^[3]^[4].

Практический выбор по сценариям

Сценарий	С чего начать	Почему
Долгие terminal-сессии, shell-агенты, CI-воспроизведение	GPT-5.5	В Terminal-Bench 2.0 указано 82,7 % у GPT-5.5, 69,4 % у Claude Opus 4.7 и 66,7 % у Kimi K2.6 ^[19]^[8]^[13]^[6].
Реальные GitHub-issues, исправление багов, SWE-Bench-подобные задачи	Claude Opus 4.7	Claude Opus 4.7 показывает 64,3 % в SWE-Bench Pro и 87,6 % в SWE-Bench Verified ^[27].
Браузинг, веб-поиск, сбор информации из сети	GPT-5.5	В BrowseComp у GPT-5.5 84,4 %, у Claude Opus 4.7 79,3 % ^[8]^[13].
MCP- и tool-интеграции	Claude Opus 4.7	В MCP Atlas опубликовано 79,1 % для Claude Opus 4.7 и 75,3 % для GPT-5.5 ^[13].
Длинный мультимодальный контекст	Kimi K2.6	Kimi K2.6 описывается как модель с поддержкой текста, изображений, видео и 256k-контекстного маршрута ^[7].
Большой объём API-вызовов при жёстком бюджете	DeepSeek V4	Цена DeepSeek V4 ниже, чем у GPT-5.5 и Claude Opus 4.7 в сравнении Mashable, но высокий hallucination rate из отчёта Artificial Analysis требует отдельной проверки ^[3]^[2].

Почему общего победителя пока лучше не объявлять

Во-первых, нет достаточного набора независимых тестов, где все четыре модели прогоняются с одинаковыми промптами, одинаковым доступом к инструментам, одинаковым reasoning budget и одним и тем же оценщиком. Даже сравнение GPT-5.5 и Claude Opus 4.7, где общих данных больше, один обзор описывает как сопоставимое по форме, но не по методологии: Claude ведёт в 6 из 10 общих бенчмарков, GPT-5.5 — в 4, а лидерство распределяется по категориям ^[5].

Во-вторых, одинаковое название бенчмарка не гарантирует одинаковую процедуру. Anthropic, например, уточняет, что для Terminal-Bench 2.0 использовался Terminus-2 harness с отключённым thinking и заданными ресурсными условиями ^[31]. Для Kimi K2.6, как уже отмечалось, часть чисел идёт из модельной карты и in-house harness ^[6].

В-третьих, бенчмарк — это снимок, а не готовый SLA для продукта. В реальной интеграции важны не только проценты: нужны latency, стоимость, стабильность tool-calls, воспроизводимость логов, политика безопасности, способ отказа и частота уверенных неправильных ответов. ExplainX прямо предупреждает, что определения лидербордов, промпты и политики инструментов могут двигать оценки, поэтому такие таблицы не заменяют собственный eval harness ^[28].

Итог

Если нужен короткий рабочий шорт-лист, он выглядит так: GPT-5.5 — для терминальных агентных coding-задач, Claude Opus 4.7 — для ремонта кода и SWE-Bench-подобных workflows, Kimi K2.6 — для длинного мультимодального контекста, DeepSeek V4 — для дешёвых массовых вызовов с обязательной проверкой качества ^[19]^[27]^[7]^[3].

Но «лучшей модели вообще» по этим данным нет. Публичные цифры зависят от промптов, инструментов, reasoning-настроек и тестового стенда, поэтому перед внедрением всё равно нужен собственный набор задач, максимально похожий на ваш продукт ^[5]^[28]^[31].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

Единого чемпиона по открытым данным назвать рано: GPT 5.5 показывает 82,7 % в Terminal Bench 2.0, а Claude Opus 4.7 — 64,3 % в SWE Bench Pro и 87,6 % в SWE Bench Verified; при этом общего независимого тестового стенда...
Kimi K2.6 имеет опубликованные значения SWE Bench Pro 58,6 %, SWE Bench Verified 80,2 % и Terminal Bench 2.0 66,7 %, но часть этих чисел связана с модельной картой и in house harness, поэтому их нельзя автоматически с...
DeepSeek V4 выделяется ценой API — $1,74 за 1 млн входных и $3,48 за 1 млн выходных токенов по данным Mashable, — но по общим coding бенчмаркам данных меньше, а Artificial Analysis сообщает высокие показатели hallucin...

사람들은 또한 묻습니다.

"GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: победитель зависит от задачи"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4 выделяется ценой API — $1,74 за 1 млн входных и $3,48 за 1 млн выходных токенов по данным Mashable, — но по общим coding бенчмаркам данных меньше, а Artificial Analysis сообщает высокие показатели hallucin...

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일

Claude Security 공개 베타, 기업 코드 보안을 AI로 훑는 방식

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수

샤오미 Q5는 MIX 5가 아닐 가능성: 최신 단서는 샤오미 18 시리즈

샤오미 Q5, MIX 5일까? 최신 정황은 ‘샤오미 18’ 쪽

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

인스타·페이스북 ‘가짜 생일’ 더 어려워진다: 메타의 AI 연령 확인 확대

메타 AI 연령 확인 확대: EU·미국·브라질에서 바뀌는 청소년 보호

연구 대화

당신2026년 4월 25일

연구문제

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 벤치마크를 비교해 주세요.

Studio Global AI2026년 4월 25일34 소스

인용 답변

요약하면, 공개적으로 확인 가능한 “동일 조건” 벤치마크만 놓고 보면 GPT-5.5는 터미널/에이전트 코딩, Claude Opus 4.7은 SWE-Bench Pro·Verified와 추론 계열에서 강합니다. DeepSeek V4와 Kimi K2.6은 공개 수치가 흩어져 있어 4개 모델을 한 표로 공정하게 순위화하기에는 근거가 부족합니다.

항목	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6
Terminal-Bench 2.0	82.7%	69.4%	공개 비교 근거 부족	약 66%대로 보도됨
SWE-Bench Pro	58.6%	64.3%	공개 비교 근거 부족	58.6%
SWE-Bench Verified	공개 수치 확인 부족	87.6%	공개 비교 근거 부족	80.2%
GPQA Diamond	0.94/1로 집계된 자료 있음	94.2%로 보도됨	공개 비교 근거 부족	공개 비교 근거 부족
HLE	GPT-5.5와 Opus 4.7 비교 자료에서 항목 존재	46.9%로 보도됨	공개 비교 근거 부족	공개 비교 근거 부족
기타	OSWorld, BrowseComp, CyberGym 등에서 GPT-5.5가 앞선다는 비교가 있음	FinanceAgent, MCP Atlas 등에서 Opus 4.7이 앞선다는 비교가 있음	Artificial Analysis 기준 AA-Omniscience 개선이 보고됐지만 환각률이 매우 높다는 지적도 있음	텍스트·이미지·비디오 입력과 256k 컨텍스트 지원으로 소개됨

GPT-5.5는 OpenAI 발표 기준 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록한 것으로 확인됩니다 ^[15].
Claude Opus 4.7은 여러 비교 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 69.4%, GPQA Diamond 94.2%로 제시됩니다 ^[3].
GPT-5.5와 Claude Opus 4.7만 비교하면, 한 집계 자료는 공통 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 요약합니다 ^[12].
Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개된 자료가 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4와 완전히 같은 하네스에서 비교됐는지는 명확하지 않습니다 ^[15]^[4].
DeepSeek V4는 Artificial Analysis에서 V4 Pro와 V4 Flash의 지식·환각 관련 평가가 언급되지만, 위 표의 SWE-Bench Pro, Terminal-Bench, GPQA, HLE와 직접 대응되는 공개 비교 수치는 충분하지 않습니다 ^[7].

결론적으로 “벤치마크 승자”를 하나로 고르면 왜곡될 수 있습니다.

에이전트 터미널 작업: GPT-5.5 우세로 볼 근거가 가장 강합니다 ^[15].
실전 GitHub 이슈 해결/SWE-Bench 계열: Claude Opus 4.7 우세로 볼 근거가 강합니다 ^[3]^[12].
비용 대비 성능/오픈웨이트 계열: DeepSeek V4와 Kimi K2.6을 검토할 만하지만, 동일 벤치마크 공개 근거는 부족합니다 ^[7]^[4].
종합 순위: Insufficient evidence. 4개 모델 모두를 같은 프롬프트, 같은 도구 사용 조건, 같은 채점기로 평가한 독립 벤치마크가 필요합니다.

출처

[1] Claude Opus 4.7 vs Kimi K2.6 - Detailed Performance & Feature Comparisondocsbot.ai
SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups Not available 80.2% SWE-Bench Verified, thinking mode Source SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...
[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...
[7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai
Official Contract Lanes Official rows keep the comparison honest. Kimi's K2.6 pricing page says K2.6 is the latest and smartest Kimi model, supports text, image, and video input, and has a 256k context route. DeepSeek's pricing page lists deepseek-v4-flash...
[8] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[13] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[19] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[27] Claude Opus 4.7: Anthropic's New Best (Available) Model - DataCampdatacamp.com
Claude Opus 4.7 Benchmarks Opus 4.7 was evaluated across 14 benchmarks covering coding, reasoning, tool use, computer use, and visual reasoning. The table below shows the full comparison with Opus 4.6, GPT 5.4, Gemini 3.1 Pro, and the not-yet-published Myth...
[28] Claude Opus 4.7: Anthropic’s new flagship, benchmarks, and how it compares to Sonnet & Haiku | explainx.ai Blog | explainx.aiexplainx.ai
\Percentages are as printed on Anthropic’s benchmark figure; leaderboard definitions, prompts, and tool policies can move scores over time—treat this as a snapshot, not a substitute for your eval harness. Reading the table pragmatically Agentic coding (SWE-...
[29] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...
[31] Introducing Claude Opus 4.7 - Anthropicanthropic.com
For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table. MCP-Atlas: The Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI. SWE-bench Verified, Pro, and...

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: победитель зависит от задачи

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

17K0

Коротко: кого тестировать первым

Терминальные coding-агенты — GPT-5.5. OpenAI заявляет 82,7 % в Terminal-Bench 2.0; в публичных сравнениях Claude Opus 4.7 указан с 69,4 %, а Kimi K2.6 — с 66,7 % ^[19]^[8]^[13]^[6].
Ремонт кода и реальные GitHub-issues — Claude Opus 4.7. Для него опубликованы 64,3 % в SWE-Bench Pro и 87,6 % в SWE-Bench Verified; показатель GPT-5.5 в SWE-Bench Pro — 58,6 % ^[27]^[19].
Браузинг и веб-поиск — GPT-5.5. В BrowseComp для GPT-5.5 указано 84,4 %, для Claude Opus 4.7 — 79,3 % ^[8]^[13].
Длинный мультимодальный контекст — Kimi K2.6. Модель описывается как поддерживающая текст, изображения, видео и 256k-контекстный маршрут ^[7].
Дешёвые массовые вызовы API — DeepSeek V4. Mashable приводит цены $1,74 за 1 млн входных и $3,48 за 1 млн выходных токенов против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7; но отчёты о высоком hallucination rate нужно учитывать заранее ^[3]^[2].

Сводная таблица бенчмарков

Бенчмарк	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Как читать
Terminal-Bench 2.0	82,7 % ^[19]	69,4 % ^[8]^[13]	66,7 % ^[6]	—	Для долгих shell- и CLI-сценариев публичный лидер — GPT-5.5.
SWE-Bench Pro	58,6 % ^[19]	64,3 % ^[27]	58,6 % ^[1]^[6]	—	В задачах ремонта кода и GitHub-issues впереди Claude Opus 4.7.
SWE-Bench Verified	—	87,6 % ^[27]	80,2 % ^[1]^[6]	—	По доступным данным здесь сравнимы прежде всего Claude и Kimi.
GPQA Diamond	93,6 % ^[8]^[13]	94,2 % ^[8]^[13]	—	—	Разрыв между GPT-5.5 и Claude Opus 4.7 минимален, но опубликованное значение Claude чуть выше.
HLE with tools	52,2 % ^[8]	54,7 % ^[8]^[29]	54,0 % ^[6]	—	Claude и Kimi выглядят сильнее, но для Kimi стоит отдельно проверять условия оценки ^[6].
BrowseComp	84,4 % ^[8]^[13]	79,3 % ^[8]^[13]	—	—	В браузинг- и web-search-подобных задачах публичное значение выше у GPT-5.5.
OSWorld-Verified	78,7 % ^[13]	78,0 % ^[13]	—	—	Разница между GPT-5.5 и Claude Opus 4.7 почти несущественная.
MCP Atlas	75,3 % ^[13]	79,1 % ^[13]	—	—	В MCP- и tool-интеграциях опубликованное значение выше у Claude Opus 4.7.

GPT-5.5: сильный кандидат для терминальных агентов

Claude Opus 4.7: сильнее в код-ремонте и проверочных задачах

Kimi K2.6: интересен длинным мультимодальным вводом, но цифры надо сверять

DeepSeek V4: сильный ценовой аргумент, но нужен контроль качества

Практический выбор по сценариям

Сценарий	С чего начать	Почему
Долгие terminal-сессии, shell-агенты, CI-воспроизведение	GPT-5.5	В Terminal-Bench 2.0 указано 82,7 % у GPT-5.5, 69,4 % у Claude Opus 4.7 и 66,7 % у Kimi K2.6 ^[19]^[8]^[13]^[6].
Реальные GitHub-issues, исправление багов, SWE-Bench-подобные задачи	Claude Opus 4.7	Claude Opus 4.7 показывает 64,3 % в SWE-Bench Pro и 87,6 % в SWE-Bench Verified ^[27].
Браузинг, веб-поиск, сбор информации из сети	GPT-5.5	В BrowseComp у GPT-5.5 84,4 %, у Claude Opus 4.7 79,3 % ^[8]^[13].
MCP- и tool-интеграции	Claude Opus 4.7	В MCP Atlas опубликовано 79,1 % для Claude Opus 4.7 и 75,3 % для GPT-5.5 ^[13].
Длинный мультимодальный контекст	Kimi K2.6	Kimi K2.6 описывается как модель с поддержкой текста, изображений, видео и 256k-контекстного маршрута ^[7].
Большой объём API-вызовов при жёстком бюджете	DeepSeek V4	Цена DeepSeek V4 ниже, чем у GPT-5.5 и Claude Opus 4.7 в сравнении Mashable, но высокий hallucination rate из отчёта Artificial Analysis требует отдельной проверки ^[3]^[2].

Почему общего победителя пока лучше не объявлять

Итог

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

Единого чемпиона по открытым данным назвать рано: GPT 5.5 показывает 82,7 % в Terminal Bench 2.0, а Claude Opus 4.7 — 64,3 % в SWE Bench Pro и 87,6 % в SWE Bench Verified; при этом общего независимого тестового стенда...
Kimi K2.6 имеет опубликованные значения SWE Bench Pro 58,6 %, SWE Bench Verified 80,2 % и Terminal Bench 2.0 66,7 %, но часть этих чисел связана с модельной картой и in house harness, поэтому их нельзя автоматически с...
DeepSeek V4 выделяется ценой API — $1,74 за 1 млн входных и $3,48 за 1 млн выходных токенов по данным Mashable, — но по общим coding бенчмаркам данных меньше, а Artificial Analysis сообщает высокие показатели hallucin...

사람들은 또한 묻습니다.

"GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: победитель зависит от задачи"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신2026년 4월 25일

연구문제

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 벤치마크를 비교해 주세요.

Studio Global AI2026년 4월 25일34 소스

인용 답변

항목	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6
Terminal-Bench 2.0	82.7%	69.4%	공개 비교 근거 부족	약 66%대로 보도됨
SWE-Bench Pro	58.6%	64.3%	공개 비교 근거 부족	58.6%
SWE-Bench Verified	공개 수치 확인 부족	87.6%	공개 비교 근거 부족	80.2%
GPQA Diamond	0.94/1로 집계된 자료 있음	94.2%로 보도됨	공개 비교 근거 부족	공개 비교 근거 부족
HLE	GPT-5.5와 Opus 4.7 비교 자료에서 항목 존재	46.9%로 보도됨	공개 비교 근거 부족	공개 비교 근거 부족
기타	OSWorld, BrowseComp, CyberGym 등에서 GPT-5.5가 앞선다는 비교가 있음	FinanceAgent, MCP Atlas 등에서 Opus 4.7이 앞선다는 비교가 있음	Artificial Analysis 기준 AA-Omniscience 개선이 보고됐지만 환각률이 매우 높다는 지적도 있음	텍스트·이미지·비디오 입력과 256k 컨텍스트 지원으로 소개됨

GPT-5.5는 OpenAI 발표 기준 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록한 것으로 확인됩니다 ^[15].
Claude Opus 4.7은 여러 비교 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 69.4%, GPQA Diamond 94.2%로 제시됩니다 ^[3].
GPT-5.5와 Claude Opus 4.7만 비교하면, 한 집계 자료는 공통 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 요약합니다 ^[12].
Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개된 자료가 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4와 완전히 같은 하네스에서 비교됐는지는 명확하지 않습니다 ^[15]^[4].
DeepSeek V4는 Artificial Analysis에서 V4 Pro와 V4 Flash의 지식·환각 관련 평가가 언급되지만, 위 표의 SWE-Bench Pro, Terminal-Bench, GPQA, HLE와 직접 대응되는 공개 비교 수치는 충분하지 않습니다 ^[7].

결론적으로 “벤치마크 승자”를 하나로 고르면 왜곡될 수 있습니다.

에이전트 터미널 작업: GPT-5.5 우세로 볼 근거가 가장 강합니다 ^[15].
실전 GitHub 이슈 해결/SWE-Bench 계열: Claude Opus 4.7 우세로 볼 근거가 강합니다 ^[3]^[12].
비용 대비 성능/오픈웨이트 계열: DeepSeek V4와 Kimi K2.6을 검토할 만하지만, 동일 벤치마크 공개 근거는 부족합니다 ^[7]^[4].
종합 순위: Insufficient evidence. 4개 모델 모두를 같은 프롬프트, 같은 도구 사용 조건, 같은 채점기로 평가한 독립 벤치마크가 필요합니다.

출처

[1] Claude Opus 4.7 vs Kimi K2.6 - Detailed Performance & Feature Comparisondocsbot.ai
SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups Not available 80.2% SWE-Bench Verified, thinking mode Source SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...
[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...
[7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai
Official Contract Lanes Official rows keep the comparison honest. Kimi's K2.6 pricing page says K2.6 is the latest and smartest Kimi model, supports text, image, and video input, and has a 256k context route. DeepSeek's pricing page lists deepseek-v4-flash...
[8] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[13] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[19] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[27] Claude Opus 4.7: Anthropic's New Best (Available) Model - DataCampdatacamp.com
Claude Opus 4.7 Benchmarks Opus 4.7 was evaluated across 14 benchmarks covering coding, reasoning, tool use, computer use, and visual reasoning. The table below shows the full comparison with Opus 4.6, GPT 5.4, Gemini 3.1 Pro, and the not-yet-published Myth...
[28] Claude Opus 4.7: Anthropic’s new flagship, benchmarks, and how it compares to Sonnet & Haiku | explainx.ai Blog | explainx.aiexplainx.ai
\Percentages are as printed on Anthropic’s benchmark figure; leaderboard definitions, prompts, and tool policies can move scores over time—treat this as a snapshot, not a substitute for your eval harness. Reading the table pragmatically Agentic coding (SWE-...
[29] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...
[31] Introducing Claude Opus 4.7 - Anthropicanthropic.com
For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table. MCP-Atlas: The Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI. SWE-bench Verified, Pro, and...

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: победитель зависит от задачи

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

17K0

Коротко: кого тестировать первым

Терминальные coding-агенты — GPT-5.5. OpenAI заявляет 82,7 % в Terminal-Bench 2.0; в публичных сравнениях Claude Opus 4.7 указан с 69,4 %, а Kimi K2.6 — с 66,7 % ^[19]^[8]^[13]^[6].
Ремонт кода и реальные GitHub-issues — Claude Opus 4.7. Для него опубликованы 64,3 % в SWE-Bench Pro и 87,6 % в SWE-Bench Verified; показатель GPT-5.5 в SWE-Bench Pro — 58,6 % ^[27]^[19].
Браузинг и веб-поиск — GPT-5.5. В BrowseComp для GPT-5.5 указано 84,4 %, для Claude Opus 4.7 — 79,3 % ^[8]^[13].
Длинный мультимодальный контекст — Kimi K2.6. Модель описывается как поддерживающая текст, изображения, видео и 256k-контекстный маршрут ^[7].
Дешёвые массовые вызовы API — DeepSeek V4. Mashable приводит цены $1,74 за 1 млн входных и $3,48 за 1 млн выходных токенов против $5/$30 у GPT-5.5 и $5/$25 у Claude Opus 4.7; но отчёты о высоком hallucination rate нужно учитывать заранее ^[3]^[2].

Сводная таблица бенчмарков

Бенчмарк	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Как читать
Terminal-Bench 2.0	82,7 % ^[19]	69,4 % ^[8]^[13]	66,7 % ^[6]	—	Для долгих shell- и CLI-сценариев публичный лидер — GPT-5.5.
SWE-Bench Pro	58,6 % ^[19]	64,3 % ^[27]	58,6 % ^[1]^[6]	—	В задачах ремонта кода и GitHub-issues впереди Claude Opus 4.7.
SWE-Bench Verified	—	87,6 % ^[27]	80,2 % ^[1]^[6]	—	По доступным данным здесь сравнимы прежде всего Claude и Kimi.
GPQA Diamond	93,6 % ^[8]^[13]	94,2 % ^[8]^[13]	—	—	Разрыв между GPT-5.5 и Claude Opus 4.7 минимален, но опубликованное значение Claude чуть выше.
HLE with tools	52,2 % ^[8]	54,7 % ^[8]^[29]	54,0 % ^[6]	—	Claude и Kimi выглядят сильнее, но для Kimi стоит отдельно проверять условия оценки ^[6].
BrowseComp	84,4 % ^[8]^[13]	79,3 % ^[8]^[13]	—	—	В браузинг- и web-search-подобных задачах публичное значение выше у GPT-5.5.
OSWorld-Verified	78,7 % ^[13]	78,0 % ^[13]	—	—	Разница между GPT-5.5 и Claude Opus 4.7 почти несущественная.
MCP Atlas	75,3 % ^[13]	79,1 % ^[13]	—	—	В MCP- и tool-интеграциях опубликованное значение выше у Claude Opus 4.7.

GPT-5.5: сильный кандидат для терминальных агентов

Claude Opus 4.7: сильнее в код-ремонте и проверочных задачах

Kimi K2.6: интересен длинным мультимодальным вводом, но цифры надо сверять

DeepSeek V4: сильный ценовой аргумент, но нужен контроль качества

Практический выбор по сценариям

Сценарий	С чего начать	Почему
Долгие terminal-сессии, shell-агенты, CI-воспроизведение	GPT-5.5	В Terminal-Bench 2.0 указано 82,7 % у GPT-5.5, 69,4 % у Claude Opus 4.7 и 66,7 % у Kimi K2.6 ^[19]^[8]^[13]^[6].
Реальные GitHub-issues, исправление багов, SWE-Bench-подобные задачи	Claude Opus 4.7	Claude Opus 4.7 показывает 64,3 % в SWE-Bench Pro и 87,6 % в SWE-Bench Verified ^[27].
Браузинг, веб-поиск, сбор информации из сети	GPT-5.5	В BrowseComp у GPT-5.5 84,4 %, у Claude Opus 4.7 79,3 % ^[8]^[13].
MCP- и tool-интеграции	Claude Opus 4.7	В MCP Atlas опубликовано 79,1 % для Claude Opus 4.7 и 75,3 % для GPT-5.5 ^[13].
Длинный мультимодальный контекст	Kimi K2.6	Kimi K2.6 описывается как модель с поддержкой текста, изображений, видео и 256k-контекстного маршрута ^[7].
Большой объём API-вызовов при жёстком бюджете	DeepSeek V4	Цена DeepSeek V4 ниже, чем у GPT-5.5 и Claude Opus 4.7 в сравнении Mashable, но высокий hallucination rate из отчёта Artificial Analysis требует отдельной проверки ^[3]^[2].

Почему общего победителя пока лучше не объявлять

Итог

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

Единого чемпиона по открытым данным назвать рано: GPT 5.5 показывает 82,7 % в Terminal Bench 2.0, а Claude Opus 4.7 — 64,3 % в SWE Bench Pro и 87,6 % в SWE Bench Verified; при этом общего независимого тестового стенда...
Kimi K2.6 имеет опубликованные значения SWE Bench Pro 58,6 %, SWE Bench Verified 80,2 % и Terminal Bench 2.0 66,7 %, но часть этих чисел связана с модельной картой и in house harness, поэтому их нельзя автоматически с...
DeepSeek V4 выделяется ценой API — $1,74 за 1 млн входных и $3,48 за 1 млн выходных токенов по данным Mashable, — но по общим coding бенчмаркам данных меньше, а Artificial Analysis сообщает высокие показатели hallucin...

사람들은 또한 묻습니다.

"GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: победитель зависит от задачи"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신2026년 4월 25일

연구문제

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 벤치마크를 비교해 주세요.

Studio Global AI2026년 4월 25일34 소스

인용 답변

항목	GPT-5.5	Claude Opus 4.7	DeepSeek V4	Kimi K2.6
Terminal-Bench 2.0	82.7%	69.4%	공개 비교 근거 부족	약 66%대로 보도됨
SWE-Bench Pro	58.6%	64.3%	공개 비교 근거 부족	58.6%
SWE-Bench Verified	공개 수치 확인 부족	87.6%	공개 비교 근거 부족	80.2%
GPQA Diamond	0.94/1로 집계된 자료 있음	94.2%로 보도됨	공개 비교 근거 부족	공개 비교 근거 부족
HLE	GPT-5.5와 Opus 4.7 비교 자료에서 항목 존재	46.9%로 보도됨	공개 비교 근거 부족	공개 비교 근거 부족
기타	OSWorld, BrowseComp, CyberGym 등에서 GPT-5.5가 앞선다는 비교가 있음	FinanceAgent, MCP Atlas 등에서 Opus 4.7이 앞선다는 비교가 있음	Artificial Analysis 기준 AA-Omniscience 개선이 보고됐지만 환각률이 매우 높다는 지적도 있음	텍스트·이미지·비디오 입력과 256k 컨텍스트 지원으로 소개됨

GPT-5.5는 OpenAI 발표 기준 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록한 것으로 확인됩니다 ^[15].
Claude Opus 4.7은 여러 비교 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 69.4%, GPQA Diamond 94.2%로 제시됩니다 ^[3].
GPT-5.5와 Claude Opus 4.7만 비교하면, 한 집계 자료는 공통 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 요약합니다 ^[12].
Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개된 자료가 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4와 완전히 같은 하네스에서 비교됐는지는 명확하지 않습니다 ^[15]^[4].
DeepSeek V4는 Artificial Analysis에서 V4 Pro와 V4 Flash의 지식·환각 관련 평가가 언급되지만, 위 표의 SWE-Bench Pro, Terminal-Bench, GPQA, HLE와 직접 대응되는 공개 비교 수치는 충분하지 않습니다 ^[7].

결론적으로 “벤치마크 승자”를 하나로 고르면 왜곡될 수 있습니다.

에이전트 터미널 작업: GPT-5.5 우세로 볼 근거가 가장 강합니다 ^[15].
실전 GitHub 이슈 해결/SWE-Bench 계열: Claude Opus 4.7 우세로 볼 근거가 강합니다 ^[3]^[12].
비용 대비 성능/오픈웨이트 계열: DeepSeek V4와 Kimi K2.6을 검토할 만하지만, 동일 벤치마크 공개 근거는 부족합니다 ^[7]^[4].
종합 순위: Insufficient evidence. 4개 모델 모두를 같은 프롬프트, 같은 도구 사용 조건, 같은 채점기로 평가한 독립 벤치마크가 필요합니다.

출처

[1] Claude Opus 4.7 vs Kimi K2.6 - Detailed Performance & Feature Comparisondocsbot.ai
SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups Not available 80.2% SWE-Bench Verified, thinking mode Source SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...
[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...
[7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai
Official Contract Lanes Official rows keep the comparison honest. Kimi's K2.6 pricing page says K2.6 is the latest and smartest Kimi model, supports text, image, and video input, and has a 256k context route. DeepSeek's pricing page lists deepseek-v4-flash...
[8] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[13] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[19] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[27] Claude Opus 4.7: Anthropic's New Best (Available) Model - DataCampdatacamp.com
Claude Opus 4.7 Benchmarks Opus 4.7 was evaluated across 14 benchmarks covering coding, reasoning, tool use, computer use, and visual reasoning. The table below shows the full comparison with Opus 4.6, GPT 5.4, Gemini 3.1 Pro, and the not-yet-published Myth...
[28] Claude Opus 4.7: Anthropic’s new flagship, benchmarks, and how it compares to Sonnet & Haiku | explainx.ai Blog | explainx.aiexplainx.ai
\Percentages are as printed on Anthropic’s benchmark figure; leaderboard definitions, prompts, and tool policies can move scores over time—treat this as a snapshot, not a substitute for your eval harness. Reading the table pragmatically Agentic coding (SWE-...
[29] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...
[31] Introducing Claude Opus 4.7 - Anthropicanthropic.com
For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table. MCP-Atlas: The Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI. SWE-bench Verified, Pro, and...