studioglobal
인기 있는 발견
보고서게시됨12 소스

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: 어떤 AI 모델이 앞설까

Artificial Analysis의 종합 지능 지표에서는 GPT 5.5 xhigh가 60, GPT 5.5 high가 59로 가장 앞서고 Claude Opus 4.7은 57로 뒤따른다.[2] VentureBeat의 공통 벤치마크 표에서는 Claude Opus 4.7이 GPQA Diamond, HLE no tools, SWE Bench Pro, MCP Atlas에서 앞서고, GPT 5.5 계열은 Terminal Bench 2.0과 BrowseComp에서 강하다.[16] API 단가만 보면 DeepSeek V4가 가장 뚜렷한 비용 우위를 보인다. 다만 V4, V4...

17K0
Editorial illustration comparing GPT-5.5, Claude Opus 4.7, DeepSeek V4, and Kimi K2.6 AI models
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmarks, Pricing, and Best Use CasesA practical comparison of leading AI models depends on the benchmark, variant, reasoning setting, and API price.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmarks, Pricing, and Best Use Cases. Article summary: There is no universal winner: GPT 5.5 leads the available Artificial Analysis Intelligence Index at 60/59, Claude Opus 4.7 wins several shared VentureBeat reasoning and SWE rows, and DeepSeek V4 is the price value out.... Topic tags: ai, llm, ai benchmarks, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://ww

openai.com

AI 모델 비교에서 가장 흔한 함정은 벤치마크 하나를 전체 우열로 읽는 것이다. 이번 자료가 말하는 결론은 더 실무적이다. 종합 순위 신호는 GPT-5.5가 가장 강하고, Claude Opus 4.7은 어려운 추론과 소프트웨어 엔지니어링의 여러 항목에서 앞서며, DeepSeek V4는 API 단가가 가장 분명한 강점이다. Kimi K2.6은 코딩·에이전트 작업에서 평가해볼 만하지만 GPT-5.5·Opus 4.7과의 직접 비교 근거는 상대적으로 얇다.[2][16][15][18][19]

빠른 결론

가장 중요하게 보는 기준가장 근거가 강한 선택이유
종합 지능 순위GPT-5.5Artificial Analysis가 GPT-5.5 xhigh를 60, GPT-5.5 high를 59로 제시해 Claude Opus 4.7 Adaptive Reasoning Max Effort의 57보다 높다.[2]
고난도 추론·소프트웨어 엔지니어링Claude Opus 4.7, 단 GPT-5.5도 접전VentureBeat 표에서 Claude는 GPQA Diamond, HLE no-tools, SWE-Bench Pro, MCP Atlas를 앞선다. GPT-5.5는 Terminal-Bench 2.0과 기본 BrowseComp에서 강하고, GPT-5.5 Pro는 HLE with tools와 BrowseComp에서 최고값을 보인다.[16]
플래그십급 API 비용DeepSeek V4Mashable은 DeepSeek V4를 입력 100만 토큰당 1.74달러, 출력 100만 토큰당 3.48달러로 제시했다. GPT-5.5는 5달러·30달러, Claude Opus 4.7은 5달러·25달러다.[15]
공개된 코딩·경쟁 프로그래밍 지표DeepSeek V4 ProTogether AI는 DeepSeek V4 Pro에 대해 LiveCodeBench 93.5%, Codeforces 3206, SWE-Bench Verified 80.6%, SWE-Bench Multilingual 76.2%를 제시한다.[25]
Kimi K2.6 평가유망하지만 결론 보류Kimi K2.6은 코딩과 에이전트 지표가 있지만, 주요 Kimi 중심 자료는 GPT-5.5·Claude Opus 4.7이 아니라 GPT-5.4·Claude Opus 4.6과 비교한 경우가 많다.[18][19]

종합 순위: 현재 근거는 GPT-5.5 쪽이 가장 강하다

가장 깔끔한 종합 신호는 Artificial Analysis 자료다. 여기서는 GPT-5.5 xhigh가 Intelligence Index 60으로 1위, GPT-5.5 high가 59로 2위이며, Claude Opus 4.7 Adaptive Reasoning Max Effort는 57로 제시된다.[2]

Kimi K2.6은 제공된 종합 지표 조각에서는 이 GPT-5.5·Claude 상위권보다 낮게 나타난다. OpenRouter는 Kimi K2.6을 Intelligence 53.9, Coding 47.1, Agentic 66.0으로 제시하고, LLMBase의 DeepSeek V4 Flash High 대 Kimi K2.6 비교도 Kimi의 Intelligence를 53.9, Coding을 47.1로 적고 있다.[3][1] 같은 LLMBase 비교에서 DeepSeek V4 Flash High는 Intelligence 44.9, Coding 39.8로 표시되지만, 이는 DeepSeek V4 Pro나 Pro-Max가 아니라 Flash 변형이라는 점을 구분해야 한다.[1]

다만 여기서도 주의할 점이 있다. 제공된 종합 순위는 GPT-5.5와 Claude Opus 4.7 사이의 방향성은 비교적 분명하게 보여주지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4 Pro-Max·Kimi K2.6 네 모델을 같은 한 줄에서 완전히 비교한 리더보드는 아니다.[2]

공통 벤치마크: Claude와 GPT-5.5가 항목별로 승부를 나눈다

VentureBeat의 공통 벤치마크 표는 DeepSeek-V4-Pro-Max, GPT-5.5, 일부 항목의 GPT-5.5 Pro, Claude Opus 4.7을 같은 행에서 비교한다는 점에서 유용하다.[16]

벤치마크DeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, 표기된 경우Claude Opus 4.7이 자료의 최고 결과
GPQA Diamond90.1%93.6%94.2%Claude Opus 4.7[16]
Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7[16]
Humanity’s Last Exam, with tools48.2%52.2%57.2%54.7%GPT-5.5 Pro[16]
Terminal-Bench 2.067.9%82.7%69.4%GPT-5.5[16]
SWE-Bench Pro / SWE Pro55.4%58.6%64.3%Claude Opus 4.7[16]
BrowseComp83.4%84.4%90.1%79.3%GPT-5.5 Pro[16]
MCP Atlas / MCPAtlas Public73.6%75.3%79.1%Claude Opus 4.7[16]

이 표는 한쪽의 압승이라기보다 항목별 판정승에 가깝다. Claude Opus 4.7은 GPQA Diamond, HLE no-tools, SWE-Bench Pro, MCP Atlas에서 더 강한 근거를 갖는다.[16] 반대로 GPT-5.5는 기본 모델 기준 Terminal-Bench 2.0과 BrowseComp에서 우세하고, GPT-5.5 Pro가 표시된 HLE with tools와 BrowseComp에서는 GPT-5.5 Pro가 가장 높은 값을 보인다.[16]

DeepSeek-V4-Pro-Max는 여러 항목에서 경쟁권에 있지만, 이 VentureBeat 표에서는 GPT-5.5나 Claude Opus 4.7의 최고값을 넘지는 못한다. 가장 근접한 항목은 BrowseComp로, DeepSeek-V4-Pro-Max가 83.4%, GPT-5.5가 84.4%, Claude Opus 4.7이 79.3%다.[16]

코딩 성능: 저장소 수정, 경쟁 코딩, 에이전트 작업을 나눠 봐야 한다

실제 저장소 단위의 소프트웨어 엔지니어링을 보는 SWE-Bench Pro에서는 Claude Opus 4.7의 근거가 가장 강하다. VentureBeat 표에서 Claude Opus 4.7은 64.3%로, GPT-5.5의 58.6%, DeepSeek-V4-Pro-Max의 55.4%보다 높다.[16]

반면 공개된 코딩 지표의 폭만 놓고 보면 DeepSeek V4 Pro가 눈에 띈다. Together AI는 DeepSeek V4 Pro에 대해 LiveCodeBench 93.5%, Codeforces 3206, SWE-Bench Verified 80.6%, SWE-Bench Multilingual 76.2%를 제시한다.[25] NVIDIA의 모델 카드도 DeepSeek V4 Flash와 V4 Pro 변형을 GPQA Diamond, HLE, LiveCodeBench, Codeforces 등으로 나눠 보여주며, V4-Pro Max를 LiveCodeBench 93.5, Codeforces 3206으로 표시한다.[31]

Kimi K2.6도 코딩 근거가 없는 모델은 아니다. Lorka는 Kimi K2.6을 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro와 비교한 표에서 SWE-Bench Pro 58.6%, HLE-Full with tools 54.0%, GPQA-Diamond 90.5%, MMMU-Pro 79.4%로 제시한다.[18] Verdent는 Kimi K2.6을 SWE-Bench Verified 80.2%, Terminal-Bench 2.0 66.7%, HLE with tools 54.0%, LiveCodeBench v6 89.6%로 제시하면서, Opus 4.7이 SWE-Bench Verified 87.6%로 앞선다는 점도 언급한다.[19]

따라서 Kimi K2.6은 코딩과 에이전트 워크플로에서 시험해볼 만한 후보지만, 제공된 근거만으로 GPT-5.5나 Claude Opus 4.7을 제치고 전체 승자라고 말하기는 어렵다.[18][19]

가격: API 비용은 DeepSeek V4가 가장 설득력 있다

API 비용이 의사결정의 핵심이라면 DeepSeek V4의 주장이 가장 선명하다. Mashable은 DeepSeek V4의 가격을 입력 100만 토큰당 1.74달러, 출력 100만 토큰당 3.48달러로 제시했다. 같은 비교에서 GPT-5.5는 입력 100만 토큰당 5달러·출력 100만 토큰당 30달러, Claude Opus 4.7은 5달러·25달러다.[15]

모델 또는 변형제시된 입력 가격제시된 출력 가격참고
GPT-5.5100만 토큰당 5달러100만 토큰당 30달러Mashable 비교에서 100만 토큰 컨텍스트 창으로 제시된다.[15]
Claude Opus 4.7100만 토큰당 5달러100만 토큰당 25달러Mashable 비교에서 100만 토큰 컨텍스트 창으로 제시된다.[15]
DeepSeek V4100만 토큰당 1.74달러100만 토큰당 3.48달러Mashable 비교에서 100만 토큰 컨텍스트 창으로 제시된다.[15]
DeepSeek V4 Flash100만 토큰당 0.14달러100만 토큰당 0.28달러LLMBase는 DeepSeek V4 Flash High 대 Kimi K2.6 비교에서 3:1 혼합 가격을 0.18달러로 제시한다.[1]
Kimi K2.6100만 토큰당 0.95달러100만 토큰당 4.00달러LLMBase는 같은 비교에서 3:1 혼합 가격을 1.71달러로 제시한다.[1]

단, 컨텍스트 한도와 출력 한도는 제공사와 엔드포인트에 따라 달라질 수 있다. Mashable은 DeepSeek V4, GPT-5.5, Claude Opus 4.7에 대해 100만 토큰 컨텍스트 창을 제시하지만, OpenRouter의 DeepSeek V4 Pro 목록은 최대 토큰 256K, 최대 출력 66K로 표시한다.[15][3] 실제 도입 전에는 모델명뿐 아니라 제공사, 변형, 추론 모드, 출력 한도까지 확인해야 한다.

모델별 추천 시나리오

GPT-5.5: 종합 순위가 중요할 때 가장 무난한 기본값

가용한 종합 지표를 우선한다면 GPT-5.5가 가장 안전한 선택지다. Artificial Analysis는 GPT-5.5 xhigh를 60, GPT-5.5 high를 59로 제시해 제공된 조각 안에서 상위 두 자리를 차지하게 했다.[2]

공통 과제에서도 GPT-5.5는 강점이 분명하다. VentureBeat 표에서 기본 GPT-5.5는 Terminal-Bench 2.0 82.7%, BrowseComp 84.4%를 기록했고, GPT-5.5 Pro가 표시된 BrowseComp에서는 90.1%로 가장 높게 나타났다.[16]

Claude Opus 4.7: 어려운 추론과 저장소형 SWE 작업에 강한 후보

Claude Opus 4.7은 종합 순위에서 GPT-5.5 바로 뒤에 있다. Artificial Analysis는 Claude Opus 4.7 Adaptive Reasoning Max Effort의 Intelligence Index를 57로 제시한다.[2] VentureBeat 표에서는 GPQA Diamond, HLE no-tools, SWE-Bench Pro, MCP Atlas에서 GPT-5.5와 DeepSeek-V4-Pro-Max보다 높은 값을 보인다.[16]

Anthropic의 자체 출시 자료도 참고할 수는 있다. Anthropic은 내부 연구 에이전트 벤치마크에서 Claude Opus 4.7이 6개 모듈 전체 점수 0.715로 공동 최고를 기록했고, General Finance에서는 Opus 4.6의 0.767보다 높은 0.813을 기록했다고 밝혔다.[17] 다만 이는 독립 리더보드가 아니라 회사 내부 벤치마크라는 점을 감안해 읽는 것이 좋다.[17]

DeepSeek V4: 비용 대비 성능이 핵심이면 가장 먼저 검토할 모델

DeepSeek V4의 가장 확실한 장점은 가격이다. Mashable 비교에서 DeepSeek V4는 입력·출력 100만 토큰당 1.74달러·3.48달러로, GPT-5.5의 5달러·30달러 및 Claude Opus 4.7의 5달러·25달러보다 훨씬 낮게 제시된다.[15]

성능 쪽에서도 DeepSeek V4 Pro는 풍부한 코딩 지표를 갖고 있다. Together AI는 DeepSeek V4 Pro의 LiveCodeBench 93.5%, Codeforces 3206, SWE-Bench Verified 80.6%, SWE-Bench Multilingual 76.2%를 공개한다.[25] 다만 VentureBeat의 공통 표에서는 DeepSeek-V4-Pro-Max가 BrowseComp에서 근접하긴 해도, 각 행의 최고 GPT-5.5 또는 Claude Opus 4.7 결과를 넘지는 못한다.[16]

Kimi K2.6: 코딩·에이전트 후보로는 유망하지만 직접 근거가 더 필요하다

Kimi K2.6은 네 모델을 한 줄로 세우는 직접 비교가 상대적으로 어렵다. 제공된 Kimi 중심 벤치마크 표 상당수는 GPT-5.5와 Claude Opus 4.7이 아니라 GPT-5.4와 Claude Opus 4.6을 비교 대상으로 삼는다.[18][19]

그래도 신호 자체가 약한 것은 아니다. OpenRouter는 Kimi K2.6을 Intelligence 53.9, Coding 47.1, Agentic 66.0으로 제시하고, Verdent는 SWE-Bench Verified 80.2%, LiveCodeBench v6 89.6%를 제시한다.[3][19] 결론은 Kimi K2.6이 밀린다는 뜻이 아니라, 이 네 모델 경쟁에서 전체 승자라고 부르기에는 직접 근거가 부족하다는 쪽에 가깝다.[18][19]

선택 전 확인해야 할 함정

  • 변형 이름이 중요하다. DeepSeek V4는 자료에서 V4, V4 Flash, V4 Pro, DeepSeek-V4-Pro-Max로 등장하며 가격, 한도, 벤치마크, 추론 설정이 달라진다.[1][15][25][31]
  • Kimi 비교는 덜 직접적이다. 제공된 Kimi K2.6 핵심 표는 GPT-5.5·Claude Opus 4.7보다 GPT-5.4·Claude Opus 4.6과 비교한 경우가 많다.[18][19]
  • Humanity’s Last Exam no-tools 수치가 자료마다 다르다. LLM Stats와 VentureBeat는 GPT-5.5 41.4%, Claude Opus 4.7 46.9%를 제시하지만, Mashable의 GPT 대 Claude 비교 조각은 GPT-5.5 40.6%, Opus 4.7 31.2%를 제시한다.[7][16][9]
  • 내부 벤치마크와 독립 리더보드는 다르게 읽어야 한다. Anthropic의 Opus 4.7 출시 글은 내부 연구 에이전트 성과를 제시하지만, 이는 교차 제공사 공개 비교와 같은 성격은 아니다.[17]
  • 가격과 컨텍스트 한도는 제공사별로 달라질 수 있다. 같은 모델 계열도 엔드포인트에 따라 컨텍스트 창, 최대 토큰, 출력 한도, 캐싱 조건이 달라질 수 있다.[3][15]

결론

종합 지능 순위가 최우선이면 GPT-5.5가 가장 근거가 강하다.[2] 고난도 추론과 저장소형 소프트웨어 엔지니어링이 중요하면 Claude Opus 4.7이 유력하다. VentureBeat 표에서 Claude는 GPQA Diamond, HLE no-tools, SWE-Bench Pro, MCP Atlas를 앞선다.[16] 비용 대비 성능이 핵심이면 DeepSeek V4를 먼저 검토할 만하다. API 가격이 GPT-5.5와 Claude Opus 4.7보다 낮게 제시되고, DeepSeek V4 Pro의 공개 코딩 지표도 강하다.[15][25] Kimi K2.6은 코딩·에이전트 후보로 평가할 만하지만, 제공된 직접 근거만으로 GPT-5.5나 Claude Opus 4.7을 이긴 전체 승자라고 보기는 어렵다.[18][19]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • Artificial Analysis의 종합 지능 지표에서는 GPT 5.5 xhigh가 60, GPT 5.5 high가 59로 가장 앞서고 Claude Opus 4.7은 57로 뒤따른다.[2]
  • VentureBeat의 공통 벤치마크 표에서는 Claude Opus 4.7이 GPQA Diamond, HLE no tools, SWE Bench Pro, MCP Atlas에서 앞서고, GPT 5.5 계열은 Terminal Bench 2.0과 BrowseComp에서 강하다.[16]
  • API 단가만 보면 DeepSeek V4가 가장 뚜렷한 비용 우위를 보인다. 다만 V4, V4 Flash, V4 Pro, V4 Pro Max는 가격·한도·벤치마크가 다르므로 실제 호출할 엔드포인트를 확인해야 한다.[1][3][15][31]

사람들은 또한 묻습니다.

"GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: 어떤 AI 모델이 앞설까"에 대한 짧은 대답은 무엇입니까?

Artificial Analysis의 종합 지능 지표에서는 GPT 5.5 xhigh가 60, GPT 5.5 high가 59로 가장 앞서고 Claude Opus 4.7은 57로 뒤따른다.[2]

먼저 검증할 핵심 포인트는 무엇인가요?

Artificial Analysis의 종합 지능 지표에서는 GPT 5.5 xhigh가 60, GPT 5.5 high가 59로 가장 앞서고 Claude Opus 4.7은 57로 뒤따른다.[2] VentureBeat의 공통 벤치마크 표에서는 Claude Opus 4.7이 GPQA Diamond, HLE no tools, SWE Bench Pro, MCP Atlas에서 앞서고, GPT 5.5 계열은 Terminal Bench 2.0과 BrowseComp에서 강하다.[16]

실무에서는 다음으로 무엇을 해야 합니까?

API 단가만 보면 DeepSeek V4가 가장 뚜렷한 비용 우위를 보인다. 다만 V4, V4 Flash, V4 Pro, V4 Pro Max는 가격·한도·벤치마크가 다르므로 실제 호출할 엔드포인트를 확인해야 한다.[1][3][15][31]

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

Research benchmarks of Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6 and compare as comprehensively as possible

Studio Global AI32 소스

인용 답변

Using only the supplied evidence, the strongest benchmark signal is that GPT-5.5 leads the available aggregate Intelligence Index, with GPT-5.5 xhigh at 60 and GPT-5.5 high at 59, while Claude Opus 4.7 Adaptive Reasoning Max Effort scores 57.[5] DeepSeek V4 Pro has the richest disclosed task-level benchmark data in the evidence, including 93.5% LiveCodeBench, Codeforces 3206, 80.6% SWE-Bench Verified, and 76.2% SWE-Bench Multilingual.[6] For Kimi K2.6, the supplied evidence contains positioning and pricing but no comparable numeric benchmark scores, so a full apples-to-apples benchmark ranking is not supported.[1][3]

Key findings

  • GPT-5.5 is the best-supported leader on the only cross-model aggregate benchmark available here: GPT-5.5 xhigh ranks first with an Intelligence Index of 60, and GPT-5.5 high ranks second with 59.[5]

  • Claude Opus 4.7 is close behind on that same aggregate measure: Claude Opus 4.7 Adaptive Reasoning Max Effort ranks third with an Intelligence Index of 57.[5]

  • DeepSeek V4 Pro has the clearest disclosed coding/SWE benchmark profile in the supplied evidence: 93.5% LiveCodeBench, Codeforces 3206, 80.6% SWE-Bench Verified, and 76.2% SWE-Bench Multilingual.[6]

  • Kimi K2.6 is described as an “open-source flagship” agent-coding model in the launch/news evidence, but the supplied evidence does not provide numeric benchmark scores for Kimi K2.6.[1]

  • DeepSeek V4 is materially cheaper than GPT-5.5 in the pricing evidence: DeepSeek V4 is listed at $1.74 per 1M input tokens and $3.48 per 1M output tokens, while GPT-5.5 is listed at $5 per 1M input tokens and $30 per 1M output tokens, with both shown as 1M-context models.[4]

  • DeepSeek V4 Flash is far cheaper than Kimi K2.6 in the direct pricing comparison: DeepSeek V4 Flash is listed at $0.14 per 1M input tokens, $0.28 per 1M output tokens, and $0.18 blended, while Kimi K2.6 is listed at $0.95 per 1M input tokens, $4.00 per 1M output tokens, and $1.71 blended.[3]

  • The supplied evidence treats DeepSeek V4 as a family with multiple variants, including V4 Flash and V4 Pro, so comparisons depend on which variant is meant.[2][3][6]

Benchmark and capability comparison

AreaGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6
Aggregate Intelligence Index60 for GPT-5.5 xhigh; 59 for GPT-5.5 high.[5]57 for Claude Opus 4.7 Adaptive Reasoning Max Effort.[5]No numeric Intelligence Index for DeepSeek V4 is provided in the supplied evidence.No numeric Intelligence Index for Kimi K2.6 is provided in the supplied evidence.
Coding / SWE benchmarksNo exact coding benchmark scores are provided in the supplied evidence.The launch evidence says Claude Opus 4.7 has improved programming and a threefold vision upgrade, but no exact benchmark numbers are provided.[1]DeepSeek V4 Pro is listed with 93.5% LiveCodeBench, Codeforces 3206, 80.6% SWE-Bench Verified, and 76.2% SWE-Bench Multilingual.[6]Kimi K2.6 is positioned as an open-source flagship agent-coding model, but no exact benchmark numbers are provided.[1]
Context window evidenceGPT-5.5 is listed with a 1M context window in the pricing comparison.[4]The supplied pricing snippet does not clearly provide Claude Opus 4.7’s context window.DeepSeek V4 is listed with a 1M context window in one comparison, and DeepSeek V4 Flash / Pro are also described as 1M-context options in enterprise guidance.[2][4]No context-window figure for Kimi K2.6 is provided in the supplied evidence.
Pricing evidence$5 per 1M input tokens and $30 per 1M output tokens.[4]$5 per 1M input tokens is visible in the supplied snippet, but the output price is truncated.[4]DeepSeek V4 is listed at $1.74 per 1M input tokens and $3.48 per 1M output tokens; DeepSeek V4 Flash is listed at $0.14 input, $0.28 output, and $0.18 blended.[3][4]Kimi K2.6 is listed at $0.95 per 1M input tokens, $4.00 per 1M output tokens, and $1.71 blended.[3]
Best-supported use case from evidenceHighest aggregate intelligence among the four where evidence is available.[5]High-end reasoning close to GPT-5.5 on the available Intelligence Index.[5]Strongest supplied coding/SWE evidence and strong cost positioning, especially for Flash and Pro variants.[2][3][6]Potentially strong open-source agent-coding positioning, but benchmark evidence is insufficient.[1]

Pricing and value takeaways

  • On the available aggregate benchmark, GPT-5.5 leads Claude Opus 4.7 by 3 points at the xhigh setting and by 2 points at the high setting.[5]

  • On the available API pricing comparison, GPT-5.5 costs about 2.9x DeepSeek V4 for input tokens and about 8.6x DeepSeek V4 for output tokens.[4]

  • In the DeepSeek V4 Flash vs Kimi K2.6 pricing comparison, Kimi K2.6’s blended price of $1.71 per 1M tokens is about 9.5x DeepSeek V4 Flash’s $0.18 blended price.[3]

  • One enterprise-oriented comparison recommends DeepSeek V4 Flash for high-volume text summarization, customer-service classification, and internal knowledge-base Q&A because of low cost and 1M context.[2]

  • The same enterprise-oriented comparison recommends DeepSeek V4 Pro for complex document analysis, cross-department workflows, and automated agents because it is described as lower-cost than closed flagship models while offering high-end open-weight capability and 1M context.[2]

Evidence notes

  • The strongest single benchmark source in the supplied evidence is the Intelligence Index listing, which ranks GPT-5.5 xhigh first at 60, GPT-5.5 high second at 59, and Claude Opus 4.7 Adaptive Reasoning Max Effort third at 57.[5]

  • The strongest task-level benchmark evidence is for DeepSeek V4 Pro, because it includes exact coding and software-engineering metrics rather than only positioning language.[6]

  • The Kimi K2.6 evidence is mostly launch positioning and pricing, not benchmark results.[1][3]

  • A user post describes four one-shot head-to-head experiments comparing Codex on GPT-5.5 with Claude Code on Opus 4.7, but the supplied snippet does not provide the outcomes or benchmark scores.[31]

  • There is conflicting or variant-specific DeepSeek context/pricing evidence: one comparison lists DeepSeek V4 with a 1M context window, while another provider listing for DeepSeek V4 Pro shows 256K max tokens and 66K max output tokens.[4][7]

Limitations / uncertainty

  • Insufficient evidence for a full, comprehensive benchmark comparison across Claude Opus 4.7, GPT-5.5, DeepSeek V4, and Kimi K2.6.

  • Insufficient evidence to rank DeepSeek V4 or Kimi K2.6 against GPT-5.5 and Claude Opus 4.7 on the same aggregate Intelligence Index, because the supplied excerpt only provides numeric Intelligence Index scores for GPT-5.5 and Claude Opus 4.7 among the requested models.[5]

  • Insufficient evidence to compare all four models on the same coding benchmarks, because only DeepSeek V4 Pro has detailed numeric coding/SWE benchmark scores in the supplied evidence.[6]

  • Insufficient evidence to compare multimodal performance across all four models, because the supplied evidence only includes a launch-positioning claim that Claude Opus 4.7 has a threefold vision upgrade and does not provide comparable multimodal benchmark numbers for the others.[1]

Summary

GPT-5.5 has the strongest supplied aggregate benchmark result, with Intelligence Index scores of 60 and 59 depending on reasoning setting.[5] Claude Opus 4.7 is close behind at 57 and is the only other requested model with a numeric aggregate score in the supplied evidence.[5] DeepSeek V4 Pro has the best-supported coding/SWE benchmark profile, while DeepSeek V4 Flash and V4 Pro appear especially strong on cost and long-context enterprise use cases.[2][3][6] Kimi K2.6 may be competitively positioned as an open-source agent-coding model, but the supplied evidence does not include enough numeric benchmark data to verify how it compares against GPT-5.5, Claude Opus 4.7, or DeepSeek V4.[1][3]

출처

  • [1] Compare DeepSeek V4 Flash (Reasoning, High Effort) vs Kimi K2.6 | AI Model Comparisonllmbase.ai

    Metric DeepSeek logo De DeepSeek V4 Flash (Reasoning, High Effort) DeepSeek Kimi logo Ki Kimi K2.6 Kimi --- Pricing per 1M tokens Input Cost $0.14/1M $0.95/1M Output Cost $0.28/1M $4.00/1M Blended (3:1) $0.18/1M $1.71/1M Specifications Organization DeepSeek...

  • [2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [3] DeepSeek V4 Pro vs Kimi K2.6 - AI Model Comparison | OpenRouteropenrouter.ai

    Ready Output will appear here... Pricing Input$0.7448 / M tokens Output$4.655 / M tokens Images– – Features Input Modalities text, image Output Modalities text Quantization int4 Max Tokens (input + output)256K Max Output Tokens 66K Stream cancellation Suppo...

  • [7] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    Reasoning & knowledge Benchmark GPT-5.5 Opus 4.7 Lead --- --- GPQA Diamond 93.6% 94.2% Opus +0.6 HLE (no tools) 41.4% 46.9% Opus +5.5 HLE (with tools) 52.2% 54.7% Opus +2.5 The HLE no-tools margin (+5.5pp) is the most informative entry in the table because...

  • [9] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [15] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [16] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...

  • [17] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [18] Kimi K2.6 Tested: Does It Beat Claude and GPT-5? | Lorka AIlorka.ai

    Benchmark What it tests Kimi K2.6 GPT-5.4 Opus 4.6 Gemini 3.1 Pro --- --- --- HLE-Full (with tools) Agentic reasoning with tool use 54.0% 52.1% 53.0% 51.4% DeepSearchQA (F1) Research retrieval and synthesis 92.5% 78.6% 91.3% 81.9% SWE-Bench Pro Multi-file c...

  • [19] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [25] DeepSeek V4 Pro API - Together AItogether.ai

    Coding & Software Engineering: • 93.5% LiveCodeBench and Codeforces 3206 for competitive and production code generation • 80.6% SWE-Bench Verified for autonomous software engineering across repositories • 76.2% SWE-Bench Multilingual for cross-language soft...

  • [31] deepseek-v4-pro Model by Deepseek-ai | NVIDIA NIM - NVIDIA Buildbuild.nvidia.com

    Benchmark (Metric) V4-Flash Non-Think V4-Flash High V4-Flash Max V4-Pro Non-Think V4-Pro High V4-Pro Max --- --- --- Knowledge & Reasoning MMLU-Pro (EM) 83.0 86.4 86.2 82.9 87.1 87.5 SimpleQA-Verified (Pass@1) 23.1 28.9 34.1 45.0 46.2 57.9 Chinese-SimpleQA...

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: 어떤 AI 모델이 앞설까 | 심층 연구 | Studio Global