studioglobal
인기 있는 발견
보고서게시됨10 소스

GPT-5.5 vs Claude Opus 4.7·DeepSeek V4·Kimi K2.6: 벤치마크 선두는 누구인가

GPT 5.5는 제공된 자료에서 가장 강한 올라운더로 보입니다. Artificial Analysis의 Intelligence Index 일부에서 GPT 5.5 xhigh가 60점, high가 59점으로 Claude Opus 4.7의 57점보다 앞섭니다 [2].

17K0
Abstrakte Illustration eines KI-Benchmark-Dashboards mit mehreren konkurrierenden Sprachmodellen
GPT-5.5 vsKI-generierte redaktionelle Illustration zu einem Vergleich aktueller Sprachmodell-Benchmarks.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Benchmark-Vergleich. Article summary: GPT 5.5 ist in den verfügbaren Quellen der stärkste belegte Allrounder: Es führt den Artificial Analysis Index mit 60 Punkten in der xhigh Konfiguration und liegt bei BrowseComp mit 84,4 % vor Claude Opus 4.7.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB

openai.com

단순히 ‘1등 모델’을 고르는 식의 순위표는 이 비교에 잘 맞지 않습니다. 제공된 자료는 GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6을 하나의 독립 기관이 같은 조건에서 모두 시험한 결과가 아니라, 서로 다른 벤치마크·모델 변형·업체 발표·2차 분석을 엮은 것입니다 [2][3][7][21].

그래도 실무적으로 읽을 수 있는 흐름은 있습니다. GPT-5.5는 가장 강하게 입증된 올라운더, Claude Opus 4.7은 코딩과 전문 지식 일부에서 매우 강한 모델, DeepSeek V4는 비용을 고려할 때 가장 눈에 띄는 도전자, Kimi K2.6은 기술 사양은 흥미롭지만 직접 비교 수치가 부족한 모델로 보는 것이 가장 안전합니다 [1][2][3][7][22][24].

먼저 보는 결론

  • 전체 성능의 출발점은 GPT-5.5가 가장 유리합니다. Artificial Analysis의 Intelligence Index 일부에서 GPT-5.5 xhigh는 60점, GPT-5.5 high는 59점으로, Claude Opus 4.7의 57점보다 앞섭니다 [2]. BrowseComp에서도 GPT-5.5는 84.4%로 DeepSeek V4의 83.4%, Claude Opus 4.7의 79.3%보다 높습니다 [3].
  • Claude Opus 4.7은 개발자 업무에서 만만치 않습니다. SWE-Bench Pro에서 Claude Opus 4.7은 64.3%로 GPT-5.5의 58.6%보다 높고, GPQA Diamond에서도 94.2%로 GPT-5.5의 93.6%를 근소하게 앞섭니다 [22][24]. 다만 Terminal-Bench 2.0에서는 GPT-5.5가 82.7%로 Claude Opus 4.7의 69.4%보다 크게 앞섭니다 [22][24].
  • DeepSeek V4는 ‘가성비’가 핵심입니다. VentureBeat가 인용한 BrowseComp 수치에서 DeepSeek V4는 83.4%로 GPT-5.5보다 1.0%포인트 낮지만 Claude Opus 4.7보다 높습니다 [3]. Mashable이 제시한 API 가격도 100만 입력 토큰당 1.74달러, 100만 출력 토큰당 3.48달러로, GPT-5.5의 5달러·30달러 및 Claude Opus 4.7의 5달러·25달러보다 낮습니다 [1].
  • Kimi K2.6은 이 자료만으로는 순위를 매기기 어렵습니다. DocsBot은 Kimi K2.6을 오픈소스, 네이티브 멀티모달, 에이전트형 모델로 설명하며 1조 파라미터 MoE 구조, 320억 활성 파라미터, 256K 컨텍스트를 언급합니다 [7]. 하지만 GPT-5.5, Claude Opus 4.7, DeepSeek V4와 나란히 비교할 수 있는 충분한 직접 벤치마크 수치는 제공되지 않았습니다 [7].

네 모델 비교 요약

모델자료에서 가장 강하게 확인되는 포인트주요 수치읽는 법
GPT-5.5제공된 Artificial Analysis Intelligence Index 일부에서 선두 [2]Intelligence Index 60점 xhigh, 59점 high [2]; BrowseComp 84.4%, GPT-5.5 Pro 90.1% [3]; Terminal-Bench 2.0 82.7% [22][24]전반적 선택지로 가장 안정적이지만 모든 항목에서 1위는 아닙니다.
Claude Opus 4.7SWE-Bench, GPQA, 일부 에이전트·전문 업무에서 강세 [20][22][24]Intelligence Index 57점 [2]; SWE-Bench Pro 64.3% [22][24]; SWE-Bench Verified 87.6% [20]; GPQA Diamond 94.2% [22]코드 리뷰, 복잡한 소프트웨어 작업, 지식형 업무에서 특히 검토할 만합니다.
DeepSeek V4BrowseComp에서 GPT-5.5에 근접 [3]BrowseComp 83.4% [3]; API 가격 100만 입력 토큰당 1.74달러, 100만 출력 토큰당 3.48달러 [1]비용과 웹·리서치 성능을 함께 볼 때 강력한 후보입니다.
Kimi K2.6긴 컨텍스트와 에이전트형 구조가 강조됨 [7]1조 파라미터 MoE, 320억 활성 파라미터, 256K 컨텍스트 [7]기술적으로는 흥미롭지만, 이 자료만으로 네 모델 순위에 넣기는 어렵습니다.

왜 벤치마크를 ‘성적순’으로만 보면 위험한가

AI 벤치마크는 시험 이름이 같아도 실행 조건이 다를 수 있습니다. DataCamp는 유사한 프런티어 모델 비교에서 일부 벤치마크가 업체 보고값이며, 서로 다른 테스트 하네스 구성을 사용할 수 있다고 지적했습니다 [21]. 즉, 점수 하나만 떼어 보면 깔끔해 보이지만 실제로는 모델 설정, 추론 강도, 도구 사용 여부, 평가 스크립트가 결과에 영향을 줄 수 있습니다.

이번 비교에서도 모델 이름이 완전히 같은 조건으로 맞춰져 있지 않습니다. Artificial Analysis는 GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 Adaptive Reasoning 및 Max Effort 구성을 언급합니다 [2]. VentureBeat의 DeepSeek 비교는 DeepSeek-V4-Pro-Max를 기준으로 설명합니다 [3]. 따라서 ‘누가 무조건 1등인가’보다 ‘어떤 업무에서 어느 모델의 근거가 가장 강한가’가 더 좋은 질문입니다.

전체 성능: GPT-5.5가 가장 강하게 입증됨

가장 깔끔한 전체 지표는 Artificial Analysis의 Intelligence Index 일부입니다. 여기서 GPT-5.5 xhigh는 60점으로 1위, GPT-5.5 high는 59점으로 2위, Claude Opus 4.7은 Adaptive Reasoning 및 Max Effort 조건에서 57점으로 3위에 올라 있습니다 [2].

이 자료만 놓고 보면 GPT-5.5는 Claude Opus 4.7보다 약하지만 분명한 우위를 보입니다 [2]. 다만 같은 출처 조각 안에서 DeepSeek V4와 Kimi K2.6까지 모두 같은 방식으로 비교할 수 있는 완전한 점수표는 제공되지 않았습니다 [2][7].

BrowseComp: DeepSeek V4가 GPT-5.5 턱밑까지 접근

BrowseComp는 GPT-5.5, Claude Opus 4.7, DeepSeek V4를 직접 비교하기에 가장 유용한 지표 중 하나입니다. VentureBeat는 GPT-5.5 Pro 90.1%, GPT-5.5 84.4%, DeepSeek V4 83.4%, Claude Opus 4.7 79.3%를 제시했습니다 [3].

모델 또는 변형BrowseComp 점수해석
GPT-5.5 Pro90.1%이 비교 조각에서는 확실한 선두입니다 [3].
GPT-5.584.4%DeepSeek V4보다 1.0%포인트 앞섭니다 [3].
DeepSeek V483.4%GPT-5.5와 매우 가깝고 Claude Opus 4.7보다 높습니다 [3].
Claude Opus 4.779.3%이 항목에서는 GPT-5.5와 DeepSeek V4 뒤입니다 [3].
Kimi K2.6직접 비교 가능한 수치 없음이 자료만으로는 공정한 순위 산정이 어렵습니다 [7].

다만 VentureBeat는 DeepSeek-V4-Pro-Max가 직접 비교 가능한 벤치마크 전반에서 GPT-5.5나 Claude Opus 4.7을 완전히 밀어냈다고 보기는 어렵다고 평가했습니다 [3]. 핵심은 ‘DeepSeek V4가 BrowseComp에서 매우 강하다’이지, ‘전체 1위가 확정됐다’는 뜻은 아닙니다 [3].

코딩·소프트웨어: Claude는 SWE, GPT는 Terminal에서 강함

개발자 관점에서는 승자가 하나로 고정되지 않습니다. SWE-Bench Pro에서는 Claude Opus 4.7이 64.3%로 GPT-5.5의 58.6%보다 높습니다 [22][24]. Vellum은 Claude Opus 4.7의 SWE-Bench Verified 점수도 87.6%로 제시했습니다 [20].

반대로 Terminal-Bench 2.0에서는 GPT-5.5가 82.7%로 Claude Opus 4.7의 69.4%를 크게 앞섭니다 [22][24]. 터미널 조작, 파일 탐색, 도구 사용이 중요한 작업에서는 이 차이를 가볍게 보기 어렵습니다.

벤치마크GPT-5.5Claude Opus 4.7결론
SWE-Bench Pro58.6%64.3%Claude Opus 4.7 우세 [22][24]
SWE-Bench Verified직접 인용 가능한 GPT-5.5 수치 없음87.6%Claude의 강한 수치지만 네 모델 전체 비교는 아님 [20]
Terminal-Bench 2.082.7%69.4%GPT-5.5 우세 [22][24]

DeepSeek V4와 Kimi K2.6은 이 영역에서 같은 수준의 표로 정리할 만큼 직접 비교 수치가 충분하지 않습니다. VentureBeat는 DeepSeek V4가 여러 직접 비교 가능한 벤치마크에서 상위 모델에 가까워졌다고 설명하지만, 제공된 조각에서 가장 명확한 수치는 BrowseComp입니다 [3]. Kimi K2.6 역시 모델 구조와 기능 설명은 있지만, 네 모델을 같은 표에 놓을 만큼의 벤치마크 매트릭스는 부족합니다 [7].

추론·지식·전문 업무: 벤치마크마다 선두가 바뀐다

지식·추론 테스트에서는 GPT-5.5와 Claude Opus 4.7이 매우 가깝습니다. GPQA Diamond에서 GPT-5.5는 93.6%, Claude Opus 4.7은 94.2%로 Claude가 근소하게 앞섭니다 [22]. Mashable도 같은 GPQA Diamond 수치를 제시했고, Humanity’s Last Exam에서는 도구 사용 여부에 따라 승자가 바뀐다고 설명했습니다 [8]. 도구 없이 보면 GPT-5.5가 40.6%로 Claude Opus 4.7의 31.2%보다 높고, 도구를 쓰면 Claude Opus 4.7이 54.7%로 GPT-5.5의 52.2%를 근소하게 앞섭니다 [8].

벤치마크GPT-5.5Claude Opus 4.7제공 수치상 우세
GPQA Diamond93.6%94.2%Claude Opus 4.7 근소 우세 [8][22]
Humanity’s Last Exam40.6%31.2%GPT-5.5 우세 [8]
Humanity’s Last Exam, 도구 사용52.2%54.7%Claude Opus 4.7 근소 우세 [8]

전문 업무와 에이전트형 벤치마크도 마찬가지입니다. Vellum은 GDPval에서 GPT-5.5 84.9%, Claude Opus 4.7 80.3%, OSWorld-Verified에서 GPT-5.5 78.7%, Claude Opus 4.7 78.0%, MCP Atlas에서 GPT-5.5 75.3%, Claude Opus 4.7 79.1%를 제시했습니다 [22]. OpenAI는 FinanceAgent v1.1에서 GPT-5.5 60.0%, Claude Opus 4.7 64.4%를 제시했습니다 [24].

벤치마크GPT-5.5Claude Opus 4.7결론
GDPval84.9%80.3%GPT-5.5 우세 [22][24]
OSWorld-Verified78.7%78.0%GPT-5.5 근소 우세 [22]
MCP Atlas75.3%79.1%Claude Opus 4.7 우세 [22]
FinanceAgent v1.160.0%64.4%Claude Opus 4.7 우세 [24]

Anthropic은 내부 research-agent 벤치마크도 언급했습니다. Anthropic에 따르면 Claude Opus 4.7은 여섯 개 모듈에서 전체 최고 점수 0.715를 공동으로 기록했고, General Finance 모듈에서는 Opus 4.6의 0.767보다 높은 0.813을 기록했습니다 [6]. 다만 이는 내부 벤치마크이며 네 모델을 모두 같은 방식으로 다루는 독립 비교는 아니므로, Claude의 에이전트형 업무 강점을 보여주는 참고 자료로 보는 편이 적절합니다 [6].

가격과 컨텍스트: DeepSeek V4가 가장 눈에 띈다

실제 도입에서는 벤치마크 1~2점보다 비용이 더 크게 작용할 때가 많습니다. 여기서 DeepSeek V4의 존재감이 커집니다. Mashable은 DeepSeek V4의 API 가격을 100만 입력 토큰당 1.74달러, 100만 출력 토큰당 3.48달러로 제시했고, 컨텍스트 창은 100만 토큰이라고 설명했습니다 [1]. 같은 출처에서 GPT-5.5는 100만 입력 토큰당 5달러, 100만 출력 토큰당 30달러, Claude Opus 4.7은 100만 입력 토큰당 5달러, 100만 출력 토큰당 25달러로 제시됐으며 둘 다 100만 토큰 컨텍스트로 설명됐습니다 [1].

모델입력 가격, 100만 토큰당출력 가격, 100만 토큰당출처의 컨텍스트 표기
DeepSeek V41.74달러3.48달러100만 토큰 [1]
GPT-5.55달러30달러100만 토큰 [1]
Claude Opus 4.75달러25달러100만 토큰 [1]
Kimi K2.6제공 자료에 신뢰할 만한 가격 없음제공 자료에 신뢰할 만한 가격 없음256K 토큰 [7]

토큰은 모델이 텍스트를 읽고 쓰는 기본 처리 단위입니다. 긴 문서를 자주 넣거나 대량 출력을 생성하는 서비스라면 출력 토큰 가격 차이가 총비용에 큰 영향을 줄 수 있습니다. 다만 위 가격은 출처가 제시한 미국 달러 기준 수치이므로, 실제 도입 시에는 각 API의 최신 가격표와 사용 조건을 별도로 확인해야 합니다.

Kimi K2.6은 어떻게 봐야 하나

Kimi K2.6은 숫자보다 구조 설명이 더 많이 제공된 모델입니다. DocsBot은 Kimi K2.6을 Moonshot AI의 최신 오픈소스 네이티브 멀티모달 에이전트형 모델로 소개하며, 장기 코딩, 코딩 기반 디자인, 능동적 자율 실행, 스웜 기반 작업 오케스트레이션을 강조합니다 [7]. 또한 Kimi K2.5의 1조 파라미터 MoE 구조, 320억 활성 파라미터, 256K 컨텍스트를 유지하고, 최대 300개 하위 에이전트와 4,000개 조정 단계를 지원한다고 설명합니다 [7].

이 설명만 보면 Kimi K2.6은 긴 문맥과 복잡한 에이전트 작업에 관심 있는 팀이 시험해 볼 만한 모델입니다. 그러나 이 글의 비교 대상인 GPT-5.5, Claude Opus 4.7, DeepSeek V4와 동일한 조건에서 측정된 충분한 벤치마크·가격 수치가 없기 때문에, 지금 단계에서 ‘몇 위’라고 단정하는 것은 부정확합니다 [7].

목적별 추천 출발점

우선순위먼저 검토할 모델이유
가장 강한 전체 성능 근거GPT-5.5제공된 Intelligence Index 일부에서 선두이고, BrowseComp에서도 Claude Opus 4.7과 DeepSeek V4보다 높습니다 [2][3].
SWE-Bench 중심 소프트웨어 엔지니어링Claude Opus 4.7SWE-Bench Pro에서 GPT-5.5보다 높고, SWE-Bench Verified 87.6% 수치가 제시됐습니다 [20][22][24].
터미널·컴퓨터 조작·도구 실행GPT-5.5Terminal-Bench 2.0에서 Claude Opus 4.7보다 크게 앞서며, GDPval과 OSWorld-Verified에서도 우세한 수치가 있습니다 [22][24].
웹 리서치 성능과 낮은 API 비용DeepSeek V4BrowseComp 83.4%로 GPT-5.5에 근접했고, 인용된 API 가격이 크게 낮습니다 [1][3].
오픈소스 멀티모달 에이전트 모델 실험Kimi K2.6오픈소스, 네이티브 멀티모달, 에이전트형 모델로 설명되지만 직접 비교 수치는 부족합니다 [7].

최종 판단

제공된 근거만 놓고 가장 안전하게 말하면, GPT-5.5가 현재 가장 강하게 입증된 올라운더입니다. Artificial Analysis의 Intelligence Index 일부에서 앞서고, BrowseComp와 여러 전문 벤치마크에서도 강한 수치를 보입니다 [2][3][22][24].

하지만 Claude Opus 4.7은 코딩과 고난도 지식 업무에서 여전히 최상위권입니다. SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond, FinanceAgent v1.1 같은 항목에서는 GPT-5.5보다 나은 수치가 제시됐습니다 [20][22][24].

DeepSeek V4는 가격 대비 성능의 변수입니다. BrowseComp에서 GPT-5.5에 거의 근접하면서도, 인용된 API 가격은 GPT-5.5와 Claude Opus 4.7보다 낮습니다 [1][3]. 대규모 호출이 많은 서비스라면 벤치마크 1점 차이보다 이 비용 차이가 더 중요할 수 있습니다.

Kimi K2.6은 보류가 맞습니다. 긴 컨텍스트와 에이전트형 구조는 매력적이지만, 이 자료만으로는 네 모델을 같은 잣대로 세운 순위를 만들 수 없습니다 [7]. 따라서 실제 선택은 ‘전체 1위’보다 ‘내 업무가 코딩인지, 리서치인지, 터미널 실행인지, 비용 민감형 API인지’에서 출발하는 편이 더 정확합니다.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • GPT 5.5는 제공된 자료에서 가장 강한 올라운더로 보입니다. Artificial Analysis의 Intelligence Index 일부에서 GPT 5.5 xhigh가 60점, high가 59점으로 Claude Opus 4.7의 57점보다 앞섭니다 [2].
  • Claude Opus 4.7은 소프트웨어·지식 벤치마크에서 강합니다. SWE Bench Pro는 64.3%로 GPT 5.5의 58.6%보다 높고, GPQA Diamond도 94.2%로 GPT 5.5의 93.6%를 근소하게 앞섭니다 [22][24].
  • DeepSeek V4는 가격 대비 성능이 핵심입니다. BrowseComp 83.4%로 GPT 5.5의 84.4%에 1.0%포인트 차이까지 접근했고, 인용된 API 가격은 GPT 5.5·Claude Opus 4.7보다 낮습니다 [1][3].

사람들은 또한 묻습니다.

"GPT-5.5 vs Claude Opus 4.7·DeepSeek V4·Kimi K2.6: 벤치마크 선두는 누구인가"에 대한 짧은 대답은 무엇입니까?

GPT 5.5는 제공된 자료에서 가장 강한 올라운더로 보입니다. Artificial Analysis의 Intelligence Index 일부에서 GPT 5.5 xhigh가 60점, high가 59점으로 Claude Opus 4.7의 57점보다 앞섭니다 [2].

먼저 검증할 핵심 포인트는 무엇인가요?

GPT 5.5는 제공된 자료에서 가장 강한 올라운더로 보입니다. Artificial Analysis의 Intelligence Index 일부에서 GPT 5.5 xhigh가 60점, high가 59점으로 Claude Opus 4.7의 57점보다 앞섭니다 [2]. Claude Opus 4.7은 소프트웨어·지식 벤치마크에서 강합니다. SWE Bench Pro는 64.3%로 GPT 5.5의 58.6%보다 높고, GPQA Diamond도 94.2%로 GPT 5.5의 93.6%를 근소하게 앞섭니다 [22][24].

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4는 가격 대비 성능이 핵심입니다. BrowseComp 83.4%로 GPT 5.5의 84.4%에 1.0%포인트 차이까지 접근했고, 인용된 API 가격은 GPT 5.5·Claude Opus 4.7보다 낮습니다 [1][3].

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

Recherchieren Sie die Benchmarks von Claude Opus 4.7, GPT-5.5, DeepSeek V4 und Kimi K2.6 und vergleichen Sie sie so umfassend wie möglich im Format eines Forschungsberichts, damit alle sie leicht verstehen können.

Studio Global AI26 소스

인용 답변

Auf Basis der vorliegenden Belege wirkt GPT-5.5 insgesamt am stärksten belegt: Es führt im genannten „Intelligence Index“ und liegt auch bei BrowseComp vor Claude Opus 4.7 und knapp vor DeepSeek V4 [6][7]. DeepSeek V4 ist besonders auffällig, weil es bei BrowseComp Claude Opus 4.7 schlägt und GPT-5.5 fast erreicht, aber die verfügbaren Belege reichen nicht, um es insgesamt vor GPT-5.5 oder Claude Opus 4.7 einzuordnen [7]. Für Kimi K2.6 fehlen belastbare Zahlenwerte; hier ist die Evidenz deutlich schwächer [21].

Key findings

  • GPT-5.5 wird im verfügbaren Artificial-Analysis-Ausschnitt als Nummer 1 und 2 des „Intelligence Index“ geführt: GPT-5.5 „xhigh“ mit 60 Punkten und GPT-5.5 „high“ mit 59 Punkten [6].

  • Claude Opus 4.7 wird im selben Ausschnitt mit „Adaptive Reasoning, Max Effort“ bei 57 Punkten genannt und damit hinter GPT-5.5 xhigh und GPT-5.5 high eingeordnet [6].

  • Bei BrowseComp erreicht DeepSeek V4 laut verfügbarem Bericht 83,4 %, Claude Opus 4.7 79,3 % und GPT-5.5 84,4 %; GPT-5.5 Pro liegt mit 90,1 % deutlich höher [7].

  • DeepSeek V4 schlägt Claude Opus 4.7 in BrowseComp, liegt dort aber knapp hinter GPT-5.5 und klar hinter GPT-5.5 Pro [7].

  • Trotz des starken BrowseComp-Werts heißt es im verfügbaren Bericht, DeepSeek-V4-Pro-Max entthrone GPT-5.5 oder Claude Opus 4.7 auf den direkt vergleichbaren Benchmarks insgesamt nicht [7].

  • Für Claude Opus 4.7 liegen mehrere konkrete Benchmarkwerte vor: SWE-bench Pro 64,3 %, SWE-bench Verified 87,6 %, Terminal-Bench 69,4 % und GPQA Diamond 94,2 % [3].

  • Ein weiterer verfügbarer Benchmarkhinweis nennt Claude Opus 4.7 mit 82,7 % auf FinanceBench, allerdings stammt dieser Wert aus einem sekundären Blogkontext und sollte vorsichtig interpretiert werden [2].

  • Für Kimi K2.6 enthält die verfügbare Evidenz keine belastbaren numerischen Benchmarkwerte; ein Reddit-Beitrag behauptet lediglich, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dort auf Platz 2 [21].

Vergleichstabelle

ModellBeste verfügbare EvidenzGenannte BenchmarkwerteEinordnung
GPT-5.5Führt den „Intelligence Index“ in zwei Varianten [6]Intelligence Index: 60 xhigh, 59 high; BrowseComp: 84,4 %; GPT-5.5 Pro BrowseComp: 90,1 % [6][7]Stärkster belegt unter den vier Modellen, vor allem im Intelligence Index und bei BrowseComp [6][7]
Claude Opus 4.7Platz 3 im genannten Intelligence Index-Ausschnitt [6]Intelligence Index: 57; BrowseComp: 79,3 %; SWE-bench Pro: 64,3 %; SWE-bench Verified: 87,6 %; Terminal-Bench: 69,4 %; GPQA Diamond: 94,2 %; FinanceBench: 82,7 % [2][3][6][7]Sehr stark belegt, aber in den verfügbaren Vergleichsdaten hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [6][7]
DeepSeek V4Sehr stark bei BrowseComp [7]BrowseComp: 83,4 %; API-Preis: $1.74 pro 1 Mio. Input-Tokens und $3.48 pro 1 Mio. Output-Tokens [5][7]Nahe an GPT-5.5 bei BrowseComp und besser als Claude Opus 4.7 in diesem Benchmark, aber nicht klarer Gesamtsieger [7]
Kimi K2.6Nur schwacher Rankinghinweis aus Reddit [21]Keine belastbaren Zahlenwerte in der bereitgestellten Evidenz [21]Insufficient evidence: Keine solide numerische Einordnung möglich [21]

Benchmark-für-Benchmark-Vergleich

Intelligence Index

  • GPT-5.5 liegt im verfügbaren Ausschnitt des „Intelligence Index“ auf Platz 1 mit 60 Punkten in der xhigh-Konfiguration und auf Platz 2 mit 59 Punkten in der high-Konfiguration [6].

  • Claude Opus 4.7 liegt in der Konfiguration „Adaptive Reasoning, Max Effort“ bei 57 Punkten und wird damit hinter beiden GPT-5.5-Varianten genannt [6].

  • Für DeepSeek V4 und Kimi K2.6 werden im verfügbaren Ausschnitt keine konkreten Intelligence-Index-Werte genannt [6].

BrowseComp

  • GPT-5.5 erreicht bei BrowseComp 84,4 %, während GPT-5.5 Pro 90,1 % erreicht [7].

  • DeepSeek V4 erreicht bei BrowseComp 83,4 % und liegt damit sehr knapp hinter GPT-5.5, aber deutlich hinter GPT-5.5 Pro [7].

  • Claude Opus 4.7 erreicht bei BrowseComp 79,3 % und liegt damit hinter DeepSeek V4 und GPT-5.5 [7].

  • Kimi K2.6 hat in der bereitgestellten Evidenz keinen BrowseComp-Wert [7][21].

Coding- und Software-Benchmarks

  • Claude Opus 4.7 wird mit 64,3 % auf SWE-bench Pro und 87,6 % auf SWE-bench Verified angegeben [3].

  • Claude Opus 4.7 wird außerdem mit etwa 70 % auf CursorBench genannt, aber dieser Vergleich stammt aus einem Kontext zu GPT-5.4, nicht GPT-5.5 [4].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren SWE-bench-Pro- oder SWE-bench-Verified-Werte vor [3][4][7][21].

  • Ein Reddit-Beitrag behauptet, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dahinter auf Platz 2, aber dieser Beleg ist schwächer als die übrigen Quellen und enthält im Ausschnitt keine konkreten Prozentwerte [21].

Reasoning- und Wissens-Benchmarks

  • Claude Opus 4.7 wird mit 94,2 % auf GPQA Diamond angegeben [3].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren GPQA-Diamond-Werte vor [3][6][7][21].

FinanceBench

  • Claude Opus 4.7 wird in einem verfügbaren Blogausschnitt mit 82,7 % auf FinanceBench erwähnt [2].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine FinanceBench-Werte vor [2][5][7][21].

Preis- und Kontextvergleich

  • DeepSeek V4 wird mit $1.74 pro 1 Million Input-Tokens und $3.48 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • GPT-5.5 wird mit $5 pro 1 Million Input-Tokens und $30 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • Für Claude Opus 4.7 ist im verfügbaren Ausschnitt nur der Beginn einer Preisangabe erkennbar, aber kein vollständiger Output-Preis, daher reicht die Evidenz für einen vollständigen Kostenvergleich nicht aus [5].

  • Für Kimi K2.6 enthält die bereitgestellte Evidenz keinen Preiswert [5][21].

Verständliche Einordnung

  • Wenn man nur die verfügbaren Zahlen betrachtet, ist GPT-5.5 der sicherste Kandidat für die stärkste Gesamtleistung, weil es den genannten Intelligence Index anführt und bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 liegt [6][7].

  • DeepSeek V4 ist der stärkste Herausforderer in den verfügbaren Zahlen, weil es bei BrowseComp mit 83,4 % fast GPT-5.5 erreicht und Claude Opus 4.7 übertrifft [7].

  • Claude Opus 4.7 ist am breitesten mit konkreten Einzelbenchmarks belegt, vor allem in SWE-bench, Terminal-Bench, GPQA Diamond und FinanceBench [2][3].

  • Kimi K2.6 kann anhand der bereitgestellten Evidenz nicht fair numerisch mit den anderen drei Modellen verglichen werden, weil die einzige konkrete Aussage nur ein schwacher Reddit-Rankinghinweis ohne Zahlenwerte ist [21].

Evidence notes

  • Die stärksten quantitativen Vergleichsdaten in der bereitgestellten Evidenz sind der Intelligence-Index-Ausschnitt und der BrowseComp-Vergleich, weil sie mehrere der angefragten Modelle direkt nebeneinander nennen [6][7].

  • Die Claude-Opus-4.7-Werte zu SWE-bench Pro, SWE-bench Verified, Terminal-Bench und GPQA Diamond sind nützlich, aber sie erlauben keinen vollständigen Vier-Modell-Vergleich, weil entsprechende Werte für GPT-5.5, DeepSeek V4 und Kimi K2.6 in der Evidenz fehlen [3].

  • Der Kimi-K2.6-Hinweis ist deutlich schwächer, weil er aus einem Reddit-Beitrag stammt und im verfügbaren Ausschnitt keine numerischen Ergebnisse enthält [21].

  • Ein Vergleich mit GPT-5.4 ist nur indirekt relevant, weil die Nutzerfrage GPT-5.5 betrifft; die verfügbare Quelle nennt dort außerdem, dass Benchmarkwerte teils vendor-reported sind und unterschiedliche Harness-Konfigurationen nutzen [4].

Limitations / uncertainty

  • Insufficient evidence: Für Kimi K2.6 fehlen belastbare Benchmarkzahlen in der bereitgestellten Evidenz [21].

  • Insufficient evidence: Für GPT-5.5 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench, FinanceBench und Vibe Code [6][7].

  • Insufficient evidence: Für DeepSeek V4 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench und FinanceBench [5][7][21].

  • Die Modelle werden teils in unterschiedlichen Varianten oder Testmodi genannt, etwa GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 „Adaptive Reasoning, Max Effort“ und DeepSeek-V4-Pro-Max, wodurch ein 1:1-Vergleich nur eingeschränkt möglich ist [6][7].

  • Die bereitgestellte Evidenz enthält keine vollständigen offiziellen Modellkarten oder Primärquellen mit einheitlichem Benchmark-Setup für alle vier Modelle [1][3][6][7].

Summary

  • GPT-5.5: Beste belegte Gesamtposition, führt den Intelligence Index und liegt bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 [6][7].

  • DeepSeek V4: Sehr stark bei BrowseComp, knapp hinter GPT-5.5 und vor Claude Opus 4.7; außerdem deutlich günstiger als GPT-5.5 in der verfügbaren Preisangabe [5][7].

  • Claude Opus 4.7: Sehr gut dokumentiert mit vielen Einzelbenchmarks, aber in den direkt verfügbaren Vergleichszahlen hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [2][3][6][7].

  • Kimi K2.6: Nicht seriös numerisch bewertbar, weil die bereitgestellte Evidenz nur einen schwachen Rankinghinweis ohne konkrete Zahlen enthält [21].

출처

  • [1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BrowseComp is the standout: DeepSeek’s 83.4% beats Claude Opus 4.7’s 79.3% and nearly matches GPT-5.5’s 84.4%, though GPT-5.5 Pro’s 90.1% remains well ahead. So ultimately, DeepSeek-V4-Pro-Max does not appear to dethrone GPT-5.5 or Claude Opus 4.7 on the be...

  • [6] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [7] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...

  • [8] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [20] Claude Opus 4.7 Benchmarks Explained - Vellumvellum.ai

    Is Claude Opus 4.7 the most powerful Claude model? No. Claude Mythos Preview is Anthropic's most capable model and leads Opus 4.7 on most benchmarks in the comparison table, including SWE-bench Pro (77.8% vs 64.3%), SWE-bench Verified (93.9% vs 87.6%), Term...

  • [21] Claude Opus 4.7 vs. GPT-5.4: Which Frontier Model Should You Use?datacamp.com

    --- --- Benchmark Claude Opus 4.7 GPT-5.4 Notes SWE-bench Pro 64.3% 57.7% Vendor-reported; different harness configurations SWE-bench Verified 87.6% Not published OpenAI has not released an official score on this variant CursorBench 70% Not published Cursor...

  • [22] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [24] Introducing GPT-5.5 - OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...