studioglobal
인기 있는 발견
보고서게시됨16 소스

Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6: Warum 2026 kein Benchmark-Sieger reicht

Eine saubere Rangliste von Platz 1 bis 4 lässt sich aus den öffentlichen Daten nicht ableiten: BenchLM, Vals AI, Herstellerangaben und interne Benchmarks messen unterschiedliche Dinge [3][28][31]. Claude Opus 4.7 sticht mit BenchLM 97/100 und SWE bench Verified 82,4 % hervor; GPT 5.5 liefert konkrete offizielle Agen...

16K0
네 개의 최신 AI 모델을 벤치마크 차트와 비교하는 추상적 에디토리얼 이미지
Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 2026 벤치마크 비교를 표현한 AI 생성 이미지.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교. Article summary: 네 모델의 ‘절대 1위’를 확정하기는 어렵습니다. 공개 자료 기준 Claude Opus 4.7은 BenchLM 97/100·SWE bench Verified 82.4%가 가장 뚜렷하고, GPT 5.5는 GDPval 84.9% 등 업무형 공식 수치가 강하지만 평가 체계가 달라 직접 합산할 수 없습니다 [2][3][29].. Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "# Kimi K2.6 vs Claude Opus 4.7: Which Model Wins in 2026? Kimi K2.6 ties Opus 4.7 on multilingual SWE-bench but trails by 7 points on Verified — at 1/5th the cost. Two weeks after" source context "Kimi K2.6 vs Claude Opus 4.7 (2026): Benchmarks, Cost, When Each Wins" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www

openai.com

Wer 2026 nur nach dem einen Sieger fragt, bekommt bei diesen vier Modellen eine trügerisch einfache Antwort. In der Vals-AI-Liste erscheinen DeepSeek V4 und GPT-5.5 als Einträge vom 23. April 2026, Kimi K2.6 vom 20. April 2026 und Claude Opus 4.7 vom 16. April 2026 [19]. Die öffentlich vorliegenden Daten bewerten die vier Modelle aber nicht sauber unter denselben Benchmarks, Einstellungen und Kostenbedingungen. Für die Auswahl zählt deshalb weniger eine absolute Rangliste als die Frage: Welcher Messwert passt zu welchem Einsatz?

Warum ein einziger Spitzenplatz wenig sagt

KI-Benchmarks sind 2026 kein einheitlicher TÜV-Stempel. Kili Technology ordnet MMLU, MMLU-Pro, GPQA Diamond, SWE-Bench, Terminal-Bench, GAIA, WebArena, GDPval und Sicherheitsbewertungen unterschiedlichen Fähigkeiten zu [8]. Auch der AI Index von Stanford HAI behandelt technische Leistung nicht als einen einzigen Wert, sondern unter anderem entlang von MMLU, MATH, GPQA Diamond, MMMU, OSWorld, AIME und SWE-bench Verified [13].

Gerade allgemeine Wissensbenchmarks verlieren bei Spitzenmodellen an Trennschärfe. Nanonets beschreibt MMLU als 5-shot-Test und weist darauf hin, dass Topmodelle 2026 häufig im Bereich oberhalb von 88 % liegen, sodass kleine Unterschiede kaum noch als klare Qualitätsabstufung taugen [22]. Praktisch heißt das: Für Entwicklerteams, Produktverantwortliche oder Analysten ist die passende Achse wichtiger als der lauteste Gesamtscore – also etwa Coding, Wissensarbeit, wissenschaftliches Reasoning, Computerbedienung, Kosten oder Latenz [8][22].

Die wichtigsten öffentlichen Werte im Überblick

ModellÖffentlich greifbare WerteWas daraus als Stärke lesbar istWichtige Einschränkung
Claude Opus 4.7BenchLM 97/100, provisional Rang 2 von 110; SWE-bench Verified 82,4 %; FinanceBench 82,7 %; MathVista +9,5 Punkte [2][3]Coding, Gesamtleaderboard, Finanzdokumente, visuelles mathematisches ReasoningAnthropics research-agent benchmark mit 0,715 ist intern und nicht direkt mit GDPval oder Vals vergleichbar [7][29].
GPT-5.5BenchLM 89/100, provisional Rang 5 von 112; GDPval 84,9 %; OSWorld-Verified 78,7 %; Tau2-bench Telecom 98,0 %; Vals Accuracy 67,76 % ± 1,79 [28][29][31]Wissensarbeit, Computerbedienung, Kundensupport-Workflows, agentenbasierte AufgabenOpenAI-Angaben, BenchLM und Vals AI nutzen unterschiedliche Bewertungslogiken [28][29][31].
DeepSeek V4 / V4-Pro-MaxVals-AI-Eintrag vom 23. April 2026; V4-Pro-Max mit MMLU-Pro 87,5 %, GPQA Diamond 90,1 %, GSM8K 92,6 % [15][19]Wissenschaftliche Fragen, Mathematik, anspruchsvolles ReasoningDataCamp kennzeichnet die Werte als auf DeepSeeks internen Ergebnissen beruhend; das ist von unabhängig replizierten Scores zu trennen [15].
Kimi K2.6BenchLM 85/100, provisional Rang 12 von 115; Vals Accuracy 63,94 % ± 1,97, Latenz 373,57 s, Kosten 0,21 US-Dollar/Test; Artificial Analysis Intelligence Index 54, Gesamtrang 4 [36][37][39]Open-Weights-Segment, Kosten, Latenz, BetriebseffizienzJe nach Quelle tauchen Kimi 2.6, Kimi K2.6 und K2.6 Thinking auf; vor dem Vergleich sollte die konkrete Einstellung geprüft werden [37][39].

Gesamtleaderboards: Claude liegt bei BenchLM vorn – in diesem Ausschnitt

Unter den drei hier belegten BenchLM-Seiten steht Claude Opus 4.7 am besten da. BenchLM führt das Modell auf dem provisional leaderboard als Rang 2 von 110 mit einem overall score von 97/100 und zusätzlich als Rang 2 von 14 auf dem verified leaderboard [3].

GPT-5.5 erscheint bei BenchLM als Rang 5 von 112 im provisional leaderboard mit 89/100 und als Rang 2 von 16 im verified leaderboard [28]. Kimi 2.6 wird dort mit 85/100, Rang 12 von 115 und 27 veröffentlichten Benchmarkwerten beschrieben [37].

Das ist nützlich, aber kein abschließendes Urteil. Die Vergleichsgruppen sind nicht identisch, und in den vorliegenden Quellen liegt kein gleichwertiger BenchLM-Wert für DeepSeek V4 vor [3][28][37]. BenchLM liefert also einen wichtigen Ausschnitt – nicht die endgültige Weltrangliste.

Coding: Bei Claude ist der öffentliche Nachweis am klarsten

Für Software-Engineering ist Claude Opus 4.7 in diesem Quellenpaket am deutlichsten belegt. MindStudio nennt 82,4 % auf SWE-bench Verified und beschreibt das als Zuwachs von rund 11 Punkten gegenüber Opus 4.6 [2]. Dieselbe Quelle nennt außerdem 82,7 % auf FinanceBench und einen Anstieg von 9,5 Punkten bei MathVista, was auf stärkere Verarbeitung von Finanzdokumenten und visuellem mathematischem Reasoning hindeutet [2].

Bei GPT-5.5 stehen in den offiziellen OpenAI-Angaben andere Einsatzachsen im Vordergrund: GDPval, OSWorld-Verified und Tau2-bench Telecom statt eines zentral herausgestellten SWE-bench-Werts [29]. Für Kimi K2.6 spricht GMI Cloud von einem Spitzenplatz in SWE-Bench Pro, doch aus den hier vorliegenden Angaben lässt sich kein sauberer Punktwert für den Vierervergleich ableiten [35]. DeepSeek V4 ist in den verfügbaren Daten stärker über Reasoning- und Mathematikwerte belegt als über Coding [15][16].

Agenten und Wissensarbeit: GPT-5.5 hat besonders konkrete offizielle Werte

Bei beruflicher Wissensarbeit und agentenbasierten Workflows sind die offiziellen GPT-5.5-Zahlen besonders konkret. OpenAI gibt für GPT-5.5 84,9 % auf GDPval an; GDPval testet, ob Agenten gut spezifizierte Wissensarbeit über 44 Berufsfelder hinweg erzeugen können [29]. Außerdem nennt OpenAI 78,7 % auf OSWorld-Verified, einem Test für die Bedienung realer Computerumgebungen, sowie 98,0 % auf Tau2-bench Telecom für komplexe Kundensupport-Workflows [29].

Auch Claude Opus 4.7 hat Agentenwerte, allerdings aus einem anderen Rahmen. Anthropic berichtet für den internen research-agent benchmark einen geteilten Spitzenwert von 0,715 über sechs Module und im Modul General Finance 0,813 gegenüber 0,767 bei Opus 4.6 [7].

Wichtig ist die Skala: GPT-5.5 mit 84,9 % auf GDPval und Claude Opus 4.7 mit 0,715 in einem internen Research-Agent-Benchmark sind nicht derselbe Messwert. Sie sollten nicht so gelesen werden, als lägen sie auf einer gemeinsamen Prozentachse [7][29].

Wissen und Reasoning: DeepSeek und Kimi lassen sich teilweise direkt gegenüberstellen

Für DeepSeek V4 sind die konkretesten öffentlichen Zahlen in der V4-Pro-Max-Konfiguration greifbar. DataCamp schreibt, DeepSeek V4-Pro-Max erreiche laut internen DeepSeek-Ergebnissen 87,5 % auf MMLU-Pro, 90,1 % auf GPQA Diamond und 92,6 % auf GSM8K [15]. Diese Werte sind als Referenz interessant, sollten aber wegen der internen Herkunft anders gewichtet werden als unabhängig erhobene Leaderboardwerte [15].

Das Hugging-Face-Material zu DeepSeek-V4-Pro stellt DeepSeek V4-Pro-Max und Kimi K2.6 Thinking in einigen Wissens- und Reasoning-Benchmarks nebeneinander [16]:

BenchmarkDeepSeek V4-Pro-MaxKimi K2.6 ThinkingHöher in dieser Tabelle
MMLU-Pro87,587,1DeepSeek V4-Pro-Max
SimpleQA-Verified57,936,9DeepSeek V4-Pro-Max
Chinese-SimpleQA84,475,9DeepSeek V4-Pro-Max
GPQA Diamond90,190,5Kimi K2.6 Thinking
HLE37,736,4DeepSeek V4-Pro-Max

In genau dieser Tabelle liegt DeepSeek V4-Pro-Max bei MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA und HLE vor Kimi K2.6 Thinking; Kimi K2.6 Thinking liegt bei GPQA Diamond knapp vorn [16]. Für eine Vier-Wege-Rangliste reicht das trotzdem nicht, weil dieselbe Tabelle nicht Claude Opus 4.7 und GPT-5.5 enthält, sondern unter anderem Opus-4.6 Max und GPT-5.4 xHigh [16].

Kosten, Latenz und Open Weights: Kimi hat auffällige Betriebswerte

Vals AI nennt für GPT-5.5 eine Accuracy von 67,76 % ± 1,79, eine Latenz von 409,09 s und ein Context Window von 1M [31]. Für Kimi K2.6 weist Vals AI eine Accuracy von 63,94 % ± 1,97, eine Latenz von 373,57 s und Kosten von 0,21 US-Dollar pro Test aus [39]. Vergleicht man nur diese beiden Vals-Einträge, liegt GPT-5.5 beim ausgewiesenen Genauigkeitswert höher, während Kimi K2.6 den niedrigeren Latenzwert zeigt [31][39].

Für Nutzerinnen und Nutzer, die Open-Weights-Modelle betrachten, ist Kimi K2.6 zusätzlich interessant. Artificial Analysis beschreibt Moonshots Kimi K2.6 als führendes Open-Weights-Modell und nennt einen Artificial Analysis Intelligence Index von 54 sowie Gesamtrang 4 [36]. Aber auch hier gilt: Der Artificial-Analysis-Wert 54, die Vals Accuracy 63,94 % und BenchLM 85/100 sind verschiedene Skalen und sollten nicht zu einem künstlichen Gesamtscore addiert werden [36][37][39].

Was das für die Modellauswahl bedeutet

  • Wenn automatische Codekorrektur, Software-Engineering und Coding-Agenten im Mittelpunkt stehen, ist Claude Opus 4.7 in den vorliegenden Daten der naheliegende erste Prüfpunkt: SWE-bench Verified 82,4 % und BenchLM 97/100 sind die klarsten öffentlichen Signale [2][3].
  • Wenn es um Wissensarbeit, Computerbedienung und komplexe Kundensupport-Flows geht, liefern die GPT-5.5-Werte auf GDPval, OSWorld-Verified und Tau2-bench Telecom die direktesten offiziellen Anhaltspunkte [29].
  • Wenn wissenschaftliche Fragen, Mathematik und anspruchsvolles Reasoning entscheidend sind, lohnt der Blick auf DeepSeek V4-Pro-Max und Kimi K2.6 Thinking, insbesondere über MMLU-Pro, GPQA Diamond und HLE [15][16].
  • Wenn Open Weights, Betriebskosten und Latenz eine große Rolle spielen, sind Kimi K2.6s Artificial-Analysis-Einstufung und die Vals-Angaben zu 0,21 US-Dollar/Test sowie 373,57 s Latenz wichtige Referenzpunkte [36][39].
  • Wenn jemand eine Rangliste nur mit MMLU begründet, ist Vorsicht angebracht: 2026 drängen sich Topmodelle in diesem Test in einem engen Hochscore-Bereich, was die Aussagekraft reduziert [22].

Fazit: Keine Krone, sondern ein Einsatzprofil

Aus den öffentlich belegten Daten ergibt sich kein seriöser Gesamtsieger über alle Achsen hinweg. Claude Opus 4.7 wirkt besonders stark bei Coding und im BenchLM-Ausschnitt; GPT-5.5 ist sehr konkret für Wissensarbeit, Computerbedienung und Agenten-Workflows dokumentiert; DeepSeek V4-Pro-Max bringt auffällige Reasoning- und Mathematikwerte mit; Kimi K2.6 punktet vor allem im Open-Weights- und Betriebsdaten-Kontext [2][3][15][16][28][29][36][37][39].

Die beste Praxis ist daher nicht, eine globale Platzierung zu übernehmen. Sinnvoller ist ein eigener Test mit den Aufgaben, die wirklich anfallen: Code-Reparaturen, Finanzdokumente, Browser- oder Desktop-Steuerung, Kundensupport, lange Agentenläufe oder wissenschaftliche Fragen. Benchmarks sind dafür ein guter Startpunkt – aber sie ersetzen nicht den Test unter den eigenen Produktionsbedingungen [8][22].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • Eine saubere Rangliste von Platz 1 bis 4 lässt sich aus den öffentlichen Daten nicht ableiten: BenchLM, Vals AI, Herstellerangaben und interne Benchmarks messen unterschiedliche Dinge [3][28][31].
  • Claude Opus 4.7 sticht mit BenchLM 97/100 und SWE bench Verified 82,4 % hervor; GPT 5.5 liefert konkrete offizielle Agentenwerte wie GDPval 84,9 %, OSWorld Verified 78,7 % und Tau2 bench Telecom 98,0 % [2][3][29].
  • DeepSeek V4 Pro Max wird mit MMLU Pro 87,5 % und GPQA Diamond 90,1 % genannt, Kimi K2.6 mit BenchLM 85/100, Vals Accuracy 63,94 % ± 1,97 und 0,21 US Dollar/Test – doch die Bewertungsrahmen sind nicht identisch [15][37...

사람들은 또한 묻습니다.

"Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6: Warum 2026 kein Benchmark-Sieger reicht"에 대한 짧은 대답은 무엇입니까?

Eine saubere Rangliste von Platz 1 bis 4 lässt sich aus den öffentlichen Daten nicht ableiten: BenchLM, Vals AI, Herstellerangaben und interne Benchmarks messen unterschiedliche Dinge [3][28][31].

먼저 검증할 핵심 포인트는 무엇인가요?

Eine saubere Rangliste von Platz 1 bis 4 lässt sich aus den öffentlichen Daten nicht ableiten: BenchLM, Vals AI, Herstellerangaben und interne Benchmarks messen unterschiedliche Dinge [3][28][31]. Claude Opus 4.7 sticht mit BenchLM 97/100 und SWE bench Verified 82,4 % hervor; GPT 5.5 liefert konkrete offizielle Agentenwerte wie GDPval 84,9 %, OSWorld Verified 78,7 % und Tau2 bench Telecom 98,0 % [2][3][29].

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4 Pro Max wird mit MMLU Pro 87,5 % und GPQA Diamond 90,1 % genannt, Kimi K2.6 mit BenchLM 85/100, Vals Accuracy 63,94 % ± 1,97 und 0,21 US Dollar/Test – doch die Bewertungsrahmen sind nicht identisch [15][37...

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 벤치마크를 조사하고 가능한 한 종합적으로 비교해 주세요.

Studio Global AI40 소스

인용 답변

제공된 근거만으로는 네 모델을 동등한 수준으로 “종합 벤치마크 비교”하기에는 자료가 크게 부족합니다. 확인 가능한 정량 벤치마크는 사실상 Claude Opus 4.7에 집중되어 있고, GPT-5.5·DeepSeek V4·Kimi K2.6은 제공 근거 안에서 직접 비교 가능한 공식 점수나 일관된 벤치마크 결과가 없습니다. 따라서 아래 비교는 “확인 가능한 것”과 “증거 부족”을 명확히 나누어 정리합니다.

Key findings

  • Claude Opus 4.7은 제공된 자료 중 유일하게 구체적인 벤치마크 수치가 확인되는 모델입니다. SWE-bench Verified에서 82.4%를 기록했고, 이는 Opus 4.6 대비 약 11점 상승한 것으로 제시됩니다 [6].

  • Claude Opus 4.7은 BenchLM 기준 provisional leaderboard에서 110개 모델 중 2위, overall score 97/100으로 제시되며, verified leaderboard에서도 14개 모델 중 2위로 언급됩니다 [7].

  • Claude Opus 4.7은 비전 관련 개선 폭이 컸고, MathVista가 9.5점 상승했다는 자료가 있습니다 [6].

  • Kimi K2.6은 Vals AI의 모델 목록에서 Moonshot AI 모델로 확인되며, 제공된 스니펫에는 2026년 4월 20일 항목으로 표시됩니다 [5]. 다만 이 근거에는 Kimi K2.6의 실제 벤치마크 점수가 포함되어 있지 않습니다 [5].

  • Claude Opus 4.7 역시 Vals AI 목록에서 Anthropic 모델로 확인되며, 제공된 스니펫에는 2026년 4월 16일 항목으로 표시됩니다 [5].

  • GPT-5.5에 대해서는 제공된 근거 안에 직접적인 벤치마크 점수, 공식 발표, 리더보드 결과가 없습니다. Insufficient evidence.

  • DeepSeek V4에 대해서는 제공된 근거 중 Reddit 스니펫이 있으나, 해당 스니펫은 로컬 호스팅과 운영상 조언에 가까우며 비교 가능한 벤치마크 수치를 제공하지 않습니다 [40]. Insufficient evidence.

비교 표

모델확인 가능한 벤치마크 / 순위강점으로 볼 수 있는 영역증거 수준
Claude Opus 4.7SWE-bench Verified 82.4% [6]; BenchLM provisional 2/110, 97/100 [7]; verified 2/14 [7]코딩, 비전 수학 추론, 종합 리더보드 성능 [6][7]상대적으로 높음
GPT-5.5제공 근거 내 직접 점수 없음판단 불가Insufficient evidence
DeepSeek V4제공 근거 내 직접 점수 없음판단 불가Insufficient evidence
Kimi K2.6모델 목록 및 날짜 항목은 확인되나 점수 없음 [5]판단 불가낮음

벤치마크별 해석

  • SWE-bench Verified 기준으로는 Claude Opus 4.7만 비교 가능한 수치가 있습니다. Claude Opus 4.7의 82.4%는 제공 자료상 Opus 4.6 대비 약 11점 개선된 결과로 제시됩니다 [6].

  • 종합 리더보드 기준으로도 Claude Opus 4.7만 명확한 순위가 있습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 제시합니다 [7].

  • 비전·수학 영역에서는 Claude Opus 4.7의 MathVista 점수가 9.5점 상승했다는 자료가 있으나, GPT-5.5·DeepSeek V4·Kimi K2.6의 동등 지표가 제공되지 않아 상대 비교는 불가능합니다 [6].

  • 일반 지식·추론 벤치마크는 2026년 기준 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등이 주요 평가로 언급됩니다 [2]. 다만 MMLU는 상위 모델들이 이미 88% 이상을 기록해 2026년에는 변별력이 약하다는 지적이 있습니다 [3].

Evidence notes

  • Stanford HAI의 2026 AI Index 기술 성능 자료는 ImageNet, VQA, SuperGLUE, SQuAD 2.0 등 여러 벤치마크에서 AI 성능이 인간 성능과 비교되는 장기 추세를 다룹니다 [1]. 이는 개별 네 모델의 직접 비교 자료라기보다는 벤치마크 해석의 배경 자료에 가깝습니다 [1].

  • Kili Technology 자료는 2026년 주요 벤치마크로 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등을 언급하면서 벤치마크만으로 모델 성능을 충분히 설명하기 어렵다고 설명합니다 [2].

  • Nanonets 자료는 MMLU가 5-shot 방식으로 계산된다는 점과, 상위 모델들이 88% 이상을 기록하면서 2026년에는 변별력이 낮아졌다는 점을 지적합니다 [3].

  • DeepSeek V4 관련 제공 근거는 Reddit 스니펫뿐이며, 신뢰도 높은 공식·학술·독립 리더보드 근거가 아닙니다 [40].

Limitations / uncertainty

  • GPT-5.5, DeepSeek V4, Kimi K2.6에 대해 제공된 근거만으로는 SWE-bench, GPQA, MMLU-Pro, AIME, MathVista, Arena Elo 같은 동일 벤치마크 축에서 점수를 비교할 수 없습니다. Insufficient evidence.

  • Claude Opus 4.7의 수치도 출처별로 평가 방법과 리더보드 산식이 다를 수 있으므로, BenchLM의 97/100 및 순위와 SWE-bench Verified 82.4%는 서로 다른 평가 체계의 결과로 해석해야 합니다 [6][7].

  • Kimi K2.6은 모델 존재와 날짜 항목은 확인되지만, 제공 근거 안에는 성능 점수가 없습니다 [5]. Insufficient evidence.

  • DeepSeek V4는 제공 근거 안에서 벤치마크 수치가 확인되지 않습니다 [40]. Insufficient evidence.

Summary

현재 제공된 증거만 놓고 보면 Claude Opus 4.7이 네 모델 중 유일하게 구체적이고 비교 가능한 성능 자료를 갖고 있습니다. Claude Opus 4.7은 SWE-bench Verified 82.4%, BenchLM provisional 2위/110개 모델, overall score 97/100으로 제시되어 코딩과 종합 평가에서 매우 강한 모델로 볼 수 있습니다 [6][7].

반면 GPT-5.5, DeepSeek V4, Kimi K2.6은 제공 근거 안에서 직접 벤치마크 점수가 없으므로 Claude Opus 4.7보다 높다거나 낮다고 결론낼 수 없습니다. Insufficient evidence.

출처

  • [2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai

    Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...

  • [3] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...

  • [7] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [8] AI Benchmarks 2026: Top Evaluations and Their Limitskili-technology.com

    Image 2: Kili Technology.png) Kili Technology · Apr 13, 2026 Image 3: AI Benchmarks Guide: The Top Evaluations in 2026 and Why They're Not Enough Table of contents Introduction What Are the Most Important AI Benchmarks in 2026? General knowledge and reasoni...

  • [13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu

    Technical Performance Benchmarks vs. Human Performance 76 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0% 20% 40% 60% 80% 100% 120% Image classiLJcation (ImageNet Top-5) Visual reasoning (VQA) English language understanding (SuperGLU...

  • [15] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    DeepSeek V4 Benchmarks According to DeepSeek’s internal results, DeepSeek V4 demonstrates impressive performance, particularly when pushed to its maximum reasoning limits (DeepSeek-V4-Pro-Max). According to the official release notes, here is how the model...

  • [16] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...

  • [19] DeepSeek V4 - Vals AIvals.ai

    Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Release date Models 4/23/2026 DeepSeek DeepSeek V4 4/23/2026 OpenAI GPT 5.5 4/20/2026 Moonshot AI Kimi K2.6 4/16/2026 Anthropic Claude...

  • [22] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com

    How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...

  • [28] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...

  • [29] Introducing GPT-5.5 - OpenAIopenai.com

    GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...

  • [31] GPT 5.5 - Vals AIvals.ai

    2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...

  • [35] Kimi K2.6 on GMI Cloud: Architecture, Benchmarks & API Accessgmicloud.ai

    Kimi K2.6 tops SWE-Bench Pro and runs 300 parallel sub-agents on 4x H100S. Learn the full architecture, benchmark results, and how to run it ... 3 days ago

  • [36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    Moonshot's Kimi K2.6 is the new leading open weights model. Kimi K2.6 lands at 4 on the Artificial Analysis Intelligence Index (54) behind ... 5 days ago

  • [37] Kimi 2.6 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Kimi 2.6 by Moonshot AI scores 85/100 on BenchLM's provisional leaderboard ( 12 of 115) with 27 published benchmark scores currently shown ... 6 days ago

  • [39] Kimi K2.6 - Vals AIvals.ai

    Kimi K2.6. Release Date: 4/20/2026. Vals Index. Accuracy (Vals Index). 63.94% ± 1.97. Latency (Vals Index). 373.57s. Cost/Test (Vals Index). $0.21.

Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6: Warum 2026 kein Benchmark-Sieger reicht | 심층 연구 | Studio Global