studioglobal
Популярное в «Открыть»
ОтчетыОпубликовано9 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 und DeepSeek V4 im Benchmark-Vergleich

Kein Modell gewinnt alles: GPT 5.5 führt in ARC AGI 2 mit 85 % gegenüber 75,8 % für Claude und in Terminal Bench 2.0 mit 82,7 %; Claude Opus 4.7 liegt bei HLE Basiswerten und SWE Bench Pro vorn.[1][3][9] Kimi K2.6 ist ein starker Coding und Agentic Kandidat: 54 im Artificial Analysis Ausschnitt und 87 im Coding Benc...

17K0
Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
Промпт ИИ

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.

openai.com

Aus den vorliegenden Benchmark-Daten lässt sich kein seriöser Gesamtsieger ableiten. Die Tabellen decken nicht überall dieselben Modelle ab, und selbst bei derselben Modellfamilie tauchen unterschiedliche Modi auf: GPT-5.5 medium, GPT-5.5 xHigh/Codex, GPT-5.5 Pro, Claude Opus 4.7 non-reasoning high oder DeepSeek V4 Pro/Flash. Trotzdem ist das Bild für die Praxis brauchbar: GPT-5.5 punktet besonders bei ARC und Terminal-Aufgaben, Claude Opus 4.7 bei HLE und SWE-Bench Pro, Kimi K2.6 als Coding-/Agentic-Modell mit Open-Weight-Option, DeepSeek V4 eher über Preis-Leistung als über Spitzenwerte.[1][2][3][4][6][8][9][13]

Kurzfazit: Wo welches Modell vorne liegt

  • GPT-5.5 ist der naheliegende Startpunkt für ARC-Aufgaben und Terminal-/Shell-getriebene Agenten: DocsBot nennt 85 % auf ARC-AGI-2 gegenüber 75,8 % für Claude Opus 4.7; VentureBeat nennt 82,7 % auf Terminal-Bench 2.0 gegenüber 69,4 % bei Claude und 67,9 % bei DeepSeek.[1][3]
  • Claude Opus 4.7 wirkt am stärksten, wenn schwieriges Reasoning und Code-Review-ähnliche Software-Engineering-Tests zählen: VentureBeat sieht Claude bei Humanity’s Last Exam ohne Tools und mit Tools vor dem Basiswert von GPT-5.5 und vor DeepSeek; DataCamp nennt 64,3 % auf SWE-Bench Pro gegenüber 58,6 % bei GPT-5.5 und 55,4 % bei DeepSeek V4 Pro.[3][9]
  • Kimi K2.6 ist ein ernstzunehmender Coding-/Agentic-Kandidat, aber nicht in jeder Quelle direkt mit allen drei anderen Modellen vergleichbar: Im Artificial-Analysis-Ausschnitt erreicht Kimi 54, GPT-5.5 medium 57 und Claude Opus 4.7 non-reasoning high 52; im AkitaOnRails-Coding-Benchmark erreicht Kimi 87.[13][8]
  • DeepSeek V4 ist in diesen Quellen weniger Benchmark-König als Kostenargument: Mashable nennt 1,74 US-Dollar pro 1 Mio. Input-Token und 3,48 US-Dollar pro 1 Mio. Output-Token, gegenüber 5/30 US-Dollar bei GPT-5.5 und 5/25 US-Dollar bei Claude Opus 4.7.[2]

Die wichtigsten Benchmark-Zeilen im Überblick

Ein Strich bedeutet: Im bereitgestellten Quellenausschnitt gibt es keinen direkt vergleichbaren Wert für dieses Modell.

Benchmark / QuelleGPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4Lesart
ARC-AGI-2, DocsBot85 %75,8 %GPT-5.5 liegt 9,2 Prozentpunkte vor Claude.[1]
ARC-AGI-1, DocsBot95 %93,5 %GPT-5.5 liegt leicht vor Claude.[1]
Artificial Analysis Leaderboard57, GPT-5.5 medium52, Claude Opus 4.7 non-reasoning high54In diesem Ausschnitt liegt GPT-5.5 vor Kimi und dem genannten Claude-Modus; DeepSeek V4 ist dort nicht sichtbar.[13]
Humanity’s Last Exam ohne Tools, VentureBeat41,4 %46,9 %37,7 %Claude führt unter den gezeigten Basiswerten.[3]
Humanity’s Last Exam mit Tools, VentureBeat52,2 %; GPT-5.5 Pro: 57,2 %54,7 %48,2 %Claude liegt vor GPT-5.5, aber die separate GPT-5.5-Pro-Zeile liegt höher.[3]
Terminal-Bench 2.0, VentureBeat82,7 %69,4 %67,9 %Der deutlichste GPT-5.5-Vorsprung in dieser Auswahl.[3]
SWE-Bench Pro, DataCamp58,6 %64,3 %55,4 %, DeepSeek V4 ProClaude liegt vor GPT-5.5 und DeepSeek V4 Pro.[9]
SWE-Bench Verified, Verdent87,6 %80,2 %Claude liegt in diesem Coding-Ausschnitt vor Kimi.[6]
Coding-Benchmark, AkitaOnRails96, GPT-5.5 xHigh/Codex978778, V4 Flash; 69, V4 ProClaude und GPT-5.5 liegen fast gleichauf; Kimi liegt vor beiden DeepSeek-V4-Zeilen.[8]

Warum daraus kein absoluter Champion folgt

Die größte Falle ist der scheinbar einfache Score-Vergleich. Tatsächlich messen die Quellen nicht immer dasselbe: Artificial Analysis listet GPT-5.5 medium, Kimi K2.6 und Claude Opus 4.7 non-reasoning high; AkitaOnRails nutzt GPT-5.5 xHigh/Codex sowie getrennte Zeilen für DeepSeek V4 Flash und DeepSeek V4 Pro; VentureBeat unterscheidet zusätzlich zwischen GPT-5.5 und GPT-5.5 Pro.[13][8][3]

Auch beim direkten Duell GPT-5.5 gegen Claude Opus 4.7 ist das Ergebnis nicht eindimensional. LLM Stats schreibt, dass auf zehn Benchmarks, die beide Anbieter melden, Claude Opus 4.7 in sechs vorne liegt und GPT-5.5 in vier; Claude-Vorteile häufen sich dort bei reasoning-lastigen und review-orientierten Tests, GPT-5.5-Vorteile bei lang laufendem Tool-Use und Shell-getriebenen Aufgaben.[4]

GPT-5.5: stark bei ARC und Terminal-Agenten

Die klarsten Signale zugunsten von GPT-5.5 kommen aus ARC und Terminal-Bench. Bei ARC-AGI-2 erreicht GPT-5.5 85 %, Claude Opus 4.7 75,8 %; bei ARC-AGI-1 sind es 95 % für GPT-5.5 und 93,5 % für Claude.[1] Auf Terminal-Bench 2.0 nennt VentureBeat 82,7 % für GPT-5.5, deutlich vor Claude Opus 4.7 mit 69,4 % und DeepSeek mit 67,9 %.[3]

Auch Artificial Analysis setzt GPT-5.5 medium in dem verfügbaren Ausschnitt vor zwei Konkurrenten aus dieser Gruppe: 57 gegenüber 54 für Kimi K2.6 und 52 für Claude Opus 4.7 non-reasoning high.[13] Das ist aber kein universelles Urteil über alle Modi und Aufgaben. Gerade LLM Stats zeigt, dass Claude Opus 4.7 in mehreren Reasoning- und Software-Engineering-Tests vor GPT-5.5 liegt.[4]

Claude Opus 4.7: stark bei schwerem Reasoning und Software Engineering

Claude Opus 4.7 sieht dort besonders gut aus, wo komplexes Schlussfolgern und die Prüfung anspruchsvoller Codeänderungen gefragt sind. Bei Humanity’s Last Exam ohne Tools nennt VentureBeat 46,9 % für Claude, 41,4 % für GPT-5.5 und 37,7 % für DeepSeek; mit Tools sind es 54,7 % für Claude, 52,2 % für GPT-5.5 und 48,2 % für DeepSeek.[3]

Bei SWE-Bench Pro führt DataCamp 64,3 % für Claude Opus 4.7, 58,6 % für GPT-5.5 und 55,4 % für DeepSeek V4 Pro auf.[9] Das passt zur Einordnung von LLM Stats: Dort liegt Claude gegenüber GPT-5.5 unter anderem bei GPQA, HLE ohne Tools, HLE mit Tools, SWE-Bench Pro, MCP Atlas und FinanceAgent v1.1 vorn.[4]

Kimi K2.6: Coding-Kandidat mit Open-Weight-Route

Kimi K2.6 lässt sich schwer in ein vollständiges Vierer-Ranking pressen, weil es nicht überall in denselben Tabellen auftaucht. Im Artificial-Analysis-Ausschnitt erreicht Kimi K2.6 den Wert 54, liegt damit unter GPT-5.5 medium mit 57, aber über Claude Opus 4.7 non-reasoning high mit 52.[13]

Im Coding-Benchmark von AkitaOnRails erreicht Kimi K2.6 einen Score von 87. Das liegt unter Claude Opus 4.7 mit 97 und GPT-5.5 xHigh/Codex mit 96, aber über DeepSeek V4 Flash mit 78 und DeepSeek V4 Pro mit 69.[8] In einem separaten Verdent-Vergleich zu SWE-Bench Verified werden 80,2 % für Kimi K2.6 und 87,6 % für Claude Opus 4.7 genannt.[6]

Der besondere Produktwinkel bei Kimi ist die Open-Weight-Option. Verdent schreibt, dass die K2.6-Weights auf Hugging Face verfügbar sind und über vLLM, SGLang oder KTransformers laufen; als minimal praktikable Hardware-Konfiguration nennt die Quelle 4× H100 für die INT4-Variante bei reduziertem Kontext.[6] Ein Hugging-Face-README nennt für Kimi K2.6 außerdem Agentic-Werte wie HLE-Full mit Tools 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 und MCPMark 55,9; diese Tabelle vergleicht Kimi jedoch vor allem mit GPT-5.4, Claude Opus 4.6 und Gemini 3.1 Pro, nicht mit dem vollständigen Viererfeld dieses Artikels.[25]

DeepSeek V4: nicht der höchste Score, aber der günstigere Hebel

In den vorliegenden Quellen erscheint DeepSeek V4 meist als Value-Modell, nicht als Spitzenreiter nach Rohscore. Bei VentureBeat liegt DeepSeek hinter GPT-5.5 und Claude Opus 4.7 auf HLE ohne Tools, HLE mit Tools und Terminal-Bench 2.0.[3] Bei DataCamp erreicht DeepSeek V4 Pro 55,4 % auf SWE-Bench Pro, gegenüber 58,6 % bei GPT-5.5 und 64,3 % bei Claude Opus 4.7.[9] Bei AkitaOnRails liegen DeepSeek V4 Flash mit 78 und DeepSeek V4 Pro mit 69 unter Kimi K2.6, GPT-5.5 xHigh/Codex und Claude Opus 4.7 in derselben Tabelle.[8]

Der Preis ändert aber die praktische Rechnung. Mashable nennt für DeepSeek V4 1,74 US-Dollar pro 1 Mio. Input-Token und 3,48 US-Dollar pro 1 Mio. Output-Token. Für GPT-5.5 werden 5 US-Dollar pro 1 Mio. Input-Token und 30 US-Dollar pro 1 Mio. Output-Token genannt, für Claude Opus 4.7 5 beziehungsweise 25 US-Dollar.[2] Das macht DeepSeek nicht automatisch zum Benchmark-Sieger, kann es aber für große Mengen an Entwürfen, interne Evals oder weniger riskante Automatisierungen attraktiv machen.

Welche Modellwahl sich für welche Aufgabe anbietet

  • ARC, visuelles Reasoning und abstrakte Musteraufgaben: zuerst GPT-5.5 testen, weil es in der DocsBot-Gegenüberstellung bei ARC-AGI-2 und ARC-AGI-1 vor Claude Opus 4.7 liegt.[1]
  • Hard Reasoning und HLE-ähnliche Aufgaben: zuerst Claude Opus 4.7 prüfen, wenn es um die Basiswerte geht; die separate GPT-5.5-Pro-Zeile liegt bei HLE mit Tools allerdings über Claude.[3]
  • Terminal-Agenten, Shell-Workflows und Tool-Use: GPT-5.5 ist in diesen Quellen der stärkste erste Kandidat, vor allem wegen Terminal-Bench 2.0.[3][4]
  • SWE-Bench Pro und review-lastiges Software Engineering: Claude Opus 4.7 zuerst evaluieren, weil DataCamp und LLM Stats beide einen Vorteil von Claude bei SWE-Bench Pro ausweisen.[9][4]
  • Open-Weight- oder Self-Hosted-Szenarien: Kimi K2.6 testen, wenn der Weg über Hugging Face, vLLM, SGLang oder KTransformers wichtiger ist als ein reines API-Angebot.[6]
  • Preisgetriebene High-Volume-Experimente: DeepSeek V4 in Betracht ziehen, wenn die Kosten pro Versuch wichtiger sind als der höchste Benchmark-Score.[2][3][9]

Fazit

Nach den verfügbaren Benchmark-Daten bilden GPT-5.5 und Claude Opus 4.7 die stärkste Spitzengruppe, aber mit unterschiedlichen Profilen: GPT-5.5 überzeugt besonders bei ARC und Terminal-Bench, Claude Opus 4.7 bei HLE und SWE-Bench Pro.[1][3][4][9] Kimi K2.6 bleibt ein spannender Coding-/Agentic-Kandidat, vor allem wenn Open Weights und Self-Hosting eine Rolle spielen, hat aber weniger direkte Vierer-Vergleiche.[6][8][13] DeepSeek V4 liegt in diesen Daten häufiger unter den höchsten Rohwerten, kann dafür über die API-Kosten eine sehr rationale Wahl für preisbewusste Pilotprojekte sein.[2][3][9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

  • Kein Modell gewinnt alles: GPT 5.5 führt in ARC AGI 2 mit 85 % gegenüber 75,8 % für Claude und in Terminal Bench 2.0 mit 82,7 %; Claude Opus 4.7 liegt bei HLE Basiswerten und SWE Bench Pro vorn.[1][3][9]
  • Kimi K2.6 ist ein starker Coding und Agentic Kandidat: 54 im Artificial Analysis Ausschnitt und 87 im Coding Benchmark von AkitaOnRails, aber mit weniger direkten Vierer Vergleichen.[13][8]
  • DeepSeek V4 liegt in mehreren verfügbaren Zeilen unter den Spitzenwerten, ist aber deutlich günstiger: 1,74 US Dollar pro 1 Mio.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 und DeepSeek V4 im Benchmark-Vergleich»?

Kein Modell gewinnt alles: GPT 5.5 führt in ARC AGI 2 mit 85 % gegenüber 75,8 % für Claude und in Terminal Bench 2.0 mit 82,7 %; Claude Opus 4.7 liegt bei HLE Basiswerten und SWE Bench Pro vorn.[1][3][9]

Какие ключевые моменты необходимо проверить в первую очередь?

Kein Modell gewinnt alles: GPT 5.5 führt in ARC AGI 2 mit 85 % gegenüber 75,8 % für Claude und in Terminal Bench 2.0 mit 82,7 %; Claude Opus 4.7 liegt bei HLE Basiswerten und SWE Bench Pro vorn.[1][3][9] Kimi K2.6 ist ein starker Coding und Agentic Kandidat: 54 im Artificial Analysis Ausschnitt und 87 im Coding Benchmark von AkitaOnRails, aber mit weniger direkten Vierer Vergleichen.[13][8]

Что мне делать дальше на практике?

DeepSeek V4 liegt in mehreren verfügbaren Zeilen unter den Spitzenwerten, ist aber deutlich günstiger: 1,74 US Dollar pro 1 Mio.

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI27 источники

Цитируемый ответ

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

МодельЧто есть по бенчмаркам в доступных данныхВывод
GPT-5.585% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium [5][6]Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.775.8% на ARC-AGI-2 против 85% у GPT-5.5 [5]В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.654 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [6][3]Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам [7]Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

  • На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта [5].

  • В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе [6].

  • Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [3].

  • Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя [7].

Evidence notes

  • Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% [5].

  • Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 [6].

  • Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках [3].

Limitations / uncertainty

  • Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.

  • Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score [7].

  • Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis [5][6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 [3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно [7].

Источники