ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 und DeepSeek V4 im Benchmark-Vergleich

Kein Modell gewinnt alles: GPT 5.5 führt in ARC AGI 2 mit 85 % gegenüber 75,8 % für Claude und in Terminal Bench 2.0 mit 82,7 %; Claude Opus 4.7 liegt bei HLE Basiswerten und SWE Bench Pro vorn.[1][3][9] Kimi K2.6 ist ein starker Coding und Agentic Kandidat: 54 im Artificial Analysis Ausschnitt und 87 im Coding Benc...

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.
openai.com

Aus den vorliegenden Benchmark-Daten lässt sich kein seriöser Gesamtsieger ableiten. Die Tabellen decken nicht überall dieselben Modelle ab, und selbst bei derselben Modellfamilie tauchen unterschiedliche Modi auf: GPT-5.5 medium, GPT-5.5 xHigh/Codex, GPT-5.5 Pro, Claude Opus 4.7 non-reasoning high oder DeepSeek V4 Pro/Flash. Trotzdem ist das Bild für die Praxis brauchbar: GPT-5.5 punktet besonders bei ARC und Terminal-Aufgaben, Claude Opus 4.7 bei HLE und SWE-Bench Pro, Kimi K2.6 als Coding-/Agentic-Modell mit Open-Weight-Option, DeepSeek V4 eher über Preis-Leistung als über Spitzenwerte.^[1]^[2]^[3]^[4]^[6]^[8]^[9]^[13]

Kurzfazit: Wo welches Modell vorne liegt

GPT-5.5 ist der naheliegende Startpunkt für ARC-Aufgaben und Terminal-/Shell-getriebene Agenten: DocsBot nennt 85 % auf ARC-AGI-2 gegenüber 75,8 % für Claude Opus 4.7; VentureBeat nennt 82,7 % auf Terminal-Bench 2.0 gegenüber 69,4 % bei Claude und 67,9 % bei DeepSeek.^[1]^[3]
Claude Opus 4.7 wirkt am stärksten, wenn schwieriges Reasoning und Code-Review-ähnliche Software-Engineering-Tests zählen: VentureBeat sieht Claude bei Humanity’s Last Exam ohne Tools und mit Tools vor dem Basiswert von GPT-5.5 und vor DeepSeek; DataCamp nennt 64,3 % auf SWE-Bench Pro gegenüber 58,6 % bei GPT-5.5 und 55,4 % bei DeepSeek V4 Pro.^[3]^[9]
Kimi K2.6 ist ein ernstzunehmender Coding-/Agentic-Kandidat, aber nicht in jeder Quelle direkt mit allen drei anderen Modellen vergleichbar: Im Artificial-Analysis-Ausschnitt erreicht Kimi 54, GPT-5.5 medium 57 und Claude Opus 4.7 non-reasoning high 52; im AkitaOnRails-Coding-Benchmark erreicht Kimi 87.^[13]^[8]
DeepSeek V4 ist in diesen Quellen weniger Benchmark-König als Kostenargument: Mashable nennt 1,74 US-Dollar pro 1 Mio. Input-Token und 3,48 US-Dollar pro 1 Mio. Output-Token, gegenüber 5/30 US-Dollar bei GPT-5.5 und 5/25 US-Dollar bei Claude Opus 4.7.^[2]

Die wichtigsten Benchmark-Zeilen im Überblick

Ein Strich bedeutet: Im bereitgestellten Quellenausschnitt gibt es keinen direkt vergleichbaren Wert für dieses Modell.

Benchmark / Quelle	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Lesart
ARC-AGI-2, DocsBot	85 %	75,8 %	—	—	GPT-5.5 liegt 9,2 Prozentpunkte vor Claude.^[1]
ARC-AGI-1, DocsBot	95 %	93,5 %	—	—	GPT-5.5 liegt leicht vor Claude.^[1]
Artificial Analysis Leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 non-reasoning high	54	—	In diesem Ausschnitt liegt GPT-5.5 vor Kimi und dem genannten Claude-Modus; DeepSeek V4 ist dort nicht sichtbar.^[13]
Humanity’s Last Exam ohne Tools, VentureBeat	41,4 %	46,9 %	—	37,7 %	Claude führt unter den gezeigten Basiswerten.^[3]
Humanity’s Last Exam mit Tools, VentureBeat	52,2 %; GPT-5.5 Pro: 57,2 %	54,7 %	—	48,2 %	Claude liegt vor GPT-5.5, aber die separate GPT-5.5-Pro-Zeile liegt höher.^[3]
Terminal-Bench 2.0, VentureBeat	82,7 %	69,4 %	—	67,9 %	Der deutlichste GPT-5.5-Vorsprung in dieser Auswahl.^[3]
SWE-Bench Pro, DataCamp	58,6 %	64,3 %	—	55,4 %, DeepSeek V4 Pro	Claude liegt vor GPT-5.5 und DeepSeek V4 Pro.^[9]
SWE-Bench Verified, Verdent	—	87,6 %	80,2 %	—	Claude liegt in diesem Coding-Ausschnitt vor Kimi.^[6]
Coding-Benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude und GPT-5.5 liegen fast gleichauf; Kimi liegt vor beiden DeepSeek-V4-Zeilen.^[8]

Warum daraus kein absoluter Champion folgt

Die größte Falle ist der scheinbar einfache Score-Vergleich. Tatsächlich messen die Quellen nicht immer dasselbe: Artificial Analysis listet GPT-5.5 medium, Kimi K2.6 und Claude Opus 4.7 non-reasoning high; AkitaOnRails nutzt GPT-5.5 xHigh/Codex sowie getrennte Zeilen für DeepSeek V4 Flash und DeepSeek V4 Pro; VentureBeat unterscheidet zusätzlich zwischen GPT-5.5 und GPT-5.5 Pro.^[13]^[8]^[3]

Auch beim direkten Duell GPT-5.5 gegen Claude Opus 4.7 ist das Ergebnis nicht eindimensional. LLM Stats schreibt, dass auf zehn Benchmarks, die beide Anbieter melden, Claude Opus 4.7 in sechs vorne liegt und GPT-5.5 in vier; Claude-Vorteile häufen sich dort bei reasoning-lastigen und review-orientierten Tests, GPT-5.5-Vorteile bei lang laufendem Tool-Use und Shell-getriebenen Aufgaben.^[4]

GPT-5.5: stark bei ARC und Terminal-Agenten

Die klarsten Signale zugunsten von GPT-5.5 kommen aus ARC und Terminal-Bench. Bei ARC-AGI-2 erreicht GPT-5.5 85 %, Claude Opus 4.7 75,8 %; bei ARC-AGI-1 sind es 95 % für GPT-5.5 und 93,5 % für Claude.^[1] Auf Terminal-Bench 2.0 nennt VentureBeat 82,7 % für GPT-5.5, deutlich vor Claude Opus 4.7 mit 69,4 % und DeepSeek mit 67,9 %.^[3]

Auch Artificial Analysis setzt GPT-5.5 medium in dem verfügbaren Ausschnitt vor zwei Konkurrenten aus dieser Gruppe: 57 gegenüber 54 für Kimi K2.6 und 52 für Claude Opus 4.7 non-reasoning high.^[13] Das ist aber kein universelles Urteil über alle Modi und Aufgaben. Gerade LLM Stats zeigt, dass Claude Opus 4.7 in mehreren Reasoning- und Software-Engineering-Tests vor GPT-5.5 liegt.^[4]

Claude Opus 4.7: stark bei schwerem Reasoning und Software Engineering

Claude Opus 4.7 sieht dort besonders gut aus, wo komplexes Schlussfolgern und die Prüfung anspruchsvoller Codeänderungen gefragt sind. Bei Humanity’s Last Exam ohne Tools nennt VentureBeat 46,9 % für Claude, 41,4 % für GPT-5.5 und 37,7 % für DeepSeek; mit Tools sind es 54,7 % für Claude, 52,2 % für GPT-5.5 und 48,2 % für DeepSeek.^[3]

Bei SWE-Bench Pro führt DataCamp 64,3 % für Claude Opus 4.7, 58,6 % für GPT-5.5 und 55,4 % für DeepSeek V4 Pro auf.^[9] Das passt zur Einordnung von LLM Stats: Dort liegt Claude gegenüber GPT-5.5 unter anderem bei GPQA, HLE ohne Tools, HLE mit Tools, SWE-Bench Pro, MCP Atlas und FinanceAgent v1.1 vorn.^[4]

Kimi K2.6: Coding-Kandidat mit Open-Weight-Route

Kimi K2.6 lässt sich schwer in ein vollständiges Vierer-Ranking pressen, weil es nicht überall in denselben Tabellen auftaucht. Im Artificial-Analysis-Ausschnitt erreicht Kimi K2.6 den Wert 54, liegt damit unter GPT-5.5 medium mit 57, aber über Claude Opus 4.7 non-reasoning high mit 52.^[13]

Im Coding-Benchmark von AkitaOnRails erreicht Kimi K2.6 einen Score von 87. Das liegt unter Claude Opus 4.7 mit 97 und GPT-5.5 xHigh/Codex mit 96, aber über DeepSeek V4 Flash mit 78 und DeepSeek V4 Pro mit 69.^[8] In einem separaten Verdent-Vergleich zu SWE-Bench Verified werden 80,2 % für Kimi K2.6 und 87,6 % für Claude Opus 4.7 genannt.^[6]

Der besondere Produktwinkel bei Kimi ist die Open-Weight-Option. Verdent schreibt, dass die K2.6-Weights auf Hugging Face verfügbar sind und über vLLM, SGLang oder KTransformers laufen; als minimal praktikable Hardware-Konfiguration nennt die Quelle 4× H100 für die INT4-Variante bei reduziertem Kontext.^[6] Ein Hugging-Face-README nennt für Kimi K2.6 außerdem Agentic-Werte wie HLE-Full mit Tools 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 und MCPMark 55,9; diese Tabelle vergleicht Kimi jedoch vor allem mit GPT-5.4, Claude Opus 4.6 und Gemini 3.1 Pro, nicht mit dem vollständigen Viererfeld dieses Artikels.^[25]

DeepSeek V4: nicht der höchste Score, aber der günstigere Hebel

In den vorliegenden Quellen erscheint DeepSeek V4 meist als Value-Modell, nicht als Spitzenreiter nach Rohscore. Bei VentureBeat liegt DeepSeek hinter GPT-5.5 und Claude Opus 4.7 auf HLE ohne Tools, HLE mit Tools und Terminal-Bench 2.0.^[3] Bei DataCamp erreicht DeepSeek V4 Pro 55,4 % auf SWE-Bench Pro, gegenüber 58,6 % bei GPT-5.5 und 64,3 % bei Claude Opus 4.7.^[9] Bei AkitaOnRails liegen DeepSeek V4 Flash mit 78 und DeepSeek V4 Pro mit 69 unter Kimi K2.6, GPT-5.5 xHigh/Codex und Claude Opus 4.7 in derselben Tabelle.^[8]

Der Preis ändert aber die praktische Rechnung. Mashable nennt für DeepSeek V4 1,74 US-Dollar pro 1 Mio. Input-Token und 3,48 US-Dollar pro 1 Mio. Output-Token. Für GPT-5.5 werden 5 US-Dollar pro 1 Mio. Input-Token und 30 US-Dollar pro 1 Mio. Output-Token genannt, für Claude Opus 4.7 5 beziehungsweise 25 US-Dollar.^[2] Das macht DeepSeek nicht automatisch zum Benchmark-Sieger, kann es aber für große Mengen an Entwürfen, interne Evals oder weniger riskante Automatisierungen attraktiv machen.

Welche Modellwahl sich für welche Aufgabe anbietet

ARC, visuelles Reasoning und abstrakte Musteraufgaben: zuerst GPT-5.5 testen, weil es in der DocsBot-Gegenüberstellung bei ARC-AGI-2 und ARC-AGI-1 vor Claude Opus 4.7 liegt.^[1]
Hard Reasoning und HLE-ähnliche Aufgaben: zuerst Claude Opus 4.7 prüfen, wenn es um die Basiswerte geht; die separate GPT-5.5-Pro-Zeile liegt bei HLE mit Tools allerdings über Claude.^[3]
Terminal-Agenten, Shell-Workflows und Tool-Use: GPT-5.5 ist in diesen Quellen der stärkste erste Kandidat, vor allem wegen Terminal-Bench 2.0.^[3]^[4]
SWE-Bench Pro und review-lastiges Software Engineering: Claude Opus 4.7 zuerst evaluieren, weil DataCamp und LLM Stats beide einen Vorteil von Claude bei SWE-Bench Pro ausweisen.^[9]^[4]
Open-Weight- oder Self-Hosted-Szenarien: Kimi K2.6 testen, wenn der Weg über Hugging Face, vLLM, SGLang oder KTransformers wichtiger ist als ein reines API-Angebot.^[6]
Preisgetriebene High-Volume-Experimente: DeepSeek V4 in Betracht ziehen, wenn die Kosten pro Versuch wichtiger sind als der höchste Benchmark-Score.^[2]^[3]^[9]

Fazit

Nach den verfügbaren Benchmark-Daten bilden GPT-5.5 und Claude Opus 4.7 die stärkste Spitzengruppe, aber mit unterschiedlichen Profilen: GPT-5.5 überzeugt besonders bei ARC und Terminal-Bench, Claude Opus 4.7 bei HLE und SWE-Bench Pro.^[1]^[3]^[4]^[9] Kimi K2.6 bleibt ein spannender Coding-/Agentic-Kandidat, vor allem wenn Open Weights und Self-Hosting eine Rolle spielen, hat aber weniger direkte Vierer-Vergleiche.^[6]^[8]^[13] DeepSeek V4 liegt in diesen Daten häufiger unter den höchsten Rohwerten, kann dafür über die API-Kosten eine sehr rationale Wahl für preisbewusste Pilotprojekte sein.^[2]^[3]^[9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Kein Modell gewinnt alles: GPT 5.5 führt in ARC AGI 2 mit 85 % gegenüber 75,8 % für Claude und in Terminal Bench 2.0 mit 82,7 %; Claude Opus 4.7 liegt bei HLE Basiswerten und SWE Bench Pro vorn.[1][3][9]
Kimi K2.6 ist ein starker Coding und Agentic Kandidat: 54 im Artificial Analysis Ausschnitt und 87 im Coding Benchmark von AkitaOnRails, aber mit weniger direkten Vierer Vergleichen.[13][8]
DeepSeek V4 liegt in mehreren verfügbaren Zeilen unter den Spitzenwerten, ist aber deutlich günstiger: 1,74 US Dollar pro 1 Mio.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 und DeepSeek V4 im Benchmark-Vergleich»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

DeepSeek V4 liegt in mehreren verfügbaren Zeilen unter den Spitzenwerten, ist aber deutlich günstiger: 1,74 US Dollar pro 1 Mio.

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года

Claude Opus 4.7 против GPT-5.5, DeepSeek V4 и Kimi K2.6: кто сильнее по бенчмаркам

Northwest и Southeast timber: почему ответ — «larger; larger»

Почему при большей заменяемости Northwest и Southeast timber обе эластичности становятся larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek против OpenAI, Claude, Gemini и Grok: решат цена и доверие, а не рейтинги

Сможет ли DeepSeek обойти OpenAI, Claude, Gemini и Grok?

Illustration of an AI coding agent connected to cloud database and backup systems

Инцидент PocketOS: что на самом деле показывает история с Claude, Cursor и удалённой базой

Удаление базы PocketOS: урок не в том, что «ИИ сошёл с ума»

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 апр. 202627 источники

Цитируемый ответ

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis ^[5]^[6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 ^[3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно ^[7].

Источники

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...

Популярное в «Открыть»

ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 und DeepSeek V4 im Benchmark-Vergleich

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Kurzfazit: Wo welches Modell vorne liegt

GPT-5.5 ist der naheliegende Startpunkt für ARC-Aufgaben und Terminal-/Shell-getriebene Agenten: DocsBot nennt 85 % auf ARC-AGI-2 gegenüber 75,8 % für Claude Opus 4.7; VentureBeat nennt 82,7 % auf Terminal-Bench 2.0 gegenüber 69,4 % bei Claude und 67,9 % bei DeepSeek.^[1]^[3]
Claude Opus 4.7 wirkt am stärksten, wenn schwieriges Reasoning und Code-Review-ähnliche Software-Engineering-Tests zählen: VentureBeat sieht Claude bei Humanity’s Last Exam ohne Tools und mit Tools vor dem Basiswert von GPT-5.5 und vor DeepSeek; DataCamp nennt 64,3 % auf SWE-Bench Pro gegenüber 58,6 % bei GPT-5.5 und 55,4 % bei DeepSeek V4 Pro.^[3]^[9]
Kimi K2.6 ist ein ernstzunehmender Coding-/Agentic-Kandidat, aber nicht in jeder Quelle direkt mit allen drei anderen Modellen vergleichbar: Im Artificial-Analysis-Ausschnitt erreicht Kimi 54, GPT-5.5 medium 57 und Claude Opus 4.7 non-reasoning high 52; im AkitaOnRails-Coding-Benchmark erreicht Kimi 87.^[13]^[8]
DeepSeek V4 ist in diesen Quellen weniger Benchmark-König als Kostenargument: Mashable nennt 1,74 US-Dollar pro 1 Mio. Input-Token und 3,48 US-Dollar pro 1 Mio. Output-Token, gegenüber 5/30 US-Dollar bei GPT-5.5 und 5/25 US-Dollar bei Claude Opus 4.7.^[2]

Die wichtigsten Benchmark-Zeilen im Überblick

Ein Strich bedeutet: Im bereitgestellten Quellenausschnitt gibt es keinen direkt vergleichbaren Wert für dieses Modell.

Benchmark / Quelle	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Lesart
ARC-AGI-2, DocsBot	85 %	75,8 %	—	—	GPT-5.5 liegt 9,2 Prozentpunkte vor Claude.^[1]
ARC-AGI-1, DocsBot	95 %	93,5 %	—	—	GPT-5.5 liegt leicht vor Claude.^[1]
Artificial Analysis Leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 non-reasoning high	54	—	In diesem Ausschnitt liegt GPT-5.5 vor Kimi und dem genannten Claude-Modus; DeepSeek V4 ist dort nicht sichtbar.^[13]
Humanity’s Last Exam ohne Tools, VentureBeat	41,4 %	46,9 %	—	37,7 %	Claude führt unter den gezeigten Basiswerten.^[3]
Humanity’s Last Exam mit Tools, VentureBeat	52,2 %; GPT-5.5 Pro: 57,2 %	54,7 %	—	48,2 %	Claude liegt vor GPT-5.5, aber die separate GPT-5.5-Pro-Zeile liegt höher.^[3]
Terminal-Bench 2.0, VentureBeat	82,7 %	69,4 %	—	67,9 %	Der deutlichste GPT-5.5-Vorsprung in dieser Auswahl.^[3]
SWE-Bench Pro, DataCamp	58,6 %	64,3 %	—	55,4 %, DeepSeek V4 Pro	Claude liegt vor GPT-5.5 und DeepSeek V4 Pro.^[9]
SWE-Bench Verified, Verdent	—	87,6 %	80,2 %	—	Claude liegt in diesem Coding-Ausschnitt vor Kimi.^[6]
Coding-Benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude und GPT-5.5 liegen fast gleichauf; Kimi liegt vor beiden DeepSeek-V4-Zeilen.^[8]

Warum daraus kein absoluter Champion folgt

GPT-5.5: stark bei ARC und Terminal-Agenten

Claude Opus 4.7: stark bei schwerem Reasoning und Software Engineering

Kimi K2.6: Coding-Kandidat mit Open-Weight-Route

DeepSeek V4: nicht der höchste Score, aber der günstigere Hebel

Welche Modellwahl sich für welche Aufgabe anbietet

ARC, visuelles Reasoning und abstrakte Musteraufgaben: zuerst GPT-5.5 testen, weil es in der DocsBot-Gegenüberstellung bei ARC-AGI-2 und ARC-AGI-1 vor Claude Opus 4.7 liegt.^[1]
Hard Reasoning und HLE-ähnliche Aufgaben: zuerst Claude Opus 4.7 prüfen, wenn es um die Basiswerte geht; die separate GPT-5.5-Pro-Zeile liegt bei HLE mit Tools allerdings über Claude.^[3]
Terminal-Agenten, Shell-Workflows und Tool-Use: GPT-5.5 ist in diesen Quellen der stärkste erste Kandidat, vor allem wegen Terminal-Bench 2.0.^[3]^[4]
SWE-Bench Pro und review-lastiges Software Engineering: Claude Opus 4.7 zuerst evaluieren, weil DataCamp und LLM Stats beide einen Vorteil von Claude bei SWE-Bench Pro ausweisen.^[9]^[4]
Open-Weight- oder Self-Hosted-Szenarien: Kimi K2.6 testen, wenn der Weg über Hugging Face, vLLM, SGLang oder KTransformers wichtiger ist als ein reines API-Angebot.^[6]
Preisgetriebene High-Volume-Experimente: DeepSeek V4 in Betracht ziehen, wenn die Kosten pro Versuch wichtiger sind als der höchste Benchmark-Score.^[2]^[3]^[9]

Fazit

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Kein Modell gewinnt alles: GPT 5.5 führt in ARC AGI 2 mit 85 % gegenüber 75,8 % für Claude und in Terminal Bench 2.0 mit 82,7 %; Claude Opus 4.7 liegt bei HLE Basiswerten und SWE Bench Pro vorn.[1][3][9]
Kimi K2.6 ist ein starker Coding und Agentic Kandidat: 54 im Artificial Analysis Ausschnitt und 87 im Coding Benchmark von AkitaOnRails, aber mit weniger direkten Vierer Vergleichen.[13][8]
DeepSeek V4 liegt in mehreren verfügbaren Zeilen unter den Spitzenwerten, ist aber deutlich günstiger: 1,74 US Dollar pro 1 Mio.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 und DeepSeek V4 im Benchmark-Vergleich»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

DeepSeek V4 liegt in mehreren verfügbaren Zeilen unter den Spitzenwerten, ist aber deutlich günstiger: 1,74 US Dollar pro 1 Mio.

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года

Claude Opus 4.7 против GPT-5.5, DeepSeek V4 и Kimi K2.6: кто сильнее по бенчмаркам

Northwest и Southeast timber: почему ответ — «larger; larger»

Почему при большей заменяемости Northwest и Southeast timber обе эластичности становятся larger

DeepSeek против OpenAI, Claude, Gemini и Grok: решат цена и доверие, а не рейтинги

Сможет ли DeepSeek обойти OpenAI, Claude, Gemini и Grok?

Инцидент PocketOS: что на самом деле показывает история с Claude, Cursor и удалённой базой

Удаление базы PocketOS: урок не в том, что «ИИ сошёл с ума»

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 апр. 202627 источники

Цитируемый ответ

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Источники

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...

Популярное в «Открыть»

ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 und DeepSeek V4 im Benchmark-Vergleich

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Kurzfazit: Wo welches Modell vorne liegt

GPT-5.5 ist der naheliegende Startpunkt für ARC-Aufgaben und Terminal-/Shell-getriebene Agenten: DocsBot nennt 85 % auf ARC-AGI-2 gegenüber 75,8 % für Claude Opus 4.7; VentureBeat nennt 82,7 % auf Terminal-Bench 2.0 gegenüber 69,4 % bei Claude und 67,9 % bei DeepSeek.^[1]^[3]
Claude Opus 4.7 wirkt am stärksten, wenn schwieriges Reasoning und Code-Review-ähnliche Software-Engineering-Tests zählen: VentureBeat sieht Claude bei Humanity’s Last Exam ohne Tools und mit Tools vor dem Basiswert von GPT-5.5 und vor DeepSeek; DataCamp nennt 64,3 % auf SWE-Bench Pro gegenüber 58,6 % bei GPT-5.5 und 55,4 % bei DeepSeek V4 Pro.^[3]^[9]
Kimi K2.6 ist ein ernstzunehmender Coding-/Agentic-Kandidat, aber nicht in jeder Quelle direkt mit allen drei anderen Modellen vergleichbar: Im Artificial-Analysis-Ausschnitt erreicht Kimi 54, GPT-5.5 medium 57 und Claude Opus 4.7 non-reasoning high 52; im AkitaOnRails-Coding-Benchmark erreicht Kimi 87.^[13]^[8]
DeepSeek V4 ist in diesen Quellen weniger Benchmark-König als Kostenargument: Mashable nennt 1,74 US-Dollar pro 1 Mio. Input-Token und 3,48 US-Dollar pro 1 Mio. Output-Token, gegenüber 5/30 US-Dollar bei GPT-5.5 und 5/25 US-Dollar bei Claude Opus 4.7.^[2]

Die wichtigsten Benchmark-Zeilen im Überblick

Ein Strich bedeutet: Im bereitgestellten Quellenausschnitt gibt es keinen direkt vergleichbaren Wert für dieses Modell.

Benchmark / Quelle	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Lesart
ARC-AGI-2, DocsBot	85 %	75,8 %	—	—	GPT-5.5 liegt 9,2 Prozentpunkte vor Claude.^[1]
ARC-AGI-1, DocsBot	95 %	93,5 %	—	—	GPT-5.5 liegt leicht vor Claude.^[1]
Artificial Analysis Leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 non-reasoning high	54	—	In diesem Ausschnitt liegt GPT-5.5 vor Kimi und dem genannten Claude-Modus; DeepSeek V4 ist dort nicht sichtbar.^[13]
Humanity’s Last Exam ohne Tools, VentureBeat	41,4 %	46,9 %	—	37,7 %	Claude führt unter den gezeigten Basiswerten.^[3]
Humanity’s Last Exam mit Tools, VentureBeat	52,2 %; GPT-5.5 Pro: 57,2 %	54,7 %	—	48,2 %	Claude liegt vor GPT-5.5, aber die separate GPT-5.5-Pro-Zeile liegt höher.^[3]
Terminal-Bench 2.0, VentureBeat	82,7 %	69,4 %	—	67,9 %	Der deutlichste GPT-5.5-Vorsprung in dieser Auswahl.^[3]
SWE-Bench Pro, DataCamp	58,6 %	64,3 %	—	55,4 %, DeepSeek V4 Pro	Claude liegt vor GPT-5.5 und DeepSeek V4 Pro.^[9]
SWE-Bench Verified, Verdent	—	87,6 %	80,2 %	—	Claude liegt in diesem Coding-Ausschnitt vor Kimi.^[6]
Coding-Benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude und GPT-5.5 liegen fast gleichauf; Kimi liegt vor beiden DeepSeek-V4-Zeilen.^[8]

Warum daraus kein absoluter Champion folgt

GPT-5.5: stark bei ARC und Terminal-Agenten

Claude Opus 4.7: stark bei schwerem Reasoning und Software Engineering

Kimi K2.6: Coding-Kandidat mit Open-Weight-Route

DeepSeek V4: nicht der höchste Score, aber der günstigere Hebel

Welche Modellwahl sich für welche Aufgabe anbietet

ARC, visuelles Reasoning und abstrakte Musteraufgaben: zuerst GPT-5.5 testen, weil es in der DocsBot-Gegenüberstellung bei ARC-AGI-2 und ARC-AGI-1 vor Claude Opus 4.7 liegt.^[1]
Hard Reasoning und HLE-ähnliche Aufgaben: zuerst Claude Opus 4.7 prüfen, wenn es um die Basiswerte geht; die separate GPT-5.5-Pro-Zeile liegt bei HLE mit Tools allerdings über Claude.^[3]
Terminal-Agenten, Shell-Workflows und Tool-Use: GPT-5.5 ist in diesen Quellen der stärkste erste Kandidat, vor allem wegen Terminal-Bench 2.0.^[3]^[4]
SWE-Bench Pro und review-lastiges Software Engineering: Claude Opus 4.7 zuerst evaluieren, weil DataCamp und LLM Stats beide einen Vorteil von Claude bei SWE-Bench Pro ausweisen.^[9]^[4]
Open-Weight- oder Self-Hosted-Szenarien: Kimi K2.6 testen, wenn der Weg über Hugging Face, vLLM, SGLang oder KTransformers wichtiger ist als ein reines API-Angebot.^[6]
Preisgetriebene High-Volume-Experimente: DeepSeek V4 in Betracht ziehen, wenn die Kosten pro Versuch wichtiger sind als der höchste Benchmark-Score.^[2]^[3]^[9]

Fazit

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Kein Modell gewinnt alles: GPT 5.5 führt in ARC AGI 2 mit 85 % gegenüber 75,8 % für Claude und in Terminal Bench 2.0 mit 82,7 %; Claude Opus 4.7 liegt bei HLE Basiswerten und SWE Bench Pro vorn.[1][3][9]
Kimi K2.6 ist ein starker Coding und Agentic Kandidat: 54 im Artificial Analysis Ausschnitt und 87 im Coding Benchmark von AkitaOnRails, aber mit weniger direkten Vierer Vergleichen.[13][8]
DeepSeek V4 liegt in mehreren verfügbaren Zeilen unter den Spitzenwerten, ist aber deutlich günstiger: 1,74 US Dollar pro 1 Mio.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 und DeepSeek V4 im Benchmark-Vergleich»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

DeepSeek V4 liegt in mehreren verfügbaren Zeilen unter den Spitzenwerten, ist aber deutlich günstiger: 1,74 US Dollar pro 1 Mio.

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 апр. 202627 источники

Цитируемый ответ

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Источники

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...