BerichteVeröffentlicht28. Apr. 2026Last edited 6. Mai 202610 Quellen

GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 im Benchmark-Vergleich

GPT 5.5 ist in den verfügbaren Quellen der beste belegte Allrounder: 60 Punkte im Artificial Analysis Index und 84,4 % bei BrowseComp. Claude Opus 4.7 liegt bei SWE Bench Pro mit 64,3 % vor GPT 5.5 mit 58,6 % und bei GPQA Diamond mit 94,2 % knapp vor GPT 5.5 mit 93,6 %; GPT 5.5 führt dafür bei Terminal Bench 2.0 mit...

Suchen und Fakten prüfen mit Studio Global AI Mehr von Entdecken ansehen

17K0

Abstrakte Illustration eines KI-Benchmark-Dashboards mit mehreren konkurrierenden Sprachmodellen — GPT-5.5 vsKI-generierte redaktionelle Illustration zu einem Vergleich aktueller Sprachmodell-Benchmarks.
KI-Prompt
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Benchmark-Vergleich. Article summary: GPT 5.5 ist in den verfügbaren Quellen der stärkste belegte Allrounder: Es führt den Artificial Analysis Index mit 60 Punkten in der xhigh Konfiguration und liegt bei BrowseComp mit 84,4 % vor Claude Opus 4.7.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB
openai.com

Eine einfache Siegerliste wäre hier irreführend. Die verfügbaren Quellen prüfen GPT-5.5, Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 nicht in einem einheitlichen unabhängigen Testlauf, sondern liefern Ausschnitte aus verschiedenen Benchmarks, Modellvarianten und Anbieter- oder Sekundäranalysen ^[2]^[3]^[7]^[21]. Trotzdem ergibt sich ein brauchbares Muster: GPT-5.5 hat die stärkste belegte Gesamtposition, Claude Opus 4.7 gewinnt mehrere wichtige Coding- und Wissenswerte, DeepSeek V4 ist preislich auffällig stark und Kimi K2.6 bleibt mangels direkter Vergleichswerte schwer zu ranken ^[1]^[2]^[3]^[7]^[22]^[24].

Das faire Kurzurteil

GPT-5.5 ist der stärkste belegte Allrounder. Im verfügbaren Artificial-Analysis-Ausschnitt steht GPT-5.5 in der xhigh-Konfiguration mit 60 Punkten vor GPT-5.5 high mit 59 Punkten und Claude Opus 4.7 mit 57 Punkten ^[2]. Bei BrowseComp erreicht GPT-5.5 84,4 %, während DeepSeek V4 mit 83,4 % knapp dahinter und Claude Opus 4.7 mit 79,3 % dahinter liegt ^[3].

Claude Opus 4.7 ist besonders stark bei Software und Wissen. Claude liegt bei SWE-Bench Pro mit 64,3 % vor GPT-5.5 mit 58,6 % und bei GPQA Diamond mit 94,2 % knapp vor GPT-5.5 mit 93,6 % ^[22]^[24]. Gleichzeitig führt GPT-5.5 bei Terminal-Bench 2.0 deutlich mit 82,7 % gegenüber 69,4 % für Claude Opus 4.7 ^[22]^[24].

DeepSeek V4 ist der Preis-Leistungs-Angreifer. VentureBeat nennt für DeepSeek V4 83,4 % bei BrowseComp, nur einen Prozentpunkt unter GPT-5.5 und über Claude Opus 4.7 ^[3]. Mashable nennt zugleich API-Preise von 1,74 US-Dollar pro 1 Mio. Input-Tokens und 3,48 US-Dollar pro 1 Mio. Output-Tokens für DeepSeek V4, gegenüber 5/30 US-Dollar bei GPT-5.5 und 5/25 US-Dollar bei Claude Opus 4.7 ^[1].

Kimi K2.6 ist technisch interessant, aber in dieser Datenlage nicht fair zu ranken. DocsBot beschreibt Kimi K2.6 als open-source, nativ multimodales, agentisches Modell mit 1T-Parameter-MoE-Architektur, 32B aktivierten Parametern und 256K Kontext ^[7]. In den bereitgestellten Quellen fehlen jedoch genügend direkte Benchmarkwerte gegen GPT-5.5, Claude Opus 4.7 und DeepSeek V4, um Kimi sauber in dieselbe Rangliste zu setzen ^[7].

Vergleich auf einen Blick

Modell	Stärkste belegte Aussage	Wichtige Werte aus den Quellen	Praktische Einordnung
GPT-5.5	Führt den verfügbaren Artificial-Analysis-Index-Ausschnitt an ^[2]	Intelligence Index: 60 xhigh, 59 high ^[2]; BrowseComp: 84,4 %, GPT-5.5 Pro: 90,1 % ^[3]; Terminal-Bench 2.0: 82,7 % ^[22]^[24]	Bester belegter Allround-Startpunkt, aber kein Sieger in jeder Einzeldisziplin
Claude Opus 4.7	Sehr stark bei SWE-Bench, GPQA und einzelnen agentischen Aufgaben ^[20]^[22]^[24]	Intelligence Index: 57 ^[2]; SWE-Bench Pro: 64,3 % ^[22]^[24]; SWE-Bench Verified: 87,6 % ^[20]; GPQA Diamond: 94,2 % ^[22]	Besonders interessant für Coding, Review, Wissens- und Finanzaufgaben
DeepSeek V4	Kommt bei BrowseComp fast an GPT-5.5 heran ^[3]	BrowseComp: 83,4 % ^[3]; API-Preis: 1,74 US-Dollar Input und 3,48 US-Dollar Output pro 1 Mio. Tokens ^[1]	Starker Kandidat, wenn Kosten und Web-/Rechercheleistung wichtiger sind als ein vollständiger Benchmark-Sieg
Kimi K2.6	Als offenes, multimodales, agentisches Modell mit langem Kontext beschrieben ^[7]	1T-Parameter-MoE, 32B aktivierte Parameter, 256K Kontext laut DocsBot ^[7]	Technisch prüfenswert, aber anhand dieser Quellen nicht sauber numerisch vergleichbar

Warum diese Zahlen nicht wie eine Sporttabelle funktionieren

Die wichtigste Einschränkung ist die Datenlage. DataCamp weist in einem verwandten Frontier-Modellvergleich darauf hin, dass Benchmarkwerte teils vendor-reported sind und unterschiedliche Harness-Konfigurationen nutzen können ^[21]. Das gilt als Warnsignal für jede harte Rangliste: Ein Modell kann in einer Konfiguration vorn liegen und in einer anderen zurückfallen.

Auch die Modellvarianten sind nicht immer identisch. Artificial Analysis nennt GPT-5.5 xhigh, GPT-5.5 high und Claude Opus 4.7 mit Adaptive Reasoning und Max Effort ^[2]. VentureBeat bezieht sich bei DeepSeek auf DeepSeek-V4-Pro-Max ^[3]. Solche Unterschiede können Benchmarks beeinflussen, insbesondere bei Reasoning-, Coding- und Agentenaufgaben, bei denen Tool-Nutzung, Denkaufwand und Testharness viel ausmachen.

Deshalb ist die bessere Frage nicht nur: Welches Modell ist Nummer eins? Sondern: Für welchen Workload ist welches Modell am besten belegt?

Gesamtleistung: GPT-5.5 führt im verfügbaren Intelligence Index

Der klarste Gesamtindikator in den Quellen ist der Artificial-Analysis-Intelligence-Index-Ausschnitt. Dort steht GPT-5.5 xhigh mit 60 Punkten auf Rang 1, GPT-5.5 high mit 59 Punkten auf Rang 2 und Claude Opus 4.7 mit Adaptive Reasoning und Max Effort mit 57 Punkten auf Rang 3 ^[2].

Dieser Ausschnitt stützt einen leichten, aber sichtbaren Vorsprung von GPT-5.5 gegenüber Claude Opus 4.7 in diesem Index ^[2]. Für DeepSeek V4 und Kimi K2.6 liefert derselbe verfügbare Ausschnitt jedoch keine vollständigen, direkt zitierbaren Indexwerte für einen sauberen Vierer-Vergleich ^[2]^[7].

BrowseComp: DeepSeek V4 ist fast auf GPT-5.5-Niveau

BrowseComp ist der stärkste direkt zitierbare Dreiervergleich zwischen GPT-5.5, Claude Opus 4.7 und DeepSeek V4. VentureBeat nennt 90,1 % für GPT-5.5 Pro, 84,4 % für GPT-5.5, 83,4 % für DeepSeek V4 und 79,3 % für Claude Opus 4.7 ^[3].

Modell oder Variante	BrowseComp-Wert	Einordnung
GPT-5.5 Pro	90,1 %	Klar vorn in diesem Ausschnitt ^[3]
GPT-5.5	84,4 %	Knapp vor DeepSeek V4 ^[3]
DeepSeek V4	83,4 %	Nur 1,0 Prozentpunkt hinter GPT-5.5 ^[3]
Claude Opus 4.7	79,3 %	Hinter GPT-5.5 und DeepSeek V4 ^[3]
Kimi K2.6	Kein direkt vergleichbarer Wert in den bereitgestellten Quellen	Nicht fair rankbar ^[7]

VentureBeat bewertet DeepSeek-V4-Pro-Max trotz dieses starken Werts nicht als Modell, das GPT-5.5 oder Claude Opus 4.7 auf den direkt vergleichbaren Benchmarks insgesamt entthront ^[3]. Die bessere Lesart lautet daher: DeepSeek V4 ist bei BrowseComp sehr nah an GPT-5.5, aber aus diesem einen starken Benchmark folgt kein Gesamtsieg ^[3].

Coding und Software Engineering: Claude gewinnt SWE, GPT gewinnt Terminal

Bei Coding-Benchmarks gibt es keinen eindeutigen Gesamtsieger. Claude Opus 4.7 liegt bei SWE-Bench Pro mit 64,3 % vor GPT-5.5 mit 58,6 % ^[22]^[24]. Vellum nennt außerdem 87,6 % für Claude Opus 4.7 auf SWE-Bench Verified ^[20]. Bei Terminal-Bench 2.0 dreht sich das Bild: GPT-5.5 erreicht 82,7 %, Claude Opus 4.7 69,4 % ^[22]^[24].

Benchmark	GPT-5.5	Claude Opus 4.7	Aussage
SWE-Bench Pro	58,6 %	64,3 %	Claude vorn ^[22]^[24]
SWE-Bench Verified	Kein direkt zitierter GPT-5.5-Wert in den bereitgestellten Quellen	87,6 %	Starker Claude-Wert, aber kein vollständiger Vierer-Vergleich ^[20]
Terminal-Bench 2.0	82,7 %	69,4 %	GPT-5.5 deutlich vorn ^[22]^[24]

Für DeepSeek V4 und Kimi K2.6 reichen die bereitgestellten Quellen in diesem Bereich nicht für dieselbe tabellarische Einordnung. VentureBeat sagt zwar, DeepSeek V4 komme auf mehreren direkt vergleichbaren Benchmarks nahe an die Spitzenmodelle heran, nennt im verfügbaren Ausschnitt aber die klarsten Zahlen für BrowseComp ^[3]. Für Kimi K2.6 liefert DocsBot vor allem Modell- und Architekturangaben, nicht die vollständige Vergleichsmatrix gegen alle drei anderen Modelle ^[7].

Reasoning, Wissen und professionelle Aufgaben: wechselnde Führung

Bei Wissens- und Reasoning-Tests liegen GPT-5.5 und Claude Opus 4.7 eng beieinander, aber die Führung hängt vom Benchmark und Tool-Setup ab. Bei GPQA Diamond nennt Vellum 93,6 % für GPT-5.5 und 94,2 % für Claude Opus 4.7 ^[22]. Mashable nennt dieselben GPQA-Diamond-Werte und ergänzt Humanity’s Last Exam: ohne Tools liegt GPT-5.5 mit 40,6 % vor Claude Opus 4.7 mit 31,2 %, mit Tools liegt Claude Opus 4.7 mit 54,7 % knapp vor GPT-5.5 mit 52,2 % ^[8].

Benchmark	GPT-5.5	Claude Opus 4.7	Sieger in den verfügbaren Zahlen
GPQA Diamond	93,6 %	94,2 %	Claude Opus 4.7 knapp ^[8]^[22]
Humanity’s Last Exam	40,6 %	31,2 %	GPT-5.5 ^[8]
Humanity’s Last Exam mit Tools	52,2 %	54,7 %	Claude Opus 4.7 knapp ^[8]

Bei professionellen und agentischen Benchmarks ist das Bild ebenfalls gemischt. Vellum nennt GPT-5.5 mit 84,9 % bei GDPval gegenüber 80,3 % für Claude Opus 4.7, 78,7 % bei OSWorld-Verified gegenüber 78,0 % und 75,3 % bei MCP Atlas gegenüber 79,1 % für Claude ^[22]. OpenAI nennt für FinanceAgent v1.1 60,0 % bei GPT-5.5 und 64,4 % bei Claude Opus 4.7 ^[24].

Benchmark	GPT-5.5	Claude Opus 4.7	Aussage
GDPval	84,9 %	80,3 %	GPT-5.5 vorn ^[22]^[24]
OSWorld-Verified	78,7 %	78,0 %	GPT-5.5 knapp vorn ^[22]
MCP Atlas	75,3 %	79,1 %	Claude Opus 4.7 vorn ^[22]
FinanceAgent v1.1	60,0 %	64,4 %	Claude Opus 4.7 vorn ^[24]

Anthropic verweist zusätzlich auf einen internen Research-Agent-Benchmark, in dem Claude Opus 4.7 laut Anthropic bei sechs Modulen den höchsten Gesamtscore von 0,715 teilte und im Modul General Finance 0,813 gegenüber 0,767 bei Opus 4.6 erreichte ^[6]. Da dieser Benchmark intern ist und die bereitgestellten Angaben nicht alle vier Modelle gleich abdecken, ist er eher ein Hinweis auf Claudes agentische Stärke als eine unabhängige Vierer-Rangliste ^[6].

Preis und Kontext: DeepSeek V4 fällt am stärksten auf

Für produktive Nutzung zählt nicht nur ein Benchmarkpunkt mehr oder weniger. Mashable nennt für DeepSeek V4 1,74 US-Dollar pro 1 Mio. Input-Tokens und 3,48 US-Dollar pro 1 Mio. Output-Tokens bei einem Kontextfenster von 1 Mio. Tokens ^[1]. Für GPT-5.5 nennt dieselbe Quelle 5 US-Dollar pro 1 Mio. Input-Tokens und 30 US-Dollar pro 1 Mio. Output-Tokens; für Claude Opus 4.7 5 US-Dollar Input und 25 US-Dollar Output pro 1 Mio. Tokens, jeweils ebenfalls mit 1 Mio. Kontext-Tokens ^[1].

Modell	Input-Preis pro 1 Mio. Tokens	Output-Preis pro 1 Mio. Tokens	Kontextangabe in der Quelle
DeepSeek V4	1,74 US-Dollar	3,48 US-Dollar	1 Mio. Tokens ^[1]
GPT-5.5	5 US-Dollar	30 US-Dollar	1 Mio. Tokens ^[1]
Claude Opus 4.7	5 US-Dollar	25 US-Dollar	1 Mio. Tokens ^[1]
Kimi K2.6	Keine belastbare Preisangabe in den bereitgestellten Quellen	Keine belastbare Preisangabe in den bereitgestellten Quellen	256K Tokens laut DocsBot ^[7]

Kimi K2.6 ist hier ein Sonderfall. DocsBot beschreibt das Modell mit 256K Kontext, 1T-Parameter-MoE-Architektur, 32B aktivierten Parametern und agentischer Orchestrierung bis zu 300 Sub-Agenten und 4.000 koordinierten Schritten ^[7]. Das sind relevante technische Eckdaten, ersetzen aber keine direkten Benchmark- und Preiswerte gegen GPT-5.5, Claude Opus 4.7 und DeepSeek V4 ^[7].

Welche Modellwahl ergibt sich daraus?

Wenn der Schwerpunkt ist …	Wahrscheinlich bester Startpunkt	Warum
Stärkste belegte Gesamtleistung	GPT-5.5	Führt den verfügbaren Intelligence-Index-Ausschnitt an und liegt bei BrowseComp vor Claude Opus 4.7 und knapp vor DeepSeek V4 ^[2]^[3]
SWE-Bench-orientiertes Software Engineering	Claude Opus 4.7	Liegt bei SWE-Bench Pro vor GPT-5.5 und wird mit 87,6 % auf SWE-Bench Verified genannt ^[20]^[22]^[24]
Terminal-, Computer- und agentische Ausführung	GPT-5.5	Führt bei Terminal-Bench 2.0 deutlich und liegt bei GDPval sowie OSWorld-Verified vor Claude Opus 4.7 ^[22]^[24]
Web-Recherche und niedrige API-Kosten	DeepSeek V4	Erreicht 83,4 % bei BrowseComp und hat in den zitierten Angaben deutlich niedrigere API-Preise ^[1]^[3]
Test eines offenen multimodalen Agentenmodells	Kimi K2.6	Wird als open-source, nativ multimodales, agentisches Modell mit 256K Kontext beschrieben, hat aber keine vollständige direkte Vergleichsbasis in den bereitgestellten Quellen ^[7]

Fazit

Der stärkste Befund ist nicht, dass ein Modell alles gewinnt. GPT-5.5 ist in den verfügbaren Quellen der beste belegte Allrounder, weil es den Artificial-Analysis-Ausschnitt anführt und bei BrowseComp sowie mehreren professionellen Benchmarks stark abschneidet ^[2]^[3]^[22]^[24]. Claude Opus 4.7 bleibt ein Spitzenmodell, besonders bei SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond und einzelnen agentischen Finanzaufgaben ^[20]^[22]^[24]. DeepSeek V4 ist der auffälligste Preis-Leistungs-Kandidat, weil es bei BrowseComp fast GPT-5.5 erreicht und in den zitierten API-Preisen deutlich günstiger ist ^[1]^[3]. Kimi K2.6 sollte anhand dieser Quellen weder auf- noch abgewertet werden: Es braucht für eine faire Einordnung direkte, vergleichbare Benchmark- und Preiswerte ^[7].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

GPT 5.5 ist in den verfügbaren Quellen der beste belegte Allrounder: 60 Punkte im Artificial Analysis Index und 84,4 % bei BrowseComp.
Claude Opus 4.7 liegt bei SWE Bench Pro mit 64,3 % vor GPT 5.5 mit 58,6 % und bei GPQA Diamond mit 94,2 % knapp vor GPT 5.5 mit 93,6 %; GPT 5.5 führt dafür bei Terminal Bench 2.0 mit 82,7 % gegen 69,4 % [22][24].
DeepSeek V4 ist der Preis Leistungs Kandidat: 83,4 % bei BrowseComp, nur 1,0 Prozentpunkt hinter GPT 5.5, bei deutlich niedrigeren zitierten API Preisen [1][3].

Die Leute fragen auch

Wie lautet die kurze Antwort auf „GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 im Benchmark-Vergleich“?

GPT 5.5 ist in den verfügbaren Quellen der beste belegte Allrounder: 60 Punkte im Artificial Analysis Index und 84,4 % bei BrowseComp.

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

DeepSeek V4 ist der Preis Leistungs Kandidat: 83,4 % bei BrowseComp, nur 1,0 Prozentpunkt hinter GPT 5.5, bei deutlich niedrigeren zitierten API Preisen [1][3].

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „KI für die Steuererklärung: Was in Deutschland wirklich hilft – und was riskant bleibt“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „KI im Studium oder Beruf nutzen: Was in Deutschland und der EU erlaubt ist“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

Zwei Personen sitzen am Strand und nutzen die ELSTER-Seiten auf dem Tablet.

KI für die Steuererklärung: Was in Deutschland wirklich hilft – und was riskant bleibt

Foto von einer sich windenden Straße durch eine hügelige Landschaft. Darunter der Text: Träumen, realistisch sehen, kritisch betrachten: Das KI-Lab ebnet den Weg zu mehr Chancengle

KI im Studium oder Beruf nutzen: Was in Deutschland und der EU erlaubt ist

Darf ich KI im Studium oder Beruf verwenden?

Symbolbild zu Verbraucherschutz und generativer KI

KI-Betrug erkennen: 7 Regeln gegen Deepfakes und falsche Anrufe

KI-Betrug erkennen: 7 Regeln gegen Deepfakes, falsche Anrufe und KI-Fehler

A horizontal bar chart comparing benchmark results of Claude Opus 4.7, Opus 4.6, GPT-5.4, and Gemini 3.1 Pro across various categories like SWE-bench Pro, SWE-bench Verified, OSWor

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026

Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6: benchmarks comparados

Forschungsgespräch

Du26. Apr. 2026

Forschungsfrage

Recherchieren Sie die Benchmarks von Claude Opus 4.7, GPT-5.5, DeepSeek V4 und Kimi K2.6 und vergleichen Sie sie so umfassend wie möglich im Format eines Forschungsberichts, damit alle sie leicht verstehen können.

Studio Global AI26. Apr. 202626 Quellen

Zitierte Antwort

Auf Basis der vorliegenden Belege wirkt GPT-5.5 insgesamt am stärksten belegt: Es führt im genannten „Intelligence Index“ und liegt auch bei BrowseComp vor Claude Opus 4.7 und knapp vor DeepSeek V4 ^[6]^[7]. DeepSeek V4 ist besonders auffällig, weil es bei BrowseComp Claude Opus 4.7 schlägt und GPT-5.5 fast erreicht, aber die verfügbaren Belege reichen nicht, um es insgesamt vor GPT-5.5 oder Claude Opus 4.7 einzuordnen ^[7]. Für Kimi K2.6 fehlen belastbare Zahlenwerte; hier ist die Evidenz deutlich schwächer ^[21].

Key findings

GPT-5.5 wird im verfügbaren Artificial-Analysis-Ausschnitt als Nummer 1 und 2 des „Intelligence Index“ geführt: GPT-5.5 „xhigh“ mit 60 Punkten und GPT-5.5 „high“ mit 59 Punkten ^[6].
Claude Opus 4.7 wird im selben Ausschnitt mit „Adaptive Reasoning, Max Effort“ bei 57 Punkten genannt und damit hinter GPT-5.5 xhigh und GPT-5.5 high eingeordnet ^[6].
Bei BrowseComp erreicht DeepSeek V4 laut verfügbarem Bericht 83,4 %, Claude Opus 4.7 79,3 % und GPT-5.5 84,4 %; GPT-5.5 Pro liegt mit 90,1 % deutlich höher ^[7].
DeepSeek V4 schlägt Claude Opus 4.7 in BrowseComp, liegt dort aber knapp hinter GPT-5.5 und klar hinter GPT-5.5 Pro ^[7].
Trotz des starken BrowseComp-Werts heißt es im verfügbaren Bericht, DeepSeek-V4-Pro-Max entthrone GPT-5.5 oder Claude Opus 4.7 auf den direkt vergleichbaren Benchmarks insgesamt nicht ^[7].
Für Claude Opus 4.7 liegen mehrere konkrete Benchmarkwerte vor: SWE-bench Pro 64,3 %, SWE-bench Verified 87,6 %, Terminal-Bench 69,4 % und GPQA Diamond 94,2 % ^[3].
Ein weiterer verfügbarer Benchmarkhinweis nennt Claude Opus 4.7 mit 82,7 % auf FinanceBench, allerdings stammt dieser Wert aus einem sekundären Blogkontext und sollte vorsichtig interpretiert werden ^[2].
Für Kimi K2.6 enthält die verfügbare Evidenz keine belastbaren numerischen Benchmarkwerte; ein Reddit-Beitrag behauptet lediglich, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dort auf Platz 2 ^[21].

Vergleichstabelle

Modell	Beste verfügbare Evidenz	Genannte Benchmarkwerte	Einordnung
GPT-5.5	Führt den „Intelligence Index“ in zwei Varianten ^[6]	Intelligence Index: 60 xhigh, 59 high; BrowseComp: 84,4 %; GPT-5.5 Pro BrowseComp: 90,1 % ^[6]^[7]	Stärkster belegt unter den vier Modellen, vor allem im Intelligence Index und bei BrowseComp ^[6]^[7]
Claude Opus 4.7	Platz 3 im genannten Intelligence Index-Ausschnitt ^[6]	Intelligence Index: 57; BrowseComp: 79,3 %; SWE-bench Pro: 64,3 %; SWE-bench Verified: 87,6 %; Terminal-Bench: 69,4 %; GPQA Diamond: 94,2 %; FinanceBench: 82,7 % ^[2]^[3]^[6]^[7]	Sehr stark belegt, aber in den verfügbaren Vergleichsdaten hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 ^[6]^[7]
DeepSeek V4	Sehr stark bei BrowseComp ^[7]	BrowseComp: 83,4 %; API-Preis: $1.74 pro 1 Mio. Input-Tokens und $3.48 pro 1 Mio. Output-Tokens ^[5]^[7]	Nahe an GPT-5.5 bei BrowseComp und besser als Claude Opus 4.7 in diesem Benchmark, aber nicht klarer Gesamtsieger ^[7]
Kimi K2.6	Nur schwacher Rankinghinweis aus Reddit ^[21]	Keine belastbaren Zahlenwerte in der bereitgestellten Evidenz ^[21]	Insufficient evidence: Keine solide numerische Einordnung möglich ^[21]

Benchmark-für-Benchmark-Vergleich

Intelligence Index

GPT-5.5 liegt im verfügbaren Ausschnitt des „Intelligence Index“ auf Platz 1 mit 60 Punkten in der xhigh-Konfiguration und auf Platz 2 mit 59 Punkten in der high-Konfiguration ^[6].
Claude Opus 4.7 liegt in der Konfiguration „Adaptive Reasoning, Max Effort“ bei 57 Punkten und wird damit hinter beiden GPT-5.5-Varianten genannt ^[6].
Für DeepSeek V4 und Kimi K2.6 werden im verfügbaren Ausschnitt keine konkreten Intelligence-Index-Werte genannt ^[6].

BrowseComp

GPT-5.5 erreicht bei BrowseComp 84,4 %, während GPT-5.5 Pro 90,1 % erreicht ^[7].
DeepSeek V4 erreicht bei BrowseComp 83,4 % und liegt damit sehr knapp hinter GPT-5.5, aber deutlich hinter GPT-5.5 Pro ^[7].
Claude Opus 4.7 erreicht bei BrowseComp 79,3 % und liegt damit hinter DeepSeek V4 und GPT-5.5 ^[7].
Kimi K2.6 hat in der bereitgestellten Evidenz keinen BrowseComp-Wert ^[7]^[21].

Coding- und Software-Benchmarks

Claude Opus 4.7 wird mit 64,3 % auf SWE-bench Pro und 87,6 % auf SWE-bench Verified angegeben ^[3].
Claude Opus 4.7 wird außerdem mit etwa 70 % auf CursorBench genannt, aber dieser Vergleich stammt aus einem Kontext zu GPT-5.4, nicht GPT-5.5 ^[4].
Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren SWE-bench-Pro- oder SWE-bench-Verified-Werte vor ^[3]^[4]^[7]^[21].
Ein Reddit-Beitrag behauptet, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dahinter auf Platz 2, aber dieser Beleg ist schwächer als die übrigen Quellen und enthält im Ausschnitt keine konkreten Prozentwerte ^[21].

Reasoning- und Wissens-Benchmarks

Claude Opus 4.7 wird mit 94,2 % auf GPQA Diamond angegeben ^[3].
Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren GPQA-Diamond-Werte vor ^[3]^[6]^[7]^[21].

FinanceBench

Claude Opus 4.7 wird in einem verfügbaren Blogausschnitt mit 82,7 % auf FinanceBench erwähnt ^[2].
Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine FinanceBench-Werte vor ^[2]^[5]^[7]^[21].

Preis- und Kontextvergleich

DeepSeek V4 wird mit $1.74 pro 1 Million Input-Tokens und $3.48 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben ^[5].
GPT-5.5 wird mit $5 pro 1 Million Input-Tokens und $30 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben ^[5].
Für Claude Opus 4.7 ist im verfügbaren Ausschnitt nur der Beginn einer Preisangabe erkennbar, aber kein vollständiger Output-Preis, daher reicht die Evidenz für einen vollständigen Kostenvergleich nicht aus ^[5].
Für Kimi K2.6 enthält die bereitgestellte Evidenz keinen Preiswert ^[5]^[21].

Verständliche Einordnung

Wenn man nur die verfügbaren Zahlen betrachtet, ist GPT-5.5 der sicherste Kandidat für die stärkste Gesamtleistung, weil es den genannten Intelligence Index anführt und bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 liegt ^[6]^[7].
DeepSeek V4 ist der stärkste Herausforderer in den verfügbaren Zahlen, weil es bei BrowseComp mit 83,4 % fast GPT-5.5 erreicht und Claude Opus 4.7 übertrifft ^[7].
Claude Opus 4.7 ist am breitesten mit konkreten Einzelbenchmarks belegt, vor allem in SWE-bench, Terminal-Bench, GPQA Diamond und FinanceBench ^[2]^[3].
Kimi K2.6 kann anhand der bereitgestellten Evidenz nicht fair numerisch mit den anderen drei Modellen verglichen werden, weil die einzige konkrete Aussage nur ein schwacher Reddit-Rankinghinweis ohne Zahlenwerte ist ^[21].

Evidence notes

Die stärksten quantitativen Vergleichsdaten in der bereitgestellten Evidenz sind der Intelligence-Index-Ausschnitt und der BrowseComp-Vergleich, weil sie mehrere der angefragten Modelle direkt nebeneinander nennen ^[6]^[7].
Die Claude-Opus-4.7-Werte zu SWE-bench Pro, SWE-bench Verified, Terminal-Bench und GPQA Diamond sind nützlich, aber sie erlauben keinen vollständigen Vier-Modell-Vergleich, weil entsprechende Werte für GPT-5.5, DeepSeek V4 und Kimi K2.6 in der Evidenz fehlen ^[3].
Der Kimi-K2.6-Hinweis ist deutlich schwächer, weil er aus einem Reddit-Beitrag stammt und im verfügbaren Ausschnitt keine numerischen Ergebnisse enthält ^[21].
Ein Vergleich mit GPT-5.4 ist nur indirekt relevant, weil die Nutzerfrage GPT-5.5 betrifft; die verfügbare Quelle nennt dort außerdem, dass Benchmarkwerte teils vendor-reported sind und unterschiedliche Harness-Konfigurationen nutzen ^[4].

Limitations / uncertainty

Insufficient evidence: Für Kimi K2.6 fehlen belastbare Benchmarkzahlen in der bereitgestellten Evidenz ^[21].
Insufficient evidence: Für GPT-5.5 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench, FinanceBench und Vibe Code ^[6]^[7].
Insufficient evidence: Für DeepSeek V4 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench und FinanceBench ^[5]^[7]^[21].
Die Modelle werden teils in unterschiedlichen Varianten oder Testmodi genannt, etwa GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 „Adaptive Reasoning, Max Effort“ und DeepSeek-V4-Pro-Max, wodurch ein 1:1-Vergleich nur eingeschränkt möglich ist ^[6]^[7].
Die bereitgestellte Evidenz enthält keine vollständigen offiziellen Modellkarten oder Primärquellen mit einheitlichem Benchmark-Setup für alle vier Modelle ^[1]^[3]^[6]^[7].

Summary

GPT-5.5: Beste belegte Gesamtposition, führt den Intelligence Index und liegt bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 ^[6]^[7].
DeepSeek V4: Sehr stark bei BrowseComp, knapp hinter GPT-5.5 und vor Claude Opus 4.7; außerdem deutlich günstiger als GPT-5.5 in der verfügbaren Preisangabe ^[5]^[7].
Claude Opus 4.7: Sehr gut dokumentiert mit vielen Einzelbenchmarks, aber in den direkt verfügbaren Vergleichszahlen hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 ^[2]^[3]^[6]^[7].
Kimi K2.6: Nicht seriös numerisch bewertbar, weil die bereitgestellte Evidenz nur einen schwachen Rankinghinweis ohne konkrete Zahlen enthält ^[21].

Quellen

[1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai
What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
BrowseComp is the standout: DeepSeek’s 83.4% beats Claude Opus 4.7’s 79.3% and nearly matches GPT-5.5’s 84.4%, though GPT-5.5 Pro’s 90.1% remains well ahead. So ultimately, DeepSeek-V4-Pro-Max does not appear to dethrone GPT-5.5 or Claude Opus 4.7 on the be...
[6] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[7] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai
Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...
[8] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[20] Claude Opus 4.7 Benchmarks Explained - Vellumvellum.ai
Is Claude Opus 4.7 the most powerful Claude model? No. Claude Mythos Preview is Anthropic's most capable model and leads Opus 4.7 on most benchmarks in the comparison table, including SWE-bench Pro (77.8% vs 64.3%), SWE-bench Verified (93.9% vs 87.6%), Term...
[21] Claude Opus 4.7 vs. GPT-5.4: Which Frontier Model Should You Use?datacamp.com
--- --- Benchmark Claude Opus 4.7 GPT-5.4 Notes SWE-bench Pro 64.3% 57.7% Vendor-reported; different harness configurations SWE-bench Verified 87.6% Not published OpenAI has not released an official score on this variant CursorBench 70% Not published Cursor...
[22] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

Trendthemen auf Entdecken

BerichteVeröffentlicht28. Apr. 2026Last edited 6. Mai 202610 Quellen

GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 im Benchmark-Vergleich

Suchen und Fakten prüfen mit Studio Global AI Mehr von Entdecken ansehen

17K0

Das faire Kurzurteil

Vergleich auf einen Blick

Modell	Stärkste belegte Aussage	Wichtige Werte aus den Quellen	Praktische Einordnung
GPT-5.5	Führt den verfügbaren Artificial-Analysis-Index-Ausschnitt an ^[2]	Intelligence Index: 60 xhigh, 59 high ^[2]; BrowseComp: 84,4 %, GPT-5.5 Pro: 90,1 % ^[3]; Terminal-Bench 2.0: 82,7 % ^[22]^[24]	Bester belegter Allround-Startpunkt, aber kein Sieger in jeder Einzeldisziplin
Claude Opus 4.7	Sehr stark bei SWE-Bench, GPQA und einzelnen agentischen Aufgaben ^[20]^[22]^[24]	Intelligence Index: 57 ^[2]; SWE-Bench Pro: 64,3 % ^[22]^[24]; SWE-Bench Verified: 87,6 % ^[20]; GPQA Diamond: 94,2 % ^[22]	Besonders interessant für Coding, Review, Wissens- und Finanzaufgaben
DeepSeek V4	Kommt bei BrowseComp fast an GPT-5.5 heran ^[3]	BrowseComp: 83,4 % ^[3]; API-Preis: 1,74 US-Dollar Input und 3,48 US-Dollar Output pro 1 Mio. Tokens ^[1]	Starker Kandidat, wenn Kosten und Web-/Rechercheleistung wichtiger sind als ein vollständiger Benchmark-Sieg
Kimi K2.6	Als offenes, multimodales, agentisches Modell mit langem Kontext beschrieben ^[7]	1T-Parameter-MoE, 32B aktivierte Parameter, 256K Kontext laut DocsBot ^[7]	Technisch prüfenswert, aber anhand dieser Quellen nicht sauber numerisch vergleichbar

Warum diese Zahlen nicht wie eine Sporttabelle funktionieren

Deshalb ist die bessere Frage nicht nur: Welches Modell ist Nummer eins? Sondern: Für welchen Workload ist welches Modell am besten belegt?

Gesamtleistung: GPT-5.5 führt im verfügbaren Intelligence Index

BrowseComp: DeepSeek V4 ist fast auf GPT-5.5-Niveau

Modell oder Variante	BrowseComp-Wert	Einordnung
GPT-5.5 Pro	90,1 %	Klar vorn in diesem Ausschnitt ^[3]
GPT-5.5	84,4 %	Knapp vor DeepSeek V4 ^[3]
DeepSeek V4	83,4 %	Nur 1,0 Prozentpunkt hinter GPT-5.5 ^[3]
Claude Opus 4.7	79,3 %	Hinter GPT-5.5 und DeepSeek V4 ^[3]
Kimi K2.6	Kein direkt vergleichbarer Wert in den bereitgestellten Quellen	Nicht fair rankbar ^[7]

Coding und Software Engineering: Claude gewinnt SWE, GPT gewinnt Terminal

Benchmark	GPT-5.5	Claude Opus 4.7	Aussage
SWE-Bench Pro	58,6 %	64,3 %	Claude vorn ^[22]^[24]
SWE-Bench Verified	Kein direkt zitierter GPT-5.5-Wert in den bereitgestellten Quellen	87,6 %	Starker Claude-Wert, aber kein vollständiger Vierer-Vergleich ^[20]
Terminal-Bench 2.0	82,7 %	69,4 %	GPT-5.5 deutlich vorn ^[22]^[24]

Reasoning, Wissen und professionelle Aufgaben: wechselnde Führung

Benchmark	GPT-5.5	Claude Opus 4.7	Sieger in den verfügbaren Zahlen
GPQA Diamond	93,6 %	94,2 %	Claude Opus 4.7 knapp ^[8]^[22]
Humanity’s Last Exam	40,6 %	31,2 %	GPT-5.5 ^[8]
Humanity’s Last Exam mit Tools	52,2 %	54,7 %	Claude Opus 4.7 knapp ^[8]

Benchmark	GPT-5.5	Claude Opus 4.7	Aussage
GDPval	84,9 %	80,3 %	GPT-5.5 vorn ^[22]^[24]
OSWorld-Verified	78,7 %	78,0 %	GPT-5.5 knapp vorn ^[22]
MCP Atlas	75,3 %	79,1 %	Claude Opus 4.7 vorn ^[22]
FinanceAgent v1.1	60,0 %	64,4 %	Claude Opus 4.7 vorn ^[24]

Preis und Kontext: DeepSeek V4 fällt am stärksten auf

Modell	Input-Preis pro 1 Mio. Tokens	Output-Preis pro 1 Mio. Tokens	Kontextangabe in der Quelle
DeepSeek V4	1,74 US-Dollar	3,48 US-Dollar	1 Mio. Tokens ^[1]
GPT-5.5	5 US-Dollar	30 US-Dollar	1 Mio. Tokens ^[1]
Claude Opus 4.7	5 US-Dollar	25 US-Dollar	1 Mio. Tokens ^[1]
Kimi K2.6	Keine belastbare Preisangabe in den bereitgestellten Quellen	Keine belastbare Preisangabe in den bereitgestellten Quellen	256K Tokens laut DocsBot ^[7]

Welche Modellwahl ergibt sich daraus?

Wenn der Schwerpunkt ist …	Wahrscheinlich bester Startpunkt	Warum
Stärkste belegte Gesamtleistung	GPT-5.5	Führt den verfügbaren Intelligence-Index-Ausschnitt an und liegt bei BrowseComp vor Claude Opus 4.7 und knapp vor DeepSeek V4 ^[2]^[3]
SWE-Bench-orientiertes Software Engineering	Claude Opus 4.7	Liegt bei SWE-Bench Pro vor GPT-5.5 und wird mit 87,6 % auf SWE-Bench Verified genannt ^[20]^[22]^[24]
Terminal-, Computer- und agentische Ausführung	GPT-5.5	Führt bei Terminal-Bench 2.0 deutlich und liegt bei GDPval sowie OSWorld-Verified vor Claude Opus 4.7 ^[22]^[24]
Web-Recherche und niedrige API-Kosten	DeepSeek V4	Erreicht 83,4 % bei BrowseComp und hat in den zitierten Angaben deutlich niedrigere API-Preise ^[1]^[3]
Test eines offenen multimodalen Agentenmodells	Kimi K2.6	Wird als open-source, nativ multimodales, agentisches Modell mit 256K Kontext beschrieben, hat aber keine vollständige direkte Vergleichsbasis in den bereitgestellten Quellen ^[7]

Fazit

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

GPT 5.5 ist in den verfügbaren Quellen der beste belegte Allrounder: 60 Punkte im Artificial Analysis Index und 84,4 % bei BrowseComp.
Claude Opus 4.7 liegt bei SWE Bench Pro mit 64,3 % vor GPT 5.5 mit 58,6 % und bei GPQA Diamond mit 94,2 % knapp vor GPT 5.5 mit 93,6 %; GPT 5.5 führt dafür bei Terminal Bench 2.0 mit 82,7 % gegen 69,4 % [22][24].
DeepSeek V4 ist der Preis Leistungs Kandidat: 83,4 % bei BrowseComp, nur 1,0 Prozentpunkt hinter GPT 5.5, bei deutlich niedrigeren zitierten API Preisen [1][3].

Die Leute fragen auch

Wie lautet die kurze Antwort auf „GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 im Benchmark-Vergleich“?

GPT 5.5 ist in den verfügbaren Quellen der beste belegte Allrounder: 60 Punkte im Artificial Analysis Index und 84,4 % bei BrowseComp.

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

DeepSeek V4 ist der Preis Leistungs Kandidat: 83,4 % bei BrowseComp, nur 1,0 Prozentpunkt hinter GPT 5.5, bei deutlich niedrigeren zitierten API Preisen [1][3].

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „KI für die Steuererklärung: Was in Deutschland wirklich hilft – und was riskant bleibt“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „KI im Studium oder Beruf nutzen: Was in Deutschland und der EU erlaubt ist“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

KI für die Steuererklärung: Was in Deutschland wirklich hilft – und was riskant bleibt

KI im Studium oder Beruf nutzen: Was in Deutschland und der EU erlaubt ist

Darf ich KI im Studium oder Beruf verwenden?

KI-Betrug erkennen: 7 Regeln gegen Deepfakes und falsche Anrufe

KI-Betrug erkennen: 7 Regeln gegen Deepfakes, falsche Anrufe und KI-Fehler

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026

Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6: benchmarks comparados

Forschungsgespräch

Du26. Apr. 2026

Forschungsfrage

Studio Global AI26. Apr. 202626 Quellen

Zitierte Antwort

Key findings

GPT-5.5 wird im verfügbaren Artificial-Analysis-Ausschnitt als Nummer 1 und 2 des „Intelligence Index“ geführt: GPT-5.5 „xhigh“ mit 60 Punkten und GPT-5.5 „high“ mit 59 Punkten ^[6].
Claude Opus 4.7 wird im selben Ausschnitt mit „Adaptive Reasoning, Max Effort“ bei 57 Punkten genannt und damit hinter GPT-5.5 xhigh und GPT-5.5 high eingeordnet ^[6].
Bei BrowseComp erreicht DeepSeek V4 laut verfügbarem Bericht 83,4 %, Claude Opus 4.7 79,3 % und GPT-5.5 84,4 %; GPT-5.5 Pro liegt mit 90,1 % deutlich höher ^[7].
DeepSeek V4 schlägt Claude Opus 4.7 in BrowseComp, liegt dort aber knapp hinter GPT-5.5 und klar hinter GPT-5.5 Pro ^[7].
Trotz des starken BrowseComp-Werts heißt es im verfügbaren Bericht, DeepSeek-V4-Pro-Max entthrone GPT-5.5 oder Claude Opus 4.7 auf den direkt vergleichbaren Benchmarks insgesamt nicht ^[7].
Für Claude Opus 4.7 liegen mehrere konkrete Benchmarkwerte vor: SWE-bench Pro 64,3 %, SWE-bench Verified 87,6 %, Terminal-Bench 69,4 % und GPQA Diamond 94,2 % ^[3].
Ein weiterer verfügbarer Benchmarkhinweis nennt Claude Opus 4.7 mit 82,7 % auf FinanceBench, allerdings stammt dieser Wert aus einem sekundären Blogkontext und sollte vorsichtig interpretiert werden ^[2].
Für Kimi K2.6 enthält die verfügbare Evidenz keine belastbaren numerischen Benchmarkwerte; ein Reddit-Beitrag behauptet lediglich, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dort auf Platz 2 ^[21].

Vergleichstabelle

Modell	Beste verfügbare Evidenz	Genannte Benchmarkwerte	Einordnung
GPT-5.5	Führt den „Intelligence Index“ in zwei Varianten ^[6]	Intelligence Index: 60 xhigh, 59 high; BrowseComp: 84,4 %; GPT-5.5 Pro BrowseComp: 90,1 % ^[6]^[7]	Stärkster belegt unter den vier Modellen, vor allem im Intelligence Index und bei BrowseComp ^[6]^[7]
Claude Opus 4.7	Platz 3 im genannten Intelligence Index-Ausschnitt ^[6]	Intelligence Index: 57; BrowseComp: 79,3 %; SWE-bench Pro: 64,3 %; SWE-bench Verified: 87,6 %; Terminal-Bench: 69,4 %; GPQA Diamond: 94,2 %; FinanceBench: 82,7 % ^[2]^[3]^[6]^[7]	Sehr stark belegt, aber in den verfügbaren Vergleichsdaten hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 ^[6]^[7]
DeepSeek V4	Sehr stark bei BrowseComp ^[7]	BrowseComp: 83,4 %; API-Preis: $1.74 pro 1 Mio. Input-Tokens und $3.48 pro 1 Mio. Output-Tokens ^[5]^[7]	Nahe an GPT-5.5 bei BrowseComp und besser als Claude Opus 4.7 in diesem Benchmark, aber nicht klarer Gesamtsieger ^[7]
Kimi K2.6	Nur schwacher Rankinghinweis aus Reddit ^[21]	Keine belastbaren Zahlenwerte in der bereitgestellten Evidenz ^[21]	Insufficient evidence: Keine solide numerische Einordnung möglich ^[21]

Benchmark-für-Benchmark-Vergleich

Intelligence Index

GPT-5.5 liegt im verfügbaren Ausschnitt des „Intelligence Index“ auf Platz 1 mit 60 Punkten in der xhigh-Konfiguration und auf Platz 2 mit 59 Punkten in der high-Konfiguration ^[6].
Claude Opus 4.7 liegt in der Konfiguration „Adaptive Reasoning, Max Effort“ bei 57 Punkten und wird damit hinter beiden GPT-5.5-Varianten genannt ^[6].
Für DeepSeek V4 und Kimi K2.6 werden im verfügbaren Ausschnitt keine konkreten Intelligence-Index-Werte genannt ^[6].

BrowseComp

GPT-5.5 erreicht bei BrowseComp 84,4 %, während GPT-5.5 Pro 90,1 % erreicht ^[7].
DeepSeek V4 erreicht bei BrowseComp 83,4 % und liegt damit sehr knapp hinter GPT-5.5, aber deutlich hinter GPT-5.5 Pro ^[7].
Claude Opus 4.7 erreicht bei BrowseComp 79,3 % und liegt damit hinter DeepSeek V4 und GPT-5.5 ^[7].
Kimi K2.6 hat in der bereitgestellten Evidenz keinen BrowseComp-Wert ^[7]^[21].

Coding- und Software-Benchmarks

Claude Opus 4.7 wird mit 64,3 % auf SWE-bench Pro und 87,6 % auf SWE-bench Verified angegeben ^[3].
Claude Opus 4.7 wird außerdem mit etwa 70 % auf CursorBench genannt, aber dieser Vergleich stammt aus einem Kontext zu GPT-5.4, nicht GPT-5.5 ^[4].
Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren SWE-bench-Pro- oder SWE-bench-Verified-Werte vor ^[3]^[4]^[7]^[21].
Ein Reddit-Beitrag behauptet, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dahinter auf Platz 2, aber dieser Beleg ist schwächer als die übrigen Quellen und enthält im Ausschnitt keine konkreten Prozentwerte ^[21].

Reasoning- und Wissens-Benchmarks

Claude Opus 4.7 wird mit 94,2 % auf GPQA Diamond angegeben ^[3].
Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren GPQA-Diamond-Werte vor ^[3]^[6]^[7]^[21].

FinanceBench

Claude Opus 4.7 wird in einem verfügbaren Blogausschnitt mit 82,7 % auf FinanceBench erwähnt ^[2].
Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine FinanceBench-Werte vor ^[2]^[5]^[7]^[21].

Preis- und Kontextvergleich

DeepSeek V4 wird mit $1.74 pro 1 Million Input-Tokens und $3.48 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben ^[5].
GPT-5.5 wird mit $5 pro 1 Million Input-Tokens und $30 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben ^[5].
Für Claude Opus 4.7 ist im verfügbaren Ausschnitt nur der Beginn einer Preisangabe erkennbar, aber kein vollständiger Output-Preis, daher reicht die Evidenz für einen vollständigen Kostenvergleich nicht aus ^[5].
Für Kimi K2.6 enthält die bereitgestellte Evidenz keinen Preiswert ^[5]^[21].

Verständliche Einordnung

Wenn man nur die verfügbaren Zahlen betrachtet, ist GPT-5.5 der sicherste Kandidat für die stärkste Gesamtleistung, weil es den genannten Intelligence Index anführt und bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 liegt ^[6]^[7].
DeepSeek V4 ist der stärkste Herausforderer in den verfügbaren Zahlen, weil es bei BrowseComp mit 83,4 % fast GPT-5.5 erreicht und Claude Opus 4.7 übertrifft ^[7].
Claude Opus 4.7 ist am breitesten mit konkreten Einzelbenchmarks belegt, vor allem in SWE-bench, Terminal-Bench, GPQA Diamond und FinanceBench ^[2]^[3].
Kimi K2.6 kann anhand der bereitgestellten Evidenz nicht fair numerisch mit den anderen drei Modellen verglichen werden, weil die einzige konkrete Aussage nur ein schwacher Reddit-Rankinghinweis ohne Zahlenwerte ist ^[21].

Evidence notes

Die stärksten quantitativen Vergleichsdaten in der bereitgestellten Evidenz sind der Intelligence-Index-Ausschnitt und der BrowseComp-Vergleich, weil sie mehrere der angefragten Modelle direkt nebeneinander nennen ^[6]^[7].
Die Claude-Opus-4.7-Werte zu SWE-bench Pro, SWE-bench Verified, Terminal-Bench und GPQA Diamond sind nützlich, aber sie erlauben keinen vollständigen Vier-Modell-Vergleich, weil entsprechende Werte für GPT-5.5, DeepSeek V4 und Kimi K2.6 in der Evidenz fehlen ^[3].
Der Kimi-K2.6-Hinweis ist deutlich schwächer, weil er aus einem Reddit-Beitrag stammt und im verfügbaren Ausschnitt keine numerischen Ergebnisse enthält ^[21].
Ein Vergleich mit GPT-5.4 ist nur indirekt relevant, weil die Nutzerfrage GPT-5.5 betrifft; die verfügbare Quelle nennt dort außerdem, dass Benchmarkwerte teils vendor-reported sind und unterschiedliche Harness-Konfigurationen nutzen ^[4].

Limitations / uncertainty

Insufficient evidence: Für Kimi K2.6 fehlen belastbare Benchmarkzahlen in der bereitgestellten Evidenz ^[21].
Insufficient evidence: Für GPT-5.5 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench, FinanceBench und Vibe Code ^[6]^[7].
Insufficient evidence: Für DeepSeek V4 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench und FinanceBench ^[5]^[7]^[21].
Die Modelle werden teils in unterschiedlichen Varianten oder Testmodi genannt, etwa GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 „Adaptive Reasoning, Max Effort“ und DeepSeek-V4-Pro-Max, wodurch ein 1:1-Vergleich nur eingeschränkt möglich ist ^[6]^[7].
Die bereitgestellte Evidenz enthält keine vollständigen offiziellen Modellkarten oder Primärquellen mit einheitlichem Benchmark-Setup für alle vier Modelle ^[1]^[3]^[6]^[7].

Summary

GPT-5.5: Beste belegte Gesamtposition, führt den Intelligence Index und liegt bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 ^[6]^[7].
DeepSeek V4: Sehr stark bei BrowseComp, knapp hinter GPT-5.5 und vor Claude Opus 4.7; außerdem deutlich günstiger als GPT-5.5 in der verfügbaren Preisangabe ^[5]^[7].
Claude Opus 4.7: Sehr gut dokumentiert mit vielen Einzelbenchmarks, aber in den direkt verfügbaren Vergleichszahlen hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 ^[2]^[3]^[6]^[7].
Kimi K2.6: Nicht seriös numerisch bewertbar, weil die bereitgestellte Evidenz nur einen schwachen Rankinghinweis ohne konkrete Zahlen enthält ^[21].

Quellen

[1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai
What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
BrowseComp is the standout: DeepSeek’s 83.4% beats Claude Opus 4.7’s 79.3% and nearly matches GPT-5.5’s 84.4%, though GPT-5.5 Pro’s 90.1% remains well ahead. So ultimately, DeepSeek-V4-Pro-Max does not appear to dethrone GPT-5.5 or Claude Opus 4.7 on the be...
[6] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[7] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai
Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...
[8] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[20] Claude Opus 4.7 Benchmarks Explained - Vellumvellum.ai
Is Claude Opus 4.7 the most powerful Claude model? No. Claude Mythos Preview is Anthropic's most capable model and leads Opus 4.7 on most benchmarks in the comparison table, including SWE-bench Pro (77.8% vs 64.3%), SWE-bench Verified (93.9% vs 87.6%), Term...
[21] Claude Opus 4.7 vs. GPT-5.4: Which Frontier Model Should You Use?datacamp.com
--- --- Benchmark Claude Opus 4.7 GPT-5.4 Notes SWE-bench Pro 64.3% 57.7% Vendor-reported; different harness configurations SWE-bench Verified 87.6% Not published OpenAI has not released an official score on this variant CursorBench 70% Not published Cursor...
[22] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

Trendthemen auf Entdecken

BerichteVeröffentlicht28. Apr. 2026Last edited 6. Mai 202610 Quellen

GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 im Benchmark-Vergleich

Suchen und Fakten prüfen mit Studio Global AI Mehr von Entdecken ansehen

17K0

Das faire Kurzurteil

Vergleich auf einen Blick

Modell	Stärkste belegte Aussage	Wichtige Werte aus den Quellen	Praktische Einordnung
GPT-5.5	Führt den verfügbaren Artificial-Analysis-Index-Ausschnitt an ^[2]	Intelligence Index: 60 xhigh, 59 high ^[2]; BrowseComp: 84,4 %, GPT-5.5 Pro: 90,1 % ^[3]; Terminal-Bench 2.0: 82,7 % ^[22]^[24]	Bester belegter Allround-Startpunkt, aber kein Sieger in jeder Einzeldisziplin
Claude Opus 4.7	Sehr stark bei SWE-Bench, GPQA und einzelnen agentischen Aufgaben ^[20]^[22]^[24]	Intelligence Index: 57 ^[2]; SWE-Bench Pro: 64,3 % ^[22]^[24]; SWE-Bench Verified: 87,6 % ^[20]; GPQA Diamond: 94,2 % ^[22]	Besonders interessant für Coding, Review, Wissens- und Finanzaufgaben
DeepSeek V4	Kommt bei BrowseComp fast an GPT-5.5 heran ^[3]	BrowseComp: 83,4 % ^[3]; API-Preis: 1,74 US-Dollar Input und 3,48 US-Dollar Output pro 1 Mio. Tokens ^[1]	Starker Kandidat, wenn Kosten und Web-/Rechercheleistung wichtiger sind als ein vollständiger Benchmark-Sieg
Kimi K2.6	Als offenes, multimodales, agentisches Modell mit langem Kontext beschrieben ^[7]	1T-Parameter-MoE, 32B aktivierte Parameter, 256K Kontext laut DocsBot ^[7]	Technisch prüfenswert, aber anhand dieser Quellen nicht sauber numerisch vergleichbar

Warum diese Zahlen nicht wie eine Sporttabelle funktionieren

Deshalb ist die bessere Frage nicht nur: Welches Modell ist Nummer eins? Sondern: Für welchen Workload ist welches Modell am besten belegt?

Gesamtleistung: GPT-5.5 führt im verfügbaren Intelligence Index

BrowseComp: DeepSeek V4 ist fast auf GPT-5.5-Niveau

Modell oder Variante	BrowseComp-Wert	Einordnung
GPT-5.5 Pro	90,1 %	Klar vorn in diesem Ausschnitt ^[3]
GPT-5.5	84,4 %	Knapp vor DeepSeek V4 ^[3]
DeepSeek V4	83,4 %	Nur 1,0 Prozentpunkt hinter GPT-5.5 ^[3]
Claude Opus 4.7	79,3 %	Hinter GPT-5.5 und DeepSeek V4 ^[3]
Kimi K2.6	Kein direkt vergleichbarer Wert in den bereitgestellten Quellen	Nicht fair rankbar ^[7]

Coding und Software Engineering: Claude gewinnt SWE, GPT gewinnt Terminal

Benchmark	GPT-5.5	Claude Opus 4.7	Aussage
SWE-Bench Pro	58,6 %	64,3 %	Claude vorn ^[22]^[24]
SWE-Bench Verified	Kein direkt zitierter GPT-5.5-Wert in den bereitgestellten Quellen	87,6 %	Starker Claude-Wert, aber kein vollständiger Vierer-Vergleich ^[20]
Terminal-Bench 2.0	82,7 %	69,4 %	GPT-5.5 deutlich vorn ^[22]^[24]

Reasoning, Wissen und professionelle Aufgaben: wechselnde Führung

Benchmark	GPT-5.5	Claude Opus 4.7	Sieger in den verfügbaren Zahlen
GPQA Diamond	93,6 %	94,2 %	Claude Opus 4.7 knapp ^[8]^[22]
Humanity’s Last Exam	40,6 %	31,2 %	GPT-5.5 ^[8]
Humanity’s Last Exam mit Tools	52,2 %	54,7 %	Claude Opus 4.7 knapp ^[8]

Benchmark	GPT-5.5	Claude Opus 4.7	Aussage
GDPval	84,9 %	80,3 %	GPT-5.5 vorn ^[22]^[24]
OSWorld-Verified	78,7 %	78,0 %	GPT-5.5 knapp vorn ^[22]
MCP Atlas	75,3 %	79,1 %	Claude Opus 4.7 vorn ^[22]
FinanceAgent v1.1	60,0 %	64,4 %	Claude Opus 4.7 vorn ^[24]

Preis und Kontext: DeepSeek V4 fällt am stärksten auf

Modell	Input-Preis pro 1 Mio. Tokens	Output-Preis pro 1 Mio. Tokens	Kontextangabe in der Quelle
DeepSeek V4	1,74 US-Dollar	3,48 US-Dollar	1 Mio. Tokens ^[1]
GPT-5.5	5 US-Dollar	30 US-Dollar	1 Mio. Tokens ^[1]
Claude Opus 4.7	5 US-Dollar	25 US-Dollar	1 Mio. Tokens ^[1]
Kimi K2.6	Keine belastbare Preisangabe in den bereitgestellten Quellen	Keine belastbare Preisangabe in den bereitgestellten Quellen	256K Tokens laut DocsBot ^[7]

Welche Modellwahl ergibt sich daraus?

Wenn der Schwerpunkt ist …	Wahrscheinlich bester Startpunkt	Warum
Stärkste belegte Gesamtleistung	GPT-5.5	Führt den verfügbaren Intelligence-Index-Ausschnitt an und liegt bei BrowseComp vor Claude Opus 4.7 und knapp vor DeepSeek V4 ^[2]^[3]
SWE-Bench-orientiertes Software Engineering	Claude Opus 4.7	Liegt bei SWE-Bench Pro vor GPT-5.5 und wird mit 87,6 % auf SWE-Bench Verified genannt ^[20]^[22]^[24]
Terminal-, Computer- und agentische Ausführung	GPT-5.5	Führt bei Terminal-Bench 2.0 deutlich und liegt bei GDPval sowie OSWorld-Verified vor Claude Opus 4.7 ^[22]^[24]
Web-Recherche und niedrige API-Kosten	DeepSeek V4	Erreicht 83,4 % bei BrowseComp und hat in den zitierten Angaben deutlich niedrigere API-Preise ^[1]^[3]
Test eines offenen multimodalen Agentenmodells	Kimi K2.6	Wird als open-source, nativ multimodales, agentisches Modell mit 256K Kontext beschrieben, hat aber keine vollständige direkte Vergleichsbasis in den bereitgestellten Quellen ^[7]

Fazit

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

GPT 5.5 ist in den verfügbaren Quellen der beste belegte Allrounder: 60 Punkte im Artificial Analysis Index und 84,4 % bei BrowseComp.
Claude Opus 4.7 liegt bei SWE Bench Pro mit 64,3 % vor GPT 5.5 mit 58,6 % und bei GPQA Diamond mit 94,2 % knapp vor GPT 5.5 mit 93,6 %; GPT 5.5 führt dafür bei Terminal Bench 2.0 mit 82,7 % gegen 69,4 % [22][24].
DeepSeek V4 ist der Preis Leistungs Kandidat: 83,4 % bei BrowseComp, nur 1,0 Prozentpunkt hinter GPT 5.5, bei deutlich niedrigeren zitierten API Preisen [1][3].

Die Leute fragen auch

Wie lautet die kurze Antwort auf „GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 im Benchmark-Vergleich“?

GPT 5.5 ist in den verfügbaren Quellen der beste belegte Allrounder: 60 Punkte im Artificial Analysis Index und 84,4 % bei BrowseComp.

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

DeepSeek V4 ist der Preis Leistungs Kandidat: 83,4 % bei BrowseComp, nur 1,0 Prozentpunkt hinter GPT 5.5, bei deutlich niedrigeren zitierten API Preisen [1][3].

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „KI für die Steuererklärung: Was in Deutschland wirklich hilft – und was riskant bleibt“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „KI im Studium oder Beruf nutzen: Was in Deutschland und der EU erlaubt ist“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

Forschungsgespräch

Du26. Apr. 2026

Forschungsfrage

Studio Global AI26. Apr. 202626 Quellen

Zitierte Antwort

Key findings

GPT-5.5 wird im verfügbaren Artificial-Analysis-Ausschnitt als Nummer 1 und 2 des „Intelligence Index“ geführt: GPT-5.5 „xhigh“ mit 60 Punkten und GPT-5.5 „high“ mit 59 Punkten ^[6].
Claude Opus 4.7 wird im selben Ausschnitt mit „Adaptive Reasoning, Max Effort“ bei 57 Punkten genannt und damit hinter GPT-5.5 xhigh und GPT-5.5 high eingeordnet ^[6].
Bei BrowseComp erreicht DeepSeek V4 laut verfügbarem Bericht 83,4 %, Claude Opus 4.7 79,3 % und GPT-5.5 84,4 %; GPT-5.5 Pro liegt mit 90,1 % deutlich höher ^[7].
DeepSeek V4 schlägt Claude Opus 4.7 in BrowseComp, liegt dort aber knapp hinter GPT-5.5 und klar hinter GPT-5.5 Pro ^[7].
Trotz des starken BrowseComp-Werts heißt es im verfügbaren Bericht, DeepSeek-V4-Pro-Max entthrone GPT-5.5 oder Claude Opus 4.7 auf den direkt vergleichbaren Benchmarks insgesamt nicht ^[7].
Für Claude Opus 4.7 liegen mehrere konkrete Benchmarkwerte vor: SWE-bench Pro 64,3 %, SWE-bench Verified 87,6 %, Terminal-Bench 69,4 % und GPQA Diamond 94,2 % ^[3].
Ein weiterer verfügbarer Benchmarkhinweis nennt Claude Opus 4.7 mit 82,7 % auf FinanceBench, allerdings stammt dieser Wert aus einem sekundären Blogkontext und sollte vorsichtig interpretiert werden ^[2].
Für Kimi K2.6 enthält die verfügbare Evidenz keine belastbaren numerischen Benchmarkwerte; ein Reddit-Beitrag behauptet lediglich, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dort auf Platz 2 ^[21].

Vergleichstabelle

Modell	Beste verfügbare Evidenz	Genannte Benchmarkwerte	Einordnung
GPT-5.5	Führt den „Intelligence Index“ in zwei Varianten ^[6]	Intelligence Index: 60 xhigh, 59 high; BrowseComp: 84,4 %; GPT-5.5 Pro BrowseComp: 90,1 % ^[6]^[7]	Stärkster belegt unter den vier Modellen, vor allem im Intelligence Index und bei BrowseComp ^[6]^[7]
Claude Opus 4.7	Platz 3 im genannten Intelligence Index-Ausschnitt ^[6]	Intelligence Index: 57; BrowseComp: 79,3 %; SWE-bench Pro: 64,3 %; SWE-bench Verified: 87,6 %; Terminal-Bench: 69,4 %; GPQA Diamond: 94,2 %; FinanceBench: 82,7 % ^[2]^[3]^[6]^[7]	Sehr stark belegt, aber in den verfügbaren Vergleichsdaten hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 ^[6]^[7]
DeepSeek V4	Sehr stark bei BrowseComp ^[7]	BrowseComp: 83,4 %; API-Preis: $1.74 pro 1 Mio. Input-Tokens und $3.48 pro 1 Mio. Output-Tokens ^[5]^[7]	Nahe an GPT-5.5 bei BrowseComp und besser als Claude Opus 4.7 in diesem Benchmark, aber nicht klarer Gesamtsieger ^[7]
Kimi K2.6	Nur schwacher Rankinghinweis aus Reddit ^[21]	Keine belastbaren Zahlenwerte in der bereitgestellten Evidenz ^[21]	Insufficient evidence: Keine solide numerische Einordnung möglich ^[21]

Benchmark-für-Benchmark-Vergleich

Intelligence Index

GPT-5.5 liegt im verfügbaren Ausschnitt des „Intelligence Index“ auf Platz 1 mit 60 Punkten in der xhigh-Konfiguration und auf Platz 2 mit 59 Punkten in der high-Konfiguration ^[6].
Claude Opus 4.7 liegt in der Konfiguration „Adaptive Reasoning, Max Effort“ bei 57 Punkten und wird damit hinter beiden GPT-5.5-Varianten genannt ^[6].
Für DeepSeek V4 und Kimi K2.6 werden im verfügbaren Ausschnitt keine konkreten Intelligence-Index-Werte genannt ^[6].

BrowseComp

GPT-5.5 erreicht bei BrowseComp 84,4 %, während GPT-5.5 Pro 90,1 % erreicht ^[7].
DeepSeek V4 erreicht bei BrowseComp 83,4 % und liegt damit sehr knapp hinter GPT-5.5, aber deutlich hinter GPT-5.5 Pro ^[7].
Claude Opus 4.7 erreicht bei BrowseComp 79,3 % und liegt damit hinter DeepSeek V4 und GPT-5.5 ^[7].
Kimi K2.6 hat in der bereitgestellten Evidenz keinen BrowseComp-Wert ^[7]^[21].

Coding- und Software-Benchmarks

Claude Opus 4.7 wird mit 64,3 % auf SWE-bench Pro und 87,6 % auf SWE-bench Verified angegeben ^[3].
Claude Opus 4.7 wird außerdem mit etwa 70 % auf CursorBench genannt, aber dieser Vergleich stammt aus einem Kontext zu GPT-5.4, nicht GPT-5.5 ^[4].
Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren SWE-bench-Pro- oder SWE-bench-Verified-Werte vor ^[3]^[4]^[7]^[21].
Ein Reddit-Beitrag behauptet, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dahinter auf Platz 2, aber dieser Beleg ist schwächer als die übrigen Quellen und enthält im Ausschnitt keine konkreten Prozentwerte ^[21].

Reasoning- und Wissens-Benchmarks

Claude Opus 4.7 wird mit 94,2 % auf GPQA Diamond angegeben ^[3].
Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren GPQA-Diamond-Werte vor ^[3]^[6]^[7]^[21].

FinanceBench

Claude Opus 4.7 wird in einem verfügbaren Blogausschnitt mit 82,7 % auf FinanceBench erwähnt ^[2].
Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine FinanceBench-Werte vor ^[2]^[5]^[7]^[21].

Preis- und Kontextvergleich

DeepSeek V4 wird mit $1.74 pro 1 Million Input-Tokens und $3.48 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben ^[5].
GPT-5.5 wird mit $5 pro 1 Million Input-Tokens und $30 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben ^[5].
Für Claude Opus 4.7 ist im verfügbaren Ausschnitt nur der Beginn einer Preisangabe erkennbar, aber kein vollständiger Output-Preis, daher reicht die Evidenz für einen vollständigen Kostenvergleich nicht aus ^[5].
Für Kimi K2.6 enthält die bereitgestellte Evidenz keinen Preiswert ^[5]^[21].

Verständliche Einordnung

Wenn man nur die verfügbaren Zahlen betrachtet, ist GPT-5.5 der sicherste Kandidat für die stärkste Gesamtleistung, weil es den genannten Intelligence Index anführt und bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 liegt ^[6]^[7].
DeepSeek V4 ist der stärkste Herausforderer in den verfügbaren Zahlen, weil es bei BrowseComp mit 83,4 % fast GPT-5.5 erreicht und Claude Opus 4.7 übertrifft ^[7].
Claude Opus 4.7 ist am breitesten mit konkreten Einzelbenchmarks belegt, vor allem in SWE-bench, Terminal-Bench, GPQA Diamond und FinanceBench ^[2]^[3].
Kimi K2.6 kann anhand der bereitgestellten Evidenz nicht fair numerisch mit den anderen drei Modellen verglichen werden, weil die einzige konkrete Aussage nur ein schwacher Reddit-Rankinghinweis ohne Zahlenwerte ist ^[21].

Evidence notes

Die stärksten quantitativen Vergleichsdaten in der bereitgestellten Evidenz sind der Intelligence-Index-Ausschnitt und der BrowseComp-Vergleich, weil sie mehrere der angefragten Modelle direkt nebeneinander nennen ^[6]^[7].
Die Claude-Opus-4.7-Werte zu SWE-bench Pro, SWE-bench Verified, Terminal-Bench und GPQA Diamond sind nützlich, aber sie erlauben keinen vollständigen Vier-Modell-Vergleich, weil entsprechende Werte für GPT-5.5, DeepSeek V4 und Kimi K2.6 in der Evidenz fehlen ^[3].
Der Kimi-K2.6-Hinweis ist deutlich schwächer, weil er aus einem Reddit-Beitrag stammt und im verfügbaren Ausschnitt keine numerischen Ergebnisse enthält ^[21].
Ein Vergleich mit GPT-5.4 ist nur indirekt relevant, weil die Nutzerfrage GPT-5.5 betrifft; die verfügbare Quelle nennt dort außerdem, dass Benchmarkwerte teils vendor-reported sind und unterschiedliche Harness-Konfigurationen nutzen ^[4].

Limitations / uncertainty

Insufficient evidence: Für Kimi K2.6 fehlen belastbare Benchmarkzahlen in der bereitgestellten Evidenz ^[21].
Insufficient evidence: Für GPT-5.5 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench, FinanceBench und Vibe Code ^[6]^[7].
Insufficient evidence: Für DeepSeek V4 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench und FinanceBench ^[5]^[7]^[21].
Die Modelle werden teils in unterschiedlichen Varianten oder Testmodi genannt, etwa GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 „Adaptive Reasoning, Max Effort“ und DeepSeek-V4-Pro-Max, wodurch ein 1:1-Vergleich nur eingeschränkt möglich ist ^[6]^[7].
Die bereitgestellte Evidenz enthält keine vollständigen offiziellen Modellkarten oder Primärquellen mit einheitlichem Benchmark-Setup für alle vier Modelle ^[1]^[3]^[6]^[7].

Summary

GPT-5.5: Beste belegte Gesamtposition, führt den Intelligence Index und liegt bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 ^[6]^[7].
DeepSeek V4: Sehr stark bei BrowseComp, knapp hinter GPT-5.5 und vor Claude Opus 4.7; außerdem deutlich günstiger als GPT-5.5 in der verfügbaren Preisangabe ^[5]^[7].
Claude Opus 4.7: Sehr gut dokumentiert mit vielen Einzelbenchmarks, aber in den direkt verfügbaren Vergleichszahlen hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 ^[2]^[3]^[6]^[7].
Kimi K2.6: Nicht seriös numerisch bewertbar, weil die bereitgestellte Evidenz nur einen schwachen Rankinghinweis ohne konkrete Zahlen enthält ^[21].

Quellen

[1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai
What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
BrowseComp is the standout: DeepSeek’s 83.4% beats Claude Opus 4.7’s 79.3% and nearly matches GPT-5.5’s 84.4%, though GPT-5.5 Pro’s 90.1% remains well ahead. So ultimately, DeepSeek-V4-Pro-Max does not appear to dethrone GPT-5.5 or Claude Opus 4.7 on the be...
[6] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[7] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai
Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...
[8] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[20] Claude Opus 4.7 Benchmarks Explained - Vellumvellum.ai
Is Claude Opus 4.7 the most powerful Claude model? No. Claude Mythos Preview is Anthropic's most capable model and leads Opus 4.7 on most benchmarks in the comparison table, including SWE-bench Pro (77.8% vs 64.3%), SWE-bench Verified (93.9% vs 87.6%), Term...
[21] Claude Opus 4.7 vs. GPT-5.4: Which Frontier Model Should You Use?datacamp.com
--- --- Benchmark Claude Opus 4.7 GPT-5.4 Notes SWE-bench Pro 64.3% 57.7% Vendor-reported; different harness configurations SWE-bench Verified 87.6% Not published OpenAI has not released an official score on this variant CursorBench 70% Not published Cursor...
[22] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...