studioglobal
Trendthemen auf Entdecken
BerichteVeröffentlicht10 Quellen

GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 im Benchmark-Vergleich

GPT 5.5 ist in den verfügbaren Quellen der beste belegte Allrounder: 60 Punkte im Artificial Analysis Index und 84,4 % bei BrowseComp. Claude Opus 4.7 liegt bei SWE Bench Pro mit 64,3 % vor GPT 5.5 mit 58,6 % und bei GPQA Diamond mit 94,2 % knapp vor GPT 5.5 mit 93,6 %; GPT 5.5 führt dafür bei Terminal Bench 2.0 mit...

17K0
Abstrakte Illustration eines KI-Benchmark-Dashboards mit mehreren konkurrierenden Sprachmodellen
GPT-5.5 vsKI-generierte redaktionelle Illustration zu einem Vergleich aktueller Sprachmodell-Benchmarks.
KI-Prompt

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Benchmark-Vergleich. Article summary: GPT 5.5 ist in den verfügbaren Quellen der stärkste belegte Allrounder: Es führt den Artificial Analysis Index mit 60 Punkten in der xhigh Konfiguration und liegt bei BrowseComp mit 84,4 % vor Claude Opus 4.7.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB

openai.com

Eine einfache Siegerliste wäre hier irreführend. Die verfügbaren Quellen prüfen GPT-5.5, Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 nicht in einem einheitlichen unabhängigen Testlauf, sondern liefern Ausschnitte aus verschiedenen Benchmarks, Modellvarianten und Anbieter- oder Sekundäranalysen [2][3][7][21]. Trotzdem ergibt sich ein brauchbares Muster: GPT-5.5 hat die stärkste belegte Gesamtposition, Claude Opus 4.7 gewinnt mehrere wichtige Coding- und Wissenswerte, DeepSeek V4 ist preislich auffällig stark und Kimi K2.6 bleibt mangels direkter Vergleichswerte schwer zu ranken [1][2][3][7][22][24].

Das faire Kurzurteil

GPT-5.5 ist der stärkste belegte Allrounder. Im verfügbaren Artificial-Analysis-Ausschnitt steht GPT-5.5 in der xhigh-Konfiguration mit 60 Punkten vor GPT-5.5 high mit 59 Punkten und Claude Opus 4.7 mit 57 Punkten [2]. Bei BrowseComp erreicht GPT-5.5 84,4 %, während DeepSeek V4 mit 83,4 % knapp dahinter und Claude Opus 4.7 mit 79,3 % dahinter liegt [3].

Claude Opus 4.7 ist besonders stark bei Software und Wissen. Claude liegt bei SWE-Bench Pro mit 64,3 % vor GPT-5.5 mit 58,6 % und bei GPQA Diamond mit 94,2 % knapp vor GPT-5.5 mit 93,6 % [22][24]. Gleichzeitig führt GPT-5.5 bei Terminal-Bench 2.0 deutlich mit 82,7 % gegenüber 69,4 % für Claude Opus 4.7 [22][24].

DeepSeek V4 ist der Preis-Leistungs-Angreifer. VentureBeat nennt für DeepSeek V4 83,4 % bei BrowseComp, nur einen Prozentpunkt unter GPT-5.5 und über Claude Opus 4.7 [3]. Mashable nennt zugleich API-Preise von 1,74 US-Dollar pro 1 Mio. Input-Tokens und 3,48 US-Dollar pro 1 Mio. Output-Tokens für DeepSeek V4, gegenüber 5/30 US-Dollar bei GPT-5.5 und 5/25 US-Dollar bei Claude Opus 4.7 [1].

Kimi K2.6 ist technisch interessant, aber in dieser Datenlage nicht fair zu ranken. DocsBot beschreibt Kimi K2.6 als open-source, nativ multimodales, agentisches Modell mit 1T-Parameter-MoE-Architektur, 32B aktivierten Parametern und 256K Kontext [7]. In den bereitgestellten Quellen fehlen jedoch genügend direkte Benchmarkwerte gegen GPT-5.5, Claude Opus 4.7 und DeepSeek V4, um Kimi sauber in dieselbe Rangliste zu setzen [7].

Vergleich auf einen Blick

ModellStärkste belegte AussageWichtige Werte aus den QuellenPraktische Einordnung
GPT-5.5Führt den verfügbaren Artificial-Analysis-Index-Ausschnitt an [2]Intelligence Index: 60 xhigh, 59 high [2]; BrowseComp: 84,4 %, GPT-5.5 Pro: 90,1 % [3]; Terminal-Bench 2.0: 82,7 % [22][24]Bester belegter Allround-Startpunkt, aber kein Sieger in jeder Einzeldisziplin
Claude Opus 4.7Sehr stark bei SWE-Bench, GPQA und einzelnen agentischen Aufgaben [20][22][24]Intelligence Index: 57 [2]; SWE-Bench Pro: 64,3 % [22][24]; SWE-Bench Verified: 87,6 % [20]; GPQA Diamond: 94,2 % [22]Besonders interessant für Coding, Review, Wissens- und Finanzaufgaben
DeepSeek V4Kommt bei BrowseComp fast an GPT-5.5 heran [3]BrowseComp: 83,4 % [3]; API-Preis: 1,74 US-Dollar Input und 3,48 US-Dollar Output pro 1 Mio. Tokens [1]Starker Kandidat, wenn Kosten und Web-/Rechercheleistung wichtiger sind als ein vollständiger Benchmark-Sieg
Kimi K2.6Als offenes, multimodales, agentisches Modell mit langem Kontext beschrieben [7]1T-Parameter-MoE, 32B aktivierte Parameter, 256K Kontext laut DocsBot [7]Technisch prüfenswert, aber anhand dieser Quellen nicht sauber numerisch vergleichbar

Warum diese Zahlen nicht wie eine Sporttabelle funktionieren

Die wichtigste Einschränkung ist die Datenlage. DataCamp weist in einem verwandten Frontier-Modellvergleich darauf hin, dass Benchmarkwerte teils vendor-reported sind und unterschiedliche Harness-Konfigurationen nutzen können [21]. Das gilt als Warnsignal für jede harte Rangliste: Ein Modell kann in einer Konfiguration vorn liegen und in einer anderen zurückfallen.

Auch die Modellvarianten sind nicht immer identisch. Artificial Analysis nennt GPT-5.5 xhigh, GPT-5.5 high und Claude Opus 4.7 mit Adaptive Reasoning und Max Effort [2]. VentureBeat bezieht sich bei DeepSeek auf DeepSeek-V4-Pro-Max [3]. Solche Unterschiede können Benchmarks beeinflussen, insbesondere bei Reasoning-, Coding- und Agentenaufgaben, bei denen Tool-Nutzung, Denkaufwand und Testharness viel ausmachen.

Deshalb ist die bessere Frage nicht nur: Welches Modell ist Nummer eins? Sondern: Für welchen Workload ist welches Modell am besten belegt?

Gesamtleistung: GPT-5.5 führt im verfügbaren Intelligence Index

Der klarste Gesamtindikator in den Quellen ist der Artificial-Analysis-Intelligence-Index-Ausschnitt. Dort steht GPT-5.5 xhigh mit 60 Punkten auf Rang 1, GPT-5.5 high mit 59 Punkten auf Rang 2 und Claude Opus 4.7 mit Adaptive Reasoning und Max Effort mit 57 Punkten auf Rang 3 [2].

Dieser Ausschnitt stützt einen leichten, aber sichtbaren Vorsprung von GPT-5.5 gegenüber Claude Opus 4.7 in diesem Index [2]. Für DeepSeek V4 und Kimi K2.6 liefert derselbe verfügbare Ausschnitt jedoch keine vollständigen, direkt zitierbaren Indexwerte für einen sauberen Vierer-Vergleich [2][7].

BrowseComp: DeepSeek V4 ist fast auf GPT-5.5-Niveau

BrowseComp ist der stärkste direkt zitierbare Dreiervergleich zwischen GPT-5.5, Claude Opus 4.7 und DeepSeek V4. VentureBeat nennt 90,1 % für GPT-5.5 Pro, 84,4 % für GPT-5.5, 83,4 % für DeepSeek V4 und 79,3 % für Claude Opus 4.7 [3].

Modell oder VarianteBrowseComp-WertEinordnung
GPT-5.5 Pro90,1 %Klar vorn in diesem Ausschnitt [3]
GPT-5.584,4 %Knapp vor DeepSeek V4 [3]
DeepSeek V483,4 %Nur 1,0 Prozentpunkt hinter GPT-5.5 [3]
Claude Opus 4.779,3 %Hinter GPT-5.5 und DeepSeek V4 [3]
Kimi K2.6Kein direkt vergleichbarer Wert in den bereitgestellten QuellenNicht fair rankbar [7]

VentureBeat bewertet DeepSeek-V4-Pro-Max trotz dieses starken Werts nicht als Modell, das GPT-5.5 oder Claude Opus 4.7 auf den direkt vergleichbaren Benchmarks insgesamt entthront [3]. Die bessere Lesart lautet daher: DeepSeek V4 ist bei BrowseComp sehr nah an GPT-5.5, aber aus diesem einen starken Benchmark folgt kein Gesamtsieg [3].

Coding und Software Engineering: Claude gewinnt SWE, GPT gewinnt Terminal

Bei Coding-Benchmarks gibt es keinen eindeutigen Gesamtsieger. Claude Opus 4.7 liegt bei SWE-Bench Pro mit 64,3 % vor GPT-5.5 mit 58,6 % [22][24]. Vellum nennt außerdem 87,6 % für Claude Opus 4.7 auf SWE-Bench Verified [20]. Bei Terminal-Bench 2.0 dreht sich das Bild: GPT-5.5 erreicht 82,7 %, Claude Opus 4.7 69,4 % [22][24].

BenchmarkGPT-5.5Claude Opus 4.7Aussage
SWE-Bench Pro58,6 %64,3 %Claude vorn [22][24]
SWE-Bench VerifiedKein direkt zitierter GPT-5.5-Wert in den bereitgestellten Quellen87,6 %Starker Claude-Wert, aber kein vollständiger Vierer-Vergleich [20]
Terminal-Bench 2.082,7 %69,4 %GPT-5.5 deutlich vorn [22][24]

Für DeepSeek V4 und Kimi K2.6 reichen die bereitgestellten Quellen in diesem Bereich nicht für dieselbe tabellarische Einordnung. VentureBeat sagt zwar, DeepSeek V4 komme auf mehreren direkt vergleichbaren Benchmarks nahe an die Spitzenmodelle heran, nennt im verfügbaren Ausschnitt aber die klarsten Zahlen für BrowseComp [3]. Für Kimi K2.6 liefert DocsBot vor allem Modell- und Architekturangaben, nicht die vollständige Vergleichsmatrix gegen alle drei anderen Modelle [7].

Reasoning, Wissen und professionelle Aufgaben: wechselnde Führung

Bei Wissens- und Reasoning-Tests liegen GPT-5.5 und Claude Opus 4.7 eng beieinander, aber die Führung hängt vom Benchmark und Tool-Setup ab. Bei GPQA Diamond nennt Vellum 93,6 % für GPT-5.5 und 94,2 % für Claude Opus 4.7 [22]. Mashable nennt dieselben GPQA-Diamond-Werte und ergänzt Humanity’s Last Exam: ohne Tools liegt GPT-5.5 mit 40,6 % vor Claude Opus 4.7 mit 31,2 %, mit Tools liegt Claude Opus 4.7 mit 54,7 % knapp vor GPT-5.5 mit 52,2 % [8].

BenchmarkGPT-5.5Claude Opus 4.7Sieger in den verfügbaren Zahlen
GPQA Diamond93,6 %94,2 %Claude Opus 4.7 knapp [8][22]
Humanity’s Last Exam40,6 %31,2 %GPT-5.5 [8]
Humanity’s Last Exam mit Tools52,2 %54,7 %Claude Opus 4.7 knapp [8]

Bei professionellen und agentischen Benchmarks ist das Bild ebenfalls gemischt. Vellum nennt GPT-5.5 mit 84,9 % bei GDPval gegenüber 80,3 % für Claude Opus 4.7, 78,7 % bei OSWorld-Verified gegenüber 78,0 % und 75,3 % bei MCP Atlas gegenüber 79,1 % für Claude [22]. OpenAI nennt für FinanceAgent v1.1 60,0 % bei GPT-5.5 und 64,4 % bei Claude Opus 4.7 [24].

BenchmarkGPT-5.5Claude Opus 4.7Aussage
GDPval84,9 %80,3 %GPT-5.5 vorn [22][24]
OSWorld-Verified78,7 %78,0 %GPT-5.5 knapp vorn [22]
MCP Atlas75,3 %79,1 %Claude Opus 4.7 vorn [22]
FinanceAgent v1.160,0 %64,4 %Claude Opus 4.7 vorn [24]

Anthropic verweist zusätzlich auf einen internen Research-Agent-Benchmark, in dem Claude Opus 4.7 laut Anthropic bei sechs Modulen den höchsten Gesamtscore von 0,715 teilte und im Modul General Finance 0,813 gegenüber 0,767 bei Opus 4.6 erreichte [6]. Da dieser Benchmark intern ist und die bereitgestellten Angaben nicht alle vier Modelle gleich abdecken, ist er eher ein Hinweis auf Claudes agentische Stärke als eine unabhängige Vierer-Rangliste [6].

Preis und Kontext: DeepSeek V4 fällt am stärksten auf

Für produktive Nutzung zählt nicht nur ein Benchmarkpunkt mehr oder weniger. Mashable nennt für DeepSeek V4 1,74 US-Dollar pro 1 Mio. Input-Tokens und 3,48 US-Dollar pro 1 Mio. Output-Tokens bei einem Kontextfenster von 1 Mio. Tokens [1]. Für GPT-5.5 nennt dieselbe Quelle 5 US-Dollar pro 1 Mio. Input-Tokens und 30 US-Dollar pro 1 Mio. Output-Tokens; für Claude Opus 4.7 5 US-Dollar Input und 25 US-Dollar Output pro 1 Mio. Tokens, jeweils ebenfalls mit 1 Mio. Kontext-Tokens [1].

ModellInput-Preis pro 1 Mio. TokensOutput-Preis pro 1 Mio. TokensKontextangabe in der Quelle
DeepSeek V41,74 US-Dollar3,48 US-Dollar1 Mio. Tokens [1]
GPT-5.55 US-Dollar30 US-Dollar1 Mio. Tokens [1]
Claude Opus 4.75 US-Dollar25 US-Dollar1 Mio. Tokens [1]
Kimi K2.6Keine belastbare Preisangabe in den bereitgestellten QuellenKeine belastbare Preisangabe in den bereitgestellten Quellen256K Tokens laut DocsBot [7]

Kimi K2.6 ist hier ein Sonderfall. DocsBot beschreibt das Modell mit 256K Kontext, 1T-Parameter-MoE-Architektur, 32B aktivierten Parametern und agentischer Orchestrierung bis zu 300 Sub-Agenten und 4.000 koordinierten Schritten [7]. Das sind relevante technische Eckdaten, ersetzen aber keine direkten Benchmark- und Preiswerte gegen GPT-5.5, Claude Opus 4.7 und DeepSeek V4 [7].

Welche Modellwahl ergibt sich daraus?

Wenn der Schwerpunkt ist …Wahrscheinlich bester StartpunktWarum
Stärkste belegte GesamtleistungGPT-5.5Führt den verfügbaren Intelligence-Index-Ausschnitt an und liegt bei BrowseComp vor Claude Opus 4.7 und knapp vor DeepSeek V4 [2][3]
SWE-Bench-orientiertes Software EngineeringClaude Opus 4.7Liegt bei SWE-Bench Pro vor GPT-5.5 und wird mit 87,6 % auf SWE-Bench Verified genannt [20][22][24]
Terminal-, Computer- und agentische AusführungGPT-5.5Führt bei Terminal-Bench 2.0 deutlich und liegt bei GDPval sowie OSWorld-Verified vor Claude Opus 4.7 [22][24]
Web-Recherche und niedrige API-KostenDeepSeek V4Erreicht 83,4 % bei BrowseComp und hat in den zitierten Angaben deutlich niedrigere API-Preise [1][3]
Test eines offenen multimodalen AgentenmodellsKimi K2.6Wird als open-source, nativ multimodales, agentisches Modell mit 256K Kontext beschrieben, hat aber keine vollständige direkte Vergleichsbasis in den bereitgestellten Quellen [7]

Fazit

Der stärkste Befund ist nicht, dass ein Modell alles gewinnt. GPT-5.5 ist in den verfügbaren Quellen der beste belegte Allrounder, weil es den Artificial-Analysis-Ausschnitt anführt und bei BrowseComp sowie mehreren professionellen Benchmarks stark abschneidet [2][3][22][24]. Claude Opus 4.7 bleibt ein Spitzenmodell, besonders bei SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond und einzelnen agentischen Finanzaufgaben [20][22][24]. DeepSeek V4 ist der auffälligste Preis-Leistungs-Kandidat, weil es bei BrowseComp fast GPT-5.5 erreicht und in den zitierten API-Preisen deutlich günstiger ist [1][3]. Kimi K2.6 sollte anhand dieser Quellen weder auf- noch abgewertet werden: Es braucht für eine faire Einordnung direkte, vergleichbare Benchmark- und Preiswerte [7].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Wichtige Erkenntnisse

  • GPT 5.5 ist in den verfügbaren Quellen der beste belegte Allrounder: 60 Punkte im Artificial Analysis Index und 84,4 % bei BrowseComp.
  • Claude Opus 4.7 liegt bei SWE Bench Pro mit 64,3 % vor GPT 5.5 mit 58,6 % und bei GPQA Diamond mit 94,2 % knapp vor GPT 5.5 mit 93,6 %; GPT 5.5 führt dafür bei Terminal Bench 2.0 mit 82,7 % gegen 69,4 % [22][24].
  • DeepSeek V4 ist der Preis Leistungs Kandidat: 83,4 % bei BrowseComp, nur 1,0 Prozentpunkt hinter GPT 5.5, bei deutlich niedrigeren zitierten API Preisen [1][3].

Die Leute fragen auch

Wie lautet die kurze Antwort auf „GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 im Benchmark-Vergleich“?

GPT 5.5 ist in den verfügbaren Quellen der beste belegte Allrounder: 60 Punkte im Artificial Analysis Index und 84,4 % bei BrowseComp.

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

GPT 5.5 ist in den verfügbaren Quellen der beste belegte Allrounder: 60 Punkte im Artificial Analysis Index und 84,4 % bei BrowseComp. Claude Opus 4.7 liegt bei SWE Bench Pro mit 64,3 % vor GPT 5.5 mit 58,6 % und bei GPQA Diamond mit 94,2 % knapp vor GPT 5.5 mit 93,6 %; GPT 5.5 führt dafür bei Terminal Bench 2.0 mit 82,7 % gegen 69,4 % [22][24].

Was soll ich als nächstes in der Praxis tun?

DeepSeek V4 ist der Preis Leistungs Kandidat: 83,4 % bei BrowseComp, nur 1,0 Prozentpunkt hinter GPT 5.5, bei deutlich niedrigeren zitierten API Preisen [1][3].

Welches verwandte Thema sollte ich als nächstes untersuchen?

Fahren Sie mit „Claude Opus 4.7 vs. GPT-5.5 vs. DeepSeek V4 vs. Kimi K2.6: Benchmark-Vergleich 2026“ für einen anderen Blickwinkel und zusätzliche Zitate fort.

Zugehörige Seite öffnen

Womit soll ich das vergleichen?

Vergleichen Sie diese Antwort mit „DeepSeek V4: 1 Mio. Token, MoE und der API-Umstieg“.

Zugehörige Seite öffnen

Setzen Sie Ihre Recherche fort

Forschungsgespräch

Du

Forschungsfrage

Recherchieren Sie die Benchmarks von Claude Opus 4.7, GPT-5.5, DeepSeek V4 und Kimi K2.6 und vergleichen Sie sie so umfassend wie möglich im Format eines Forschungsberichts, damit alle sie leicht verstehen können.

Studio Global AI26 Quellen

Zitierte Antwort

Auf Basis der vorliegenden Belege wirkt GPT-5.5 insgesamt am stärksten belegt: Es führt im genannten „Intelligence Index“ und liegt auch bei BrowseComp vor Claude Opus 4.7 und knapp vor DeepSeek V4 [6][7]. DeepSeek V4 ist besonders auffällig, weil es bei BrowseComp Claude Opus 4.7 schlägt und GPT-5.5 fast erreicht, aber die verfügbaren Belege reichen nicht, um es insgesamt vor GPT-5.5 oder Claude Opus 4.7 einzuordnen [7]. Für Kimi K2.6 fehlen belastbare Zahlenwerte; hier ist die Evidenz deutlich schwächer [21].

Key findings

  • GPT-5.5 wird im verfügbaren Artificial-Analysis-Ausschnitt als Nummer 1 und 2 des „Intelligence Index“ geführt: GPT-5.5 „xhigh“ mit 60 Punkten und GPT-5.5 „high“ mit 59 Punkten [6].

  • Claude Opus 4.7 wird im selben Ausschnitt mit „Adaptive Reasoning, Max Effort“ bei 57 Punkten genannt und damit hinter GPT-5.5 xhigh und GPT-5.5 high eingeordnet [6].

  • Bei BrowseComp erreicht DeepSeek V4 laut verfügbarem Bericht 83,4 %, Claude Opus 4.7 79,3 % und GPT-5.5 84,4 %; GPT-5.5 Pro liegt mit 90,1 % deutlich höher [7].

  • DeepSeek V4 schlägt Claude Opus 4.7 in BrowseComp, liegt dort aber knapp hinter GPT-5.5 und klar hinter GPT-5.5 Pro [7].

  • Trotz des starken BrowseComp-Werts heißt es im verfügbaren Bericht, DeepSeek-V4-Pro-Max entthrone GPT-5.5 oder Claude Opus 4.7 auf den direkt vergleichbaren Benchmarks insgesamt nicht [7].

  • Für Claude Opus 4.7 liegen mehrere konkrete Benchmarkwerte vor: SWE-bench Pro 64,3 %, SWE-bench Verified 87,6 %, Terminal-Bench 69,4 % und GPQA Diamond 94,2 % [3].

  • Ein weiterer verfügbarer Benchmarkhinweis nennt Claude Opus 4.7 mit 82,7 % auf FinanceBench, allerdings stammt dieser Wert aus einem sekundären Blogkontext und sollte vorsichtig interpretiert werden [2].

  • Für Kimi K2.6 enthält die verfügbare Evidenz keine belastbaren numerischen Benchmarkwerte; ein Reddit-Beitrag behauptet lediglich, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dort auf Platz 2 [21].

Vergleichstabelle

ModellBeste verfügbare EvidenzGenannte BenchmarkwerteEinordnung
GPT-5.5Führt den „Intelligence Index“ in zwei Varianten [6]Intelligence Index: 60 xhigh, 59 high; BrowseComp: 84,4 %; GPT-5.5 Pro BrowseComp: 90,1 % [6][7]Stärkster belegt unter den vier Modellen, vor allem im Intelligence Index und bei BrowseComp [6][7]
Claude Opus 4.7Platz 3 im genannten Intelligence Index-Ausschnitt [6]Intelligence Index: 57; BrowseComp: 79,3 %; SWE-bench Pro: 64,3 %; SWE-bench Verified: 87,6 %; Terminal-Bench: 69,4 %; GPQA Diamond: 94,2 %; FinanceBench: 82,7 % [2][3][6][7]Sehr stark belegt, aber in den verfügbaren Vergleichsdaten hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [6][7]
DeepSeek V4Sehr stark bei BrowseComp [7]BrowseComp: 83,4 %; API-Preis: $1.74 pro 1 Mio. Input-Tokens und $3.48 pro 1 Mio. Output-Tokens [5][7]Nahe an GPT-5.5 bei BrowseComp und besser als Claude Opus 4.7 in diesem Benchmark, aber nicht klarer Gesamtsieger [7]
Kimi K2.6Nur schwacher Rankinghinweis aus Reddit [21]Keine belastbaren Zahlenwerte in der bereitgestellten Evidenz [21]Insufficient evidence: Keine solide numerische Einordnung möglich [21]

Benchmark-für-Benchmark-Vergleich

Intelligence Index

  • GPT-5.5 liegt im verfügbaren Ausschnitt des „Intelligence Index“ auf Platz 1 mit 60 Punkten in der xhigh-Konfiguration und auf Platz 2 mit 59 Punkten in der high-Konfiguration [6].

  • Claude Opus 4.7 liegt in der Konfiguration „Adaptive Reasoning, Max Effort“ bei 57 Punkten und wird damit hinter beiden GPT-5.5-Varianten genannt [6].

  • Für DeepSeek V4 und Kimi K2.6 werden im verfügbaren Ausschnitt keine konkreten Intelligence-Index-Werte genannt [6].

BrowseComp

  • GPT-5.5 erreicht bei BrowseComp 84,4 %, während GPT-5.5 Pro 90,1 % erreicht [7].

  • DeepSeek V4 erreicht bei BrowseComp 83,4 % und liegt damit sehr knapp hinter GPT-5.5, aber deutlich hinter GPT-5.5 Pro [7].

  • Claude Opus 4.7 erreicht bei BrowseComp 79,3 % und liegt damit hinter DeepSeek V4 und GPT-5.5 [7].

  • Kimi K2.6 hat in der bereitgestellten Evidenz keinen BrowseComp-Wert [7][21].

Coding- und Software-Benchmarks

  • Claude Opus 4.7 wird mit 64,3 % auf SWE-bench Pro und 87,6 % auf SWE-bench Verified angegeben [3].

  • Claude Opus 4.7 wird außerdem mit etwa 70 % auf CursorBench genannt, aber dieser Vergleich stammt aus einem Kontext zu GPT-5.4, nicht GPT-5.5 [4].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren SWE-bench-Pro- oder SWE-bench-Verified-Werte vor [3][4][7][21].

  • Ein Reddit-Beitrag behauptet, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dahinter auf Platz 2, aber dieser Beleg ist schwächer als die übrigen Quellen und enthält im Ausschnitt keine konkreten Prozentwerte [21].

Reasoning- und Wissens-Benchmarks

  • Claude Opus 4.7 wird mit 94,2 % auf GPQA Diamond angegeben [3].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren GPQA-Diamond-Werte vor [3][6][7][21].

FinanceBench

  • Claude Opus 4.7 wird in einem verfügbaren Blogausschnitt mit 82,7 % auf FinanceBench erwähnt [2].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine FinanceBench-Werte vor [2][5][7][21].

Preis- und Kontextvergleich

  • DeepSeek V4 wird mit $1.74 pro 1 Million Input-Tokens und $3.48 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • GPT-5.5 wird mit $5 pro 1 Million Input-Tokens und $30 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • Für Claude Opus 4.7 ist im verfügbaren Ausschnitt nur der Beginn einer Preisangabe erkennbar, aber kein vollständiger Output-Preis, daher reicht die Evidenz für einen vollständigen Kostenvergleich nicht aus [5].

  • Für Kimi K2.6 enthält die bereitgestellte Evidenz keinen Preiswert [5][21].

Verständliche Einordnung

  • Wenn man nur die verfügbaren Zahlen betrachtet, ist GPT-5.5 der sicherste Kandidat für die stärkste Gesamtleistung, weil es den genannten Intelligence Index anführt und bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 liegt [6][7].

  • DeepSeek V4 ist der stärkste Herausforderer in den verfügbaren Zahlen, weil es bei BrowseComp mit 83,4 % fast GPT-5.5 erreicht und Claude Opus 4.7 übertrifft [7].

  • Claude Opus 4.7 ist am breitesten mit konkreten Einzelbenchmarks belegt, vor allem in SWE-bench, Terminal-Bench, GPQA Diamond und FinanceBench [2][3].

  • Kimi K2.6 kann anhand der bereitgestellten Evidenz nicht fair numerisch mit den anderen drei Modellen verglichen werden, weil die einzige konkrete Aussage nur ein schwacher Reddit-Rankinghinweis ohne Zahlenwerte ist [21].

Evidence notes

  • Die stärksten quantitativen Vergleichsdaten in der bereitgestellten Evidenz sind der Intelligence-Index-Ausschnitt und der BrowseComp-Vergleich, weil sie mehrere der angefragten Modelle direkt nebeneinander nennen [6][7].

  • Die Claude-Opus-4.7-Werte zu SWE-bench Pro, SWE-bench Verified, Terminal-Bench und GPQA Diamond sind nützlich, aber sie erlauben keinen vollständigen Vier-Modell-Vergleich, weil entsprechende Werte für GPT-5.5, DeepSeek V4 und Kimi K2.6 in der Evidenz fehlen [3].

  • Der Kimi-K2.6-Hinweis ist deutlich schwächer, weil er aus einem Reddit-Beitrag stammt und im verfügbaren Ausschnitt keine numerischen Ergebnisse enthält [21].

  • Ein Vergleich mit GPT-5.4 ist nur indirekt relevant, weil die Nutzerfrage GPT-5.5 betrifft; die verfügbare Quelle nennt dort außerdem, dass Benchmarkwerte teils vendor-reported sind und unterschiedliche Harness-Konfigurationen nutzen [4].

Limitations / uncertainty

  • Insufficient evidence: Für Kimi K2.6 fehlen belastbare Benchmarkzahlen in der bereitgestellten Evidenz [21].

  • Insufficient evidence: Für GPT-5.5 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench, FinanceBench und Vibe Code [6][7].

  • Insufficient evidence: Für DeepSeek V4 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench und FinanceBench [5][7][21].

  • Die Modelle werden teils in unterschiedlichen Varianten oder Testmodi genannt, etwa GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 „Adaptive Reasoning, Max Effort“ und DeepSeek-V4-Pro-Max, wodurch ein 1:1-Vergleich nur eingeschränkt möglich ist [6][7].

  • Die bereitgestellte Evidenz enthält keine vollständigen offiziellen Modellkarten oder Primärquellen mit einheitlichem Benchmark-Setup für alle vier Modelle [1][3][6][7].

Summary

  • GPT-5.5: Beste belegte Gesamtposition, führt den Intelligence Index und liegt bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 [6][7].

  • DeepSeek V4: Sehr stark bei BrowseComp, knapp hinter GPT-5.5 und vor Claude Opus 4.7; außerdem deutlich günstiger als GPT-5.5 in der verfügbaren Preisangabe [5][7].

  • Claude Opus 4.7: Sehr gut dokumentiert mit vielen Einzelbenchmarks, aber in den direkt verfügbaren Vergleichszahlen hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [2][3][6][7].

  • Kimi K2.6: Nicht seriös numerisch bewertbar, weil die bereitgestellte Evidenz nur einen schwachen Rankinghinweis ohne konkrete Zahlen enthält [21].

Quellen

  • [1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BrowseComp is the standout: DeepSeek’s 83.4% beats Claude Opus 4.7’s 79.3% and nearly matches GPT-5.5’s 84.4%, though GPT-5.5 Pro’s 90.1% remains well ahead. So ultimately, DeepSeek-V4-Pro-Max does not appear to dethrone GPT-5.5 or Claude Opus 4.7 on the be...

  • [6] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [7] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...

  • [8] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [20] Claude Opus 4.7 Benchmarks Explained - Vellumvellum.ai

    Is Claude Opus 4.7 the most powerful Claude model? No. Claude Mythos Preview is Anthropic's most capable model and leads Opus 4.7 on most benchmarks in the comparison table, including SWE-bench Pro (77.8% vs 64.3%), SWE-bench Verified (93.9% vs 87.6%), Term...

  • [21] Claude Opus 4.7 vs. GPT-5.4: Which Frontier Model Should You Use?datacamp.com

    --- --- Benchmark Claude Opus 4.7 GPT-5.4 Notes SWE-bench Pro 64.3% 57.7% Vendor-reported; different harness configurations SWE-bench Verified 87.6% Not published OpenAI has not released an official score on this variant CursorBench 70% Not published Cursor...

  • [22] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [24] Introducing GPT-5.5 - OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...