Der naheliegende Vergleich wäre eine Rangliste von Platz eins bis vier. Genau das geben die verfügbaren Daten aber nicht her. Die belastbarsten gemeinsamen Zahlen betreffen vor allem GPT-5.5 und Claude Opus 4.7 auf einzelnen Benchmarks. DeepSeek V4 und Kimi K2.6 tauchen in den zitierten Quellen eher als starke Open-Weights-Signale auf, nicht als vollständig vergleichbare Einträge in denselben Tests [6] [
8] [
14] [
15] [
20] [
21].
Für eine Produkt- oder Tool-Entscheidung ist deshalb die Frage nach dem Einsatzgebiet wichtiger als die Suche nach einem Gesamtsieger: GPT-5.5 hat in den vorliegenden ARC-AGI-Werten gegenüber Claude Opus 4.7 die Nase vorn, Claude Opus 4.7 führt auf MCP-Atlas, GPT-5.5 liefert das klarste zitierte Coding-Signal, und DeepSeek V4 sowie Kimi K2.6 lassen sich mit den hier verfügbaren Daten nicht sauber auf denselben Skalen einordnen [6] [
14] [
15] [
20] [
21].
Die wirklich vergleichbaren Zahlen
| Bereich oder Benchmark | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Vorsichtige Lesart |
|---|---|---|---|---|---|
| ARC-AGI-1 Verified | 95,0 % [ | 93,5 % [ | Kein vergleichbarer Wert in den zitierten Quellen | Kein vergleichbarer Wert in den zitierten Quellen | GPT-5.5 liegt in der OpenAI-Tabelle 1,5 Punkte vor Claude Opus 4.7 [ |
| ARC-AGI-2 Verified | 85,0 % [ | 75,8 % [ | Kein vergleichbarer Wert in den zitierten Quellen | Kein vergleichbarer Wert in den zitierten Quellen | Der Abstand zugunsten von GPT-5.5 ist hier deutlicher, allerdings bleibt die OpenAI-Methodik zu beachten [ |
| MCP-Atlas | 75,3 % [ | 79,1 % [ | Kein vergleichbarer Wert in den zitierten Quellen | Kein vergleichbarer Wert in den zitierten Quellen | Claude Opus 4.7 liegt auf diesem Benchmark für Tool-Orchestrierung vor GPT-5.5 [ |
| Terminal-Bench 2.0 / agentisches Coding | 82,7 % berichtet [ | Kein vergleichbarer Wert in den zitierten Quellen | Kein vergleichbarer Wert in den zitierten Quellen | Kein vergleichbarer Wert in den zitierten Quellen | Starkes Signal für GPT-5.5, aber kein vollständiges Vierer-Ranking [ |
| Open-Weights / Artificial Analysis | Hier nicht vergleichbar | Hier nicht vergleichbar | DeepSeek V4 Pro (Max) wird mit 52 im Artificial Analysis Intelligence Index angegeben, gegenüber 42 für V3.2 [ | Artificial Analysis verweist auf eine Analyse mit dem Titel Kimi K2.6: The new leading open weights model, ohne im vorliegenden Material einen direkt nutzbaren Score zu liefern [ | Diese Signale sind wichtig, ersetzen aber keinen gemeinsamen Benchmark [ |
| Safety und Cybersicherheit | CoT-Control umfasst mehr als 13.000 Aufgaben; eine Sekundärquelle berichtet außerdem 93 % auf einem Cyber Range und einen universellen Jailbreak nach sechs Stunden Red-Teaming [ | Kein vergleichbarer Wert in den zitierten Quellen | Kein vergleichbarer Wert in den zitierten Quellen | Kein vergleichbarer Wert in den zitierten Quellen | Das ist kein Safety-Ranking der vier Modelle [ |
Fehlende Einträge bedeuten nicht, dass DeepSeek V4 oder Kimi K2.6 schwach wären. Sie bedeuten nur: In den hier vorliegenden Quellen gibt es keine sauber vergleichbaren Scores auf denselben Benchmarks, mit denselben Einstellungen und derselben Detailtiefe [8] [
20] [
21].
ARC-AGI: GPT-5.5 führt, aber nur in diesem Ausschnitt
Auf den beiden in OpenAIs Launch-Seite genannten ARC-AGI-Werten liegt GPT-5.5 vor Claude Opus 4.7. Bei ARC-AGI-1 Verified erreicht GPT-5.5 95,0 %, Claude Opus 4.7 93,5 %. Bei ARC-AGI-2 Verified sind es 85,0 % gegenüber 75,8 % [6].
Das ist ein klarer Vorsprung auf diesen Messpunkten. Es ist aber kein Beweis, dass GPT-5.5 in jedem realen Szenario überlegen ist. Entscheidend ist auch die Methodik: OpenAI weist darauf hin, dass die GPT-Evaluierungen mit Reasoning Effort „xhigh“ in einer Forschungsumgebung liefen und die Ausgaben in Einzelfällen leicht von Produktions-ChatGPT abweichen können [6].
Für Leserinnen und Leser, die Benchmarks vor allem als Kaufargument sehen: ARC-AGI ist ein nützliches Signal für abstraktes Schlussfolgern. Es ist aber nicht dasselbe wie Zuverlässigkeit in langen Tool-Ketten, Kostenkontrolle, Latenz oder Sicherheit im Betrieb.
Tool-Agenten: Claude Opus 4.7 hat das stärkste MCP-Signal
Der wichtigste Punkt zugunsten von Claude Opus 4.7 kommt aus MCP-Atlas. Eine Sekundäranalyse nennt 79,1 % für Claude Opus 4.7 und 75,3 % für GPT-5.5. Der Vorsprung wird dort mit zuverlässigerem Tool-Calling in komplexen, verketteten Szenarien über das Model Context Protocol verbunden [14].
Das ist für Teams relevant, die nicht nur Text generieren lassen, sondern Agenten bauen: Systeme, die mehrere externe Werkzeuge, Datenquellen oder Arbeitsschritte in einer Kette koordinieren. Wenn ein Produkt stark von MCP-Orchestrierung, Tool-Aufrufen und mehrstufigen Workflows abhängt, spricht der hier zitierte Benchmark eher für Claude Opus 4.7 als für GPT-5.5 [14].
Agentisches Coding: Starkes GPT-5.5-Signal, aber kein endgültiger Sieg
Für Terminal- und Coding-Agenten liegt der klarste zitierte Einzelwert bei GPT-5.5: 82,7 % auf Terminal-Bench 2.0 [15]. Das ist der verwertbarste Coding-Wert in den angegebenen Quellen dieses Vergleichs.
Die Einschränkung ist genauso wichtig wie die Zahl selbst. Für Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 liefern die hier verfügbaren Quellen keine vollständige Terminal-Bench-2.0-Tabelle. Sauber formuliert heißt das: GPT-5.5 hat auf diesem Punkt das stärkste dokumentierte Signal, aber daraus folgt nicht automatisch, dass es die drei anderen Modelle unter allen Coding-Bedingungen schlägt [15].
DeepSeek V4 und Kimi K2.6: Ernst zu nehmen, aber hier schwer zu ranken
DeepSeek V4 und Kimi K2.6 spielen vor allem in der Open-Weights-Kategorie eine Rolle, also bei Modellen, deren Gewichte zugänglich sind und die für bestimmte Deployment-Strategien interessanter sein können. Die zitierten Quellen reichen aber nicht aus, um sie sauber mit GPT-5.5 und Claude Opus 4.7 auf ARC-AGI, MCP-Atlas oder Terminal-Bench 2.0 zu vergleichen [8] [
20] [
21].
Für DeepSeek meldet Artificial Analysis, dass DeepSeek mit V4 wieder zu den führenden Open-Weights-Modellen zählt [20]. Der konkreteste hier verfügbare Zahlenwert betrifft DeepSeek V4 Pro (Max): 52 Punkte im Artificial Analysis Intelligence Index, nach 42 Punkten für DeepSeek V3.2 [
21].
Für Kimi K2.6 verweist Artificial Analysis auf eine Analyse mit dem Titel Kimi K2.6: The new leading open weights model [8]. Das ist ein starkes Positionierungssignal. Es liefert in den vorliegenden Quellen aber nicht die Score-Tabelle, die nötig wäre, um Kimi K2.6 direkt gegen DeepSeek V4, GPT-5.5 und Claude Opus 4.7 auf denselben Benchmarks auszuwerten [
8] [
21].
Safety und Cybersicherheit: Fähigkeiten sind keine Sicherheitsgarantie
Bei Safety-Werten ist besondere Vorsicht angebracht. Die GPT-5.5-Systemkarte beschreibt CoT-Control als Evaluierungssuite mit mehr als 13.000 Aufgaben, die auf etablierten Benchmarks wie GPQA, MMLU-Pro, HLE, BFCL und SWE-Bench Verified aufbauen [3]. Das sagt etwas über die Kontrolle von Chain-of-Thought-Anweisungen aus, ist aber kein direkter Vierer-Vergleich zwischen GPT-5.5, Claude Opus 4.7, DeepSeek V4 und Kimi K2.6 [
3].
Eine weitere Quelle berichtet für GPT-5.5 93 % Erfolgsquote auf einem Cyber Range, also einer simulierten Cyberumgebung, nennt zugleich aber einen universellen Jailbreak, der innerhalb von sechs Stunden Red-Teaming gefunden worden sein soll [1]. Beides muss zusammen gelesen werden: Hohe Leistung in Cyberaufgaben bedeutet nicht automatisch robuste Sicherheit im breiten Einsatz [
1].
Eine externe Kritik betont außerdem, dass die Safety-Einschätzung von GPT-5.5 stark von OpenAIs eigenen Angaben abhängt. Das begrenzt, was man allein aus veröffentlichten Anbieterinformationen schließen sollte [19].
Welches Modell passt zu welchem Einsatz?
- Abstraktes Schlussfolgern: GPT-5.5 ist gegenüber Claude Opus 4.7 auf den zitierten ARC-AGI-Werten besser belegt. Der Hinweis auf „xhigh“ Reasoning Effort und Forschungsumgebung bleibt aber wichtig [
6].
- Multi-Tool-Agenten und MCP-Workflows: Claude Opus 4.7 hat mit 79,1 % gegenüber 75,3 % für GPT-5.5 den besseren zitierten MCP-Atlas-Wert [
14].
- Agentisches Coding im Terminal: GPT-5.5 liefert mit 82,7 % auf Terminal-Bench 2.0 den klarsten Zahlenwert. Die Vergleichsdaten für die anderen drei Modelle fehlen hier jedoch [
15].
- Open-Weights-Deployments: DeepSeek V4 und Kimi K2.6 sollten geprüft werden, wenn offene Gewichte, Deployment-Kontrolle oder Kosten-Leistungs-Abwägungen im Vordergrund stehen. Die vorhandenen Quellen reichen aber nicht für ein gemeinsames Ranking [
8] [
20] [
21].
- Sensible oder regulierte Anwendungen: Capability-Benchmarks, Cyber-Ergebnisse und Safety-Evaluierungen messen unterschiedliche Dinge. Sie sollten nicht in einen einzigen Score vermischt werden [
1] [
3] [
19].
Was man daraus nicht schließen sollte
Man sollte nicht folgern, GPT-5.5 sei automatisch das beste Modell für alles, nur weil es in den verfügbaren ARC-AGI-Werten vor Claude Opus 4.7 liegt [6]. Ebenso wenig belegt der MCP-Atlas-Vorsprung von Claude Opus 4.7 eine generelle Überlegenheit in allen Aufgaben [
14]. Jeder Benchmark misst einen anderen Ausschnitt.
Auch DeepSeek V4 und Kimi K2.6 lassen sich auf Basis der vorliegenden Quellen nicht fair gegen die beiden großen proprietären Modelle einordnen. Die Artificial-Analysis-Signale zeigen, dass beide im Open-Weights-Ökosystem relevant sind, aber sie ersetzen keine identische Testmatrix mit denselben Metriken [8] [
20] [
21].
Und schließlich gilt: Ein hoher Fähigkeitswert ist keine Safety-Garantie. Die verfügbaren Informationen zu GPT-5.5 zeigen gerade, dass starke Cyber-Performance neben offenen Fragen zu Jailbreaks und unabhängiger Prüfung stehen kann [1] [
19].
Fazit
Der ehrlichste Vergleich lautet: GPT-5.5 führt in den verfügbaren ARC-AGI-Werten gegenüber Claude Opus 4.7 und hat das klarste zitierte Signal für agentisches Coding. Claude Opus 4.7 führt auf MCP-Atlas. DeepSeek V4 und Kimi K2.6 sind relevante Open-Weights-Kandidaten, lassen sich mit den hier verfügbaren Daten aber nicht sauber gegen die beiden anderen Modelle ranken [6] [
8] [
14] [
15] [
20] [
21].
Für eine reale Entscheidung zählt daher nicht die schönste Rangliste, sondern ein eigener Test auf den eigenen Aufgaben: Reasoning, Tool-Aufrufe, Code, Latenz, Kosten, Deployment-Vorgaben und akzeptables Risiko.




