studioglobal
Tendencias en Descubrir
InformesPublicado10 fuentes

GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 y Kimi K2.6: quién lidera los benchmarks

GPT 5.5 es el all rounder mejor respaldado: 60 puntos en GPT 5.5 xhigh y 59 en high dentro del Intelligence Index, frente a 57 de Claude Opus 4.7 [2]. Claude Opus 4.7 gana en SWE Bench Pro, con 64,3 % frente al 58,6 % de GPT 5.5, y queda apenas por delante en GPQA Diamond, con 94,2 % frente a 93,6 % [22][24].

17K0
Abstrakte Illustration eines KI-Benchmark-Dashboards mit mehreren konkurrierenden Sprachmodellen
GPT-5.5 vsKI-generierte redaktionelle Illustration zu einem Vergleich aktueller Sprachmodell-Benchmarks.
Prompt de IA

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 und Kimi K2.6: Benchmark-Vergleich. Article summary: GPT 5.5 ist in den verfügbaren Quellen der stärkste belegte Allrounder: Es führt den Artificial Analysis Index mit 60 Punkten in der xhigh Konfiguration und liegt bei BrowseComp mit 84,4 % vor Claude Opus 4.7.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB

openai.com

Una tabla de posiciones simple sería cómoda, pero engañosa. Las fuentes disponibles no someten GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6 a una misma prueba independiente, con el mismo arnés de evaluación y las mismas variantes de modelo; mezclan recortes de benchmarks, configuraciones de razonamiento, análisis de proveedores y comparativas secundarias [2][3][7][21].

Aun así, el patrón general sí es útil para quien tiene que elegir un modelo para investigar, programar, automatizar tareas o controlar costes: GPT-5.5 tiene la posición global mejor documentada, Claude Opus 4.7 gana en varios indicadores fuertes de código y conocimiento, DeepSeek V4 es el rival más llamativo por precio-rendimiento y Kimi K2.6 no se puede ordenar con justicia por falta de cifras comparables [1][2][3][7][22][24].

Veredicto rápido

GPT-5.5 es el punto de partida más sólido si se busca rendimiento general. En el fragmento disponible del Intelligence Index de Artificial Analysis, GPT-5.5 aparece primero en configuración xhigh con 60 puntos y segundo en configuración high con 59 puntos; Claude Opus 4.7 figura después con 57 puntos [2]. En BrowseComp, GPT-5.5 marca 84,4 %, por encima de DeepSeek V4 con 83,4 % y de Claude Opus 4.7 con 79,3 % [3].

Claude Opus 4.7 es especialmente fuerte en software y conocimiento. En SWE-Bench Pro alcanza 64,3 %, frente al 58,6 % de GPT-5.5, y en GPQA Diamond queda ligeramente por delante con 94,2 % frente a 93,6 % [22][24]. El matiz importante: GPT-5.5 domina Terminal-Bench 2.0 con 82,7 %, frente al 69,4 % de Claude Opus 4.7 [22][24].

DeepSeek V4 es el candidato de precio-rendimiento. VentureBeat sitúa a DeepSeek V4 en 83,4 % en BrowseComp, apenas 1,0 punto porcentual por detrás de GPT-5.5 y por encima de Claude Opus 4.7 [3]. Mashable, además, cita precios de API de US$ 1,74 por 1 millón de tokens de entrada y US$ 3,48 por 1 millón de tokens de salida para DeepSeek V4, frente a US$ 5/US$ 30 en GPT-5.5 y US$ 5/US$ 25 en Claude Opus 4.7 [1].

Kimi K2.6 merece seguimiento, pero no una posición cerrada en el ranking. DocsBot lo describe como un modelo de código abierto, multimodal nativo y agentico, con arquitectura MoE de 1T parámetros, 32B parámetros activados y 256K tokens de contexto [7]. Lo que falta, en estas fuentes, es una matriz de benchmarks directa y suficiente contra GPT-5.5, Claude Opus 4.7 y DeepSeek V4 [7].

Comparativa de un vistazo

ModeloLo que mejor demuestran los datosCifras clave citadasLectura práctica
GPT-5.5Lidera el recorte disponible del Intelligence Index [2]Intelligence Index: 60 xhigh y 59 high [2]; BrowseComp: 84,4 %, GPT-5.5 Pro: 90,1 % [3]; Terminal-Bench 2.0: 82,7 % [22][24]Mejor punto de partida general, aunque no gana todos los benchmarks
Claude Opus 4.7Muy fuerte en SWE-Bench, GPQA y algunas tareas agenticas [20][22][24]Intelligence Index: 57 [2]; SWE-Bench Pro: 64,3 % [22][24]; SWE-Bench Verified: 87,6 % [20]; GPQA Diamond: 94,2 % [22]Muy atractivo para programación, revisión técnica, conocimiento experto y finanzas
DeepSeek V4Se acerca mucho a GPT-5.5 en BrowseComp [3]BrowseComp: 83,4 % [3]; API: US$ 1,74 entrada y US$ 3,48 salida por 1 millón de tokens [1]Fuerte si importan la búsqueda web, la investigación y el coste por uso
Kimi K2.6Se presenta como modelo abierto, multimodal y agentico de largo contexto [7]1T parámetros MoE, 32B activados y 256K contexto según DocsBot [7]Interesante para pruebas técnicas, pero no comparable numéricamente con esta evidencia

Por qué estos benchmarks no son una liga deportiva

La primera cautela es metodológica. DataCamp recuerda, en una comparativa relacionada de modelos frontera, que muchos resultados pueden ser reportados por proveedores y usar configuraciones de arnés distintas [21]. En la práctica, eso significa que una diferencia de varios puntos puede depender no solo del modelo, sino también del modo de razonamiento, las herramientas permitidas, el tiempo de cómputo o la forma exacta de ejecutar la prueba.

También hay variantes que no conviene mezclar sin cuidado. Artificial Analysis distingue GPT-5.5 xhigh, GPT-5.5 high y Claude Opus 4.7 con Adaptive Reasoning y Max Effort [2]. VentureBeat, al hablar de DeepSeek, se refiere a DeepSeek-V4-Pro-Max [3]. En tareas de programación, uso de terminal o agentes, esas diferencias pueden pesar mucho.

Por eso la pregunta útil no es solo quién gana, sino qué modelo está mejor respaldado para cada tipo de trabajo.

Rendimiento general: ventaja documentada para GPT-5.5

El indicador global más claro entre las fuentes es el recorte del Intelligence Index de Artificial Analysis. Ahí, GPT-5.5 xhigh aparece con 60 puntos, GPT-5.5 high con 59 y Claude Opus 4.7, con Adaptive Reasoning y Max Effort, con 57 [2].

Ese dato sostiene una ventaja moderada pero visible de GPT-5.5 sobre Claude Opus 4.7 en ese índice [2]. Para DeepSeek V4 y Kimi K2.6, el mismo recorte disponible no ofrece valores completos y directamente citables que permitan cerrar una comparativa limpia entre los cuatro [2][7].

BrowseComp: DeepSeek V4 se queda muy cerca

BrowseComp es el cruce más claro entre GPT-5.5, Claude Opus 4.7 y DeepSeek V4. VentureBeat cita 90,1 % para GPT-5.5 Pro, 84,4 % para GPT-5.5, 83,4 % para DeepSeek V4 y 79,3 % para Claude Opus 4.7 [3].

Modelo o varianteResultado en BrowseCompLectura
GPT-5.5 Pro90,1 %Muy por delante en este recorte [3]
GPT-5.584,4 %Apenas por encima de DeepSeek V4 [3]
DeepSeek V483,4 %Solo 1,0 punto porcentual detrás de GPT-5.5 [3]
Claude Opus 4.779,3 %Por detrás de GPT-5.5 y DeepSeek V4 [3]
Kimi K2.6Sin valor directamente comparable en las fuentesNo se puede ordenar de forma justa [7]

La lectura prudente es esta: DeepSeek V4 impresiona en BrowseComp, pero VentureBeat no lo presenta como un modelo que desbanque en conjunto a GPT-5.5 o Claude Opus 4.7 en los benchmarks directamente comparables [3]. Su argumento más fuerte, por tanto, no es la corona absoluta, sino acercarse mucho con un coste de API muy inferior [1][3].

Programación y software: Claude gana SWE; GPT gana Terminal

En benchmarks de desarrollo no hay un ganador único. Claude Opus 4.7 queda por delante en SWE-Bench Pro, con 64,3 % frente al 58,6 % de GPT-5.5 [22][24]. Vellum también cita un 87,6 % de Claude Opus 4.7 en SWE-Bench Verified [20].

La fotografía cambia en Terminal-Bench 2.0: GPT-5.5 alcanza 82,7 %, muy por encima del 69,4 % de Claude Opus 4.7 [22][24]. Es decir, Claude aparece mejor posicionado en resolución de incidencias de software tipo SWE-Bench, mientras que GPT-5.5 sale reforzado en tareas de terminal y ejecución.

BenchmarkGPT-5.5Claude Opus 4.7Quién queda delante
SWE-Bench Pro58,6 %64,3 %Claude Opus 4.7 [22][24]
SWE-Bench VerifiedSin valor directo de GPT-5.5 en estas fuentes87,6 %Buen dato de Claude, pero no comparativa completa [20]
Terminal-Bench 2.082,7 %69,4 %GPT-5.5 [22][24]

Para DeepSeek V4 y Kimi K2.6, las fuentes incluidas no alcanzan el mismo nivel de detalle numérico en programación. VentureBeat señala que DeepSeek V4 se acerca a los modelos punteros en varios benchmarks directamente comparables, pero el dato más claro del recorte es BrowseComp [3]. En el caso de Kimi K2.6, DocsBot aporta sobre todo descripción técnica y de arquitectura, no una tabla completa contra los otros tres modelos [7].

Razonamiento, conocimiento y tareas profesionales

En conocimiento y razonamiento, GPT-5.5 y Claude Opus 4.7 se mueven muy cerca. En GPQA Diamond, Vellum cita 93,6 % para GPT-5.5 y 94,2 % para Claude Opus 4.7 [22]. Mashable recoge esos mismos valores y añade Humanity’s Last Exam: sin herramientas, GPT-5.5 queda por delante con 40,6 % frente a 31,2 %; con herramientas, Claude Opus 4.7 pasa ligeramente al frente con 54,7 % frente a 52,2 % [8].

BenchmarkGPT-5.5Claude Opus 4.7Resultado en las cifras disponibles
GPQA Diamond93,6 %94,2 %Claude Opus 4.7 por poco [8][22]
Humanity’s Last Exam40,6 %31,2 %GPT-5.5 [8]
Humanity’s Last Exam con herramientas52,2 %54,7 %Claude Opus 4.7 por poco [8]

En tareas profesionales y agenticas, el patrón vuelve a ser mixto. Vellum cita a GPT-5.5 con 84,9 % en GDPval frente al 80,3 % de Claude Opus 4.7; 78,7 % en OSWorld-Verified frente a 78,0 %; y 75,3 % en MCP Atlas frente al 79,1 % de Claude [22]. OpenAI, por su parte, cita FinanceAgent v1.1 con 60,0 % para GPT-5.5 y 64,4 % para Claude Opus 4.7 [24].

BenchmarkGPT-5.5Claude Opus 4.7Lectura
GDPval84,9 %80,3 %GPT-5.5 por delante [22][24]
OSWorld-Verified78,7 %78,0 %GPT-5.5 por poco [22]
MCP Atlas75,3 %79,1 %Claude Opus 4.7 por delante [22]
FinanceAgent v1.160,0 %64,4 %Claude Opus 4.7 por delante [24]

Anthropic también menciona un benchmark interno de agentes de investigación en el que Claude Opus 4.7 compartió la mayor puntuación total, 0,715, en seis módulos y logró 0,813 en General Finance frente a 0,767 de Opus 4.6 [6]. Como es una evaluación interna y no cubre de forma simétrica los cuatro modelos, conviene leerla como indicio de fortaleza agentica de Claude, no como ranking independiente definitivo [6].

Precio y ventana de contexto: DeepSeek V4 cambia la conversación

Para uso real, un punto más o menos en un benchmark no siempre compensa el coste. Mashable cita para DeepSeek V4 un precio de US$ 1,74 por 1 millón de tokens de entrada y US$ 3,48 por 1 millón de tokens de salida, con una ventana de contexto de 1 millón de tokens [1]. En la misma comparación, GPT-5.5 aparece con US$ 5 por 1 millón de tokens de entrada y US$ 30 por 1 millón de tokens de salida; Claude Opus 4.7, con US$ 5 de entrada y US$ 25 de salida, ambos también con 1 millón de tokens de contexto [1].

ModeloEntrada por 1 millón de tokensSalida por 1 millón de tokensContexto citado
DeepSeek V4US$ 1,74US$ 3,481 millón de tokens [1]
GPT-5.5US$ 5US$ 301 millón de tokens [1]
Claude Opus 4.7US$ 5US$ 251 millón de tokens [1]
Kimi K2.6Sin precio fiable en las fuentes incluidasSin precio fiable en las fuentes incluidas256K tokens según DocsBot [7]

Aquí DeepSeek V4 tiene su mejor argumento práctico: si un equipo procesa grandes volúmenes mediante API, la diferencia de coste puede importar tanto como el ranking. Kimi K2.6 queda en otra categoría: DocsBot lo describe con 256K de contexto, arquitectura MoE de 1T parámetros, 32B activados y orquestación agentica de hasta 300 subagentes y 4.000 pasos coordinados [7]. Son datos técnicos relevantes, pero no sustituyen resultados de benchmark y precios directamente comparables [7].

Qué modelo elegir según el uso

Si tu prioridad es…Mejor punto de partidaPor qué
Rendimiento general mejor documentadoGPT-5.5Lidera el recorte del Intelligence Index y queda por delante de Claude Opus 4.7 y apenas por encima de DeepSeek V4 en BrowseComp [2][3]
Ingeniería de software orientada a SWE-BenchClaude Opus 4.7Supera a GPT-5.5 en SWE-Bench Pro y se cita con 87,6 % en SWE-Bench Verified [20][22][24]
Terminal, ejecución y tareas agenticas de computadoraGPT-5.5Gana con claridad en Terminal-Bench 2.0 y queda delante en GDPval y OSWorld-Verified [22][24]
Investigación web y coste bajo de APIDeepSeek V4Logra 83,4 % en BrowseComp y tiene precios de API notablemente inferiores en las cifras citadas [1][3]
Probar un modelo abierto, multimodal y agenticoKimi K2.6Se describe como modelo de código abierto con 256K de contexto, aunque falta una base completa de comparación directa [7]

Conclusión

El resultado más honesto no es que un modelo lo gane todo. GPT-5.5 es el all-rounder mejor respaldado por las fuentes: lidera el recorte del Intelligence Index y se mantiene fuerte en BrowseComp, Terminal-Bench 2.0 y varios benchmarks profesionales [2][3][22][24]. Claude Opus 4.7 sigue siendo un modelo de primera línea, especialmente atractivo en SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond y ciertas tareas financieras o agenticas [20][22][24]. DeepSeek V4 es el retador más llamativo por precio-rendimiento, al acercarse mucho a GPT-5.5 en BrowseComp con costes de API mucho más bajos en las cifras citadas [1][3]. Kimi K2.6, por ahora, debe tratarse como una opción técnica prometedora pero no como un competidor que pueda colocarse con precisión en la misma tabla sin más benchmarks comparables [7].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

  • GPT 5.5 es el all rounder mejor respaldado: 60 puntos en GPT 5.5 xhigh y 59 en high dentro del Intelligence Index, frente a 57 de Claude Opus 4.7 [2].
  • Claude Opus 4.7 gana en SWE Bench Pro, con 64,3 % frente al 58,6 % de GPT 5.5, y queda apenas por delante en GPQA Diamond, con 94,2 % frente a 93,6 % [22][24].
  • DeepSeek V4 destaca por precio rendimiento: 83,4 % en BrowseComp, solo 1,0 punto porcentual por debajo de GPT 5.5, y precios de API inferiores en las fuentes citadas [1][3].
  • Kimi K2.6 es técnicamente interesante como modelo abierto, multimodal y agentico, pero las fuentes disponibles no dan suficientes cifras directas para ordenarlo de forma justa junto a los otros tres [7].

La gente también pregunta

¿Cuál es la respuesta corta a "GPT-5.5 vs. Claude Opus 4.7, DeepSeek V4 y Kimi K2.6: quién lidera los benchmarks"?

GPT 5.5 es el all rounder mejor respaldado: 60 puntos en GPT 5.5 xhigh y 59 en high dentro del Intelligence Index, frente a 57 de Claude Opus 4.7 [2].

¿Cuáles son los puntos clave a validar primero?

GPT 5.5 es el all rounder mejor respaldado: 60 puntos en GPT 5.5 xhigh y 59 en high dentro del Intelligence Index, frente a 57 de Claude Opus 4.7 [2]. Claude Opus 4.7 gana en SWE Bench Pro, con 64,3 % frente al 58,6 % de GPT 5.5, y queda apenas por delante en GPQA Diamond, con 94,2 % frente a 93,6 % [22][24].

¿Qué debo hacer a continuación en la práctica?

DeepSeek V4 destaca por precio rendimiento: 83,4 % en BrowseComp, solo 1,0 punto porcentual por debajo de GPT 5.5, y precios de API inferiores en las fuentes citadas [1][3].

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "Madera del Noroeste vs. del Sureste: por qué la respuesta es larger; larger".

Abrir página relacionada

Continúe su investigación

Conversación de investigación

Pregunta de investigación

Recherchieren Sie die Benchmarks von Claude Opus 4.7, GPT-5.5, DeepSeek V4 und Kimi K2.6 und vergleichen Sie sie so umfassend wie möglich im Format eines Forschungsberichts, damit alle sie leicht verstehen können.

Studio Global AI26 fuentes

Respuesta citada

Auf Basis der vorliegenden Belege wirkt GPT-5.5 insgesamt am stärksten belegt: Es führt im genannten „Intelligence Index“ und liegt auch bei BrowseComp vor Claude Opus 4.7 und knapp vor DeepSeek V4 [6][7]. DeepSeek V4 ist besonders auffällig, weil es bei BrowseComp Claude Opus 4.7 schlägt und GPT-5.5 fast erreicht, aber die verfügbaren Belege reichen nicht, um es insgesamt vor GPT-5.5 oder Claude Opus 4.7 einzuordnen [7]. Für Kimi K2.6 fehlen belastbare Zahlenwerte; hier ist die Evidenz deutlich schwächer [21].

Key findings

  • GPT-5.5 wird im verfügbaren Artificial-Analysis-Ausschnitt als Nummer 1 und 2 des „Intelligence Index“ geführt: GPT-5.5 „xhigh“ mit 60 Punkten und GPT-5.5 „high“ mit 59 Punkten [6].

  • Claude Opus 4.7 wird im selben Ausschnitt mit „Adaptive Reasoning, Max Effort“ bei 57 Punkten genannt und damit hinter GPT-5.5 xhigh und GPT-5.5 high eingeordnet [6].

  • Bei BrowseComp erreicht DeepSeek V4 laut verfügbarem Bericht 83,4 %, Claude Opus 4.7 79,3 % und GPT-5.5 84,4 %; GPT-5.5 Pro liegt mit 90,1 % deutlich höher [7].

  • DeepSeek V4 schlägt Claude Opus 4.7 in BrowseComp, liegt dort aber knapp hinter GPT-5.5 und klar hinter GPT-5.5 Pro [7].

  • Trotz des starken BrowseComp-Werts heißt es im verfügbaren Bericht, DeepSeek-V4-Pro-Max entthrone GPT-5.5 oder Claude Opus 4.7 auf den direkt vergleichbaren Benchmarks insgesamt nicht [7].

  • Für Claude Opus 4.7 liegen mehrere konkrete Benchmarkwerte vor: SWE-bench Pro 64,3 %, SWE-bench Verified 87,6 %, Terminal-Bench 69,4 % und GPQA Diamond 94,2 % [3].

  • Ein weiterer verfügbarer Benchmarkhinweis nennt Claude Opus 4.7 mit 82,7 % auf FinanceBench, allerdings stammt dieser Wert aus einem sekundären Blogkontext und sollte vorsichtig interpretiert werden [2].

  • Für Kimi K2.6 enthält die verfügbare Evidenz keine belastbaren numerischen Benchmarkwerte; ein Reddit-Beitrag behauptet lediglich, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dort auf Platz 2 [21].

Vergleichstabelle

ModellBeste verfügbare EvidenzGenannte BenchmarkwerteEinordnung
GPT-5.5Führt den „Intelligence Index“ in zwei Varianten [6]Intelligence Index: 60 xhigh, 59 high; BrowseComp: 84,4 %; GPT-5.5 Pro BrowseComp: 90,1 % [6][7]Stärkster belegt unter den vier Modellen, vor allem im Intelligence Index und bei BrowseComp [6][7]
Claude Opus 4.7Platz 3 im genannten Intelligence Index-Ausschnitt [6]Intelligence Index: 57; BrowseComp: 79,3 %; SWE-bench Pro: 64,3 %; SWE-bench Verified: 87,6 %; Terminal-Bench: 69,4 %; GPQA Diamond: 94,2 %; FinanceBench: 82,7 % [2][3][6][7]Sehr stark belegt, aber in den verfügbaren Vergleichsdaten hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [6][7]
DeepSeek V4Sehr stark bei BrowseComp [7]BrowseComp: 83,4 %; API-Preis: $1.74 pro 1 Mio. Input-Tokens und $3.48 pro 1 Mio. Output-Tokens [5][7]Nahe an GPT-5.5 bei BrowseComp und besser als Claude Opus 4.7 in diesem Benchmark, aber nicht klarer Gesamtsieger [7]
Kimi K2.6Nur schwacher Rankinghinweis aus Reddit [21]Keine belastbaren Zahlenwerte in der bereitgestellten Evidenz [21]Insufficient evidence: Keine solide numerische Einordnung möglich [21]

Benchmark-für-Benchmark-Vergleich

Intelligence Index

  • GPT-5.5 liegt im verfügbaren Ausschnitt des „Intelligence Index“ auf Platz 1 mit 60 Punkten in der xhigh-Konfiguration und auf Platz 2 mit 59 Punkten in der high-Konfiguration [6].

  • Claude Opus 4.7 liegt in der Konfiguration „Adaptive Reasoning, Max Effort“ bei 57 Punkten und wird damit hinter beiden GPT-5.5-Varianten genannt [6].

  • Für DeepSeek V4 und Kimi K2.6 werden im verfügbaren Ausschnitt keine konkreten Intelligence-Index-Werte genannt [6].

BrowseComp

  • GPT-5.5 erreicht bei BrowseComp 84,4 %, während GPT-5.5 Pro 90,1 % erreicht [7].

  • DeepSeek V4 erreicht bei BrowseComp 83,4 % und liegt damit sehr knapp hinter GPT-5.5, aber deutlich hinter GPT-5.5 Pro [7].

  • Claude Opus 4.7 erreicht bei BrowseComp 79,3 % und liegt damit hinter DeepSeek V4 und GPT-5.5 [7].

  • Kimi K2.6 hat in der bereitgestellten Evidenz keinen BrowseComp-Wert [7][21].

Coding- und Software-Benchmarks

  • Claude Opus 4.7 wird mit 64,3 % auf SWE-bench Pro und 87,6 % auf SWE-bench Verified angegeben [3].

  • Claude Opus 4.7 wird außerdem mit etwa 70 % auf CursorBench genannt, aber dieser Vergleich stammt aus einem Kontext zu GPT-5.4, nicht GPT-5.5 [4].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren SWE-bench-Pro- oder SWE-bench-Verified-Werte vor [3][4][7][21].

  • Ein Reddit-Beitrag behauptet, DeepSeek V4 sei im „Vibe Code Benchmark“ das führende Open-Weight-Modell und Kimi K2.6 liege dahinter auf Platz 2, aber dieser Beleg ist schwächer als die übrigen Quellen und enthält im Ausschnitt keine konkreten Prozentwerte [21].

Reasoning- und Wissens-Benchmarks

  • Claude Opus 4.7 wird mit 94,2 % auf GPQA Diamond angegeben [3].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine direkt vergleichbaren GPQA-Diamond-Werte vor [3][6][7][21].

FinanceBench

  • Claude Opus 4.7 wird in einem verfügbaren Blogausschnitt mit 82,7 % auf FinanceBench erwähnt [2].

  • Für GPT-5.5, DeepSeek V4 und Kimi K2.6 liegen in der bereitgestellten Evidenz keine FinanceBench-Werte vor [2][5][7][21].

Preis- und Kontextvergleich

  • DeepSeek V4 wird mit $1.74 pro 1 Million Input-Tokens und $3.48 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • GPT-5.5 wird mit $5 pro 1 Million Input-Tokens und $30 pro 1 Million Output-Tokens bei einem Kontextfenster von 1 Million Tokens angegeben [5].

  • Für Claude Opus 4.7 ist im verfügbaren Ausschnitt nur der Beginn einer Preisangabe erkennbar, aber kein vollständiger Output-Preis, daher reicht die Evidenz für einen vollständigen Kostenvergleich nicht aus [5].

  • Für Kimi K2.6 enthält die bereitgestellte Evidenz keinen Preiswert [5][21].

Verständliche Einordnung

  • Wenn man nur die verfügbaren Zahlen betrachtet, ist GPT-5.5 der sicherste Kandidat für die stärkste Gesamtleistung, weil es den genannten Intelligence Index anführt und bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 liegt [6][7].

  • DeepSeek V4 ist der stärkste Herausforderer in den verfügbaren Zahlen, weil es bei BrowseComp mit 83,4 % fast GPT-5.5 erreicht und Claude Opus 4.7 übertrifft [7].

  • Claude Opus 4.7 ist am breitesten mit konkreten Einzelbenchmarks belegt, vor allem in SWE-bench, Terminal-Bench, GPQA Diamond und FinanceBench [2][3].

  • Kimi K2.6 kann anhand der bereitgestellten Evidenz nicht fair numerisch mit den anderen drei Modellen verglichen werden, weil die einzige konkrete Aussage nur ein schwacher Reddit-Rankinghinweis ohne Zahlenwerte ist [21].

Evidence notes

  • Die stärksten quantitativen Vergleichsdaten in der bereitgestellten Evidenz sind der Intelligence-Index-Ausschnitt und der BrowseComp-Vergleich, weil sie mehrere der angefragten Modelle direkt nebeneinander nennen [6][7].

  • Die Claude-Opus-4.7-Werte zu SWE-bench Pro, SWE-bench Verified, Terminal-Bench und GPQA Diamond sind nützlich, aber sie erlauben keinen vollständigen Vier-Modell-Vergleich, weil entsprechende Werte für GPT-5.5, DeepSeek V4 und Kimi K2.6 in der Evidenz fehlen [3].

  • Der Kimi-K2.6-Hinweis ist deutlich schwächer, weil er aus einem Reddit-Beitrag stammt und im verfügbaren Ausschnitt keine numerischen Ergebnisse enthält [21].

  • Ein Vergleich mit GPT-5.4 ist nur indirekt relevant, weil die Nutzerfrage GPT-5.5 betrifft; die verfügbare Quelle nennt dort außerdem, dass Benchmarkwerte teils vendor-reported sind und unterschiedliche Harness-Konfigurationen nutzen [4].

Limitations / uncertainty

  • Insufficient evidence: Für Kimi K2.6 fehlen belastbare Benchmarkzahlen in der bereitgestellten Evidenz [21].

  • Insufficient evidence: Für GPT-5.5 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench, FinanceBench und Vibe Code [6][7].

  • Insufficient evidence: Für DeepSeek V4 fehlen in der bereitgestellten Evidenz konkrete Werte zu SWE-bench, GPQA Diamond, Terminal-Bench und FinanceBench [5][7][21].

  • Die Modelle werden teils in unterschiedlichen Varianten oder Testmodi genannt, etwa GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 „Adaptive Reasoning, Max Effort“ und DeepSeek-V4-Pro-Max, wodurch ein 1:1-Vergleich nur eingeschränkt möglich ist [6][7].

  • Die bereitgestellte Evidenz enthält keine vollständigen offiziellen Modellkarten oder Primärquellen mit einheitlichem Benchmark-Setup für alle vier Modelle [1][3][6][7].

Summary

  • GPT-5.5: Beste belegte Gesamtposition, führt den Intelligence Index und liegt bei BrowseComp vor DeepSeek V4 und Claude Opus 4.7 [6][7].

  • DeepSeek V4: Sehr stark bei BrowseComp, knapp hinter GPT-5.5 und vor Claude Opus 4.7; außerdem deutlich günstiger als GPT-5.5 in der verfügbaren Preisangabe [5][7].

  • Claude Opus 4.7: Sehr gut dokumentiert mit vielen Einzelbenchmarks, aber in den direkt verfügbaren Vergleichszahlen hinter GPT-5.5 und bei BrowseComp hinter DeepSeek V4 [2][3][6][7].

  • Kimi K2.6: Nicht seriös numerisch bewertbar, weil die bereitgestellte Evidenz nur einen schwachen Rankinghinweis ohne konkrete Zahlen enthält [21].

Fuentes

  • [1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    BrowseComp is the standout: DeepSeek’s 83.4% beats Claude Opus 4.7’s 79.3% and nearly matches GPT-5.5’s 84.4%, though GPT-5.5 Pro’s 90.1% remains well ahead. So ultimately, DeepSeek-V4-Pro-Max does not appear to dethrone GPT-5.5 or Claude Opus 4.7 on the be...

  • [6] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [7] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...

  • [8] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [20] Claude Opus 4.7 Benchmarks Explained - Vellumvellum.ai

    Is Claude Opus 4.7 the most powerful Claude model? No. Claude Mythos Preview is Anthropic's most capable model and leads Opus 4.7 on most benchmarks in the comparison table, including SWE-bench Pro (77.8% vs 64.3%), SWE-bench Verified (93.9% vs 87.6%), Term...

  • [21] Claude Opus 4.7 vs. GPT-5.4: Which Frontier Model Should You Use?datacamp.com

    --- --- Benchmark Claude Opus 4.7 GPT-5.4 Notes SWE-bench Pro 64.3% 57.7% Vendor-reported; different harness configurations SWE-bench Verified 87.6% Not published OpenAI has not released an official score on this variant CursorBench 70% Not published Cursor...

  • [22] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [24] Introducing GPT-5.5 - OpenAIopenai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...