studioglobal
인기 있는 발견
답변게시됨14 소스

GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6: qué modelo gana según la tarea

No conviene declarar un ganador global: GPT 5.5 y Claude Opus 4.7 tienen más resultados comparables entre sí, mientras que Kimi K2.6 mezcla cifras de ficha de modelo y entornos de evaluación distintos, y DeepSeek V4 n... Para agentes que trabajan en línea de comandos, GPT 5.5 es el primer candidato: OpenAI reporta 8...

17K0
네 개의 AI 모델 벤치마크 점수를 비교하는 추상적인 대시보드 일러스트
GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다AI 생성 이미지. 네 모델의 공개 벤치마크 비교를 상징적으로 표현했습니다.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다. Article summary: 종합 1위는 보류가 맞습니다. 공개값 기준으로 GPT 5.5는 Terminal Bench 2.0 82.7%, Claude Opus 4.7은 SWE Bench Pro 64.3%·SWE Bench Verified 87.6%가 강하지만, 네 모델을 같은 하네스로 평가한 독립 비교는 부족합니다 [19][27][5].. Topic tags: ai, benchmarks, openai, chatgpt, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and Kimi K2.6 Changes Everything" Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownun

openai.com

Con los benchmarks públicos disponibles, esta no es una carrera con una foto de llegada clara. GPT-5.5 y Claude Opus 4.7 aparecen juntos en más tablas comparables; Kimi K2.6 combina cifras de ficha de modelo y de entornos de evaluación separados; y para DeepSeek V4 faltan valores comunes en varios benchmarks de programación usados aquí [1][2][5][6].

La lectura útil no es elegir el modelo más famoso, sino decidir cuál probar primero para cada trabajo real: terminal, reparación de código, navegación web, contexto multimodal o llamadas masivas de API.

La respuesta rápida

  • Agentes de terminal y línea de comandos: GPT-5.5 es el candidato inicial. OpenAI reporta 82,7 % en Terminal-Bench 2.0; las tablas públicas citan 69,4 % para Claude Opus 4.7 y 66,7 % para Kimi K2.6 [19][8][13][6].
  • Reparación de código e issues reales de GitHub: Claude Opus 4.7 parte mejor. Se reportan 64,3 % en SWE-Bench Pro y 87,6 % en SWE-Bench Verified, por encima del 58,6 % de GPT-5.5 en SWE-Bench Pro [27][19].
  • Contextos largos con texto, imagen y vídeo: Kimi K2.6 merece entrar en la lista. Se presenta con soporte para entrada de texto, imagen y vídeo, además de una ruta de contexto de 256k [7].
  • Procesamiento masivo con presupuesto ajustado: DeepSeek V4 llama la atención por precio. Mashable recoge una tarifa de API de US$ 1,74 por millón de tokens de entrada y US$ 3,48 por millón de tokens de salida, frente a US$ 5 y US$ 30 en GPT-5.5, y US$ 5 y US$ 25 en Claude Opus 4.7 [3].

Tabla comparativa de benchmarks

El símbolo no significa que el modelo no pueda hacer esa tarea. Solo indica que, en las fuentes disponibles para esta comparación, no hay una cifra pública directamente alineada con ese benchmark.

BenchmarkGPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4Cómo leerlo
Terminal-Bench 2.082,7 % [19]69,4 % [8][13]66,7 % [6]Para flujos largos de terminal, GPT-5.5 tiene el valor público más alto.
SWE-Bench Pro58,6 % [19]64,3 % [27]58,6 % [1][6]En reparación de código e issues de GitHub, Claude Opus 4.7 va por delante.
SWE-Bench Verified87,6 % [27]80,2 % [1][6]Con las fuentes disponibles, hay cifras claras para Claude y Kimi.
GPQA Diamond93,6 % [8][13]94,2 % [8][13]GPT-5.5 y Claude están muy cerca; Claude aparece ligeramente arriba.
HLE con herramientas52,2 % [8]54,7 % [8][29]54,0 % [6]Claude y Kimi aparecen por encima, aunque la cifra de Kimi puede venir de otro entorno de evaluación [6].
BrowseComp84,4 % [8][13]79,3 % [8][13]En navegación y búsqueda web, GPT-5.5 lidera en los valores publicados.
OSWorld-Verified78,7 % [13]78,0 % [13]La diferencia entre GPT-5.5 y Claude Opus 4.7 es pequeña.
MCP Atlas75,3 % [13]79,1 % [13]En evaluación de herramientas y MCP, Claude Opus 4.7 aparece por delante.

GPT-5.5: fuerte cuando el trabajo vive en la terminal

OpenAI presenta GPT-5.5 como su modelo más fuerte para agentes de programación. Según la compañía, Terminal-Bench 2.0 mide flujos complejos de línea de comandos que requieren planificación, iteración y coordinación de herramientas; en esa prueba GPT-5.5 alcanza 82,7 %. La misma publicación reporta 58,6 % en SWE-Bench Pro, un benchmark centrado en resolver issues reales de GitHub [19].

Eso lo convierte en una opción lógica para probar primero si el producto depende de sesiones largas de terminal: ejecutar scripts, reproducir fallos de CI, crear o modificar archivos, lanzar comandos en sandbox y corregir errores en varios pasos. La cautela está en no extrapolar demasiado: en SWE-Bench Pro, Claude Opus 4.7 aparece con 64,3 %, por encima del 58,6 % de GPT-5.5 [19][27].

Claude Opus 4.7: mejor punto de partida para reparar y revisar código

Claude Opus 4.7 muestra su mejor cara en tareas de reparación, revisión y resolución de problemas de código. DataCamp resume que fue evaluado en 14 benchmarks que cubren programación, razonamiento, uso de herramientas, uso de computadora y razonamiento visual; para código, reporta 64,3 % en SWE-Bench Pro y 87,6 % en SWE-Bench Verified [27].

En la comparación común con GPT-5.5, Claude también aparece por delante en GPQA Diamond, con 94,2 % frente a 93,6 %, y en MCP Atlas, con 79,1 % frente a 75,3 % [8][13]. En cambio, GPT-5.5 lidera en Terminal-Bench 2.0 y BrowseComp [8][13][19]. La conclusión práctica: Claude Opus 4.7 no gana todo, pero sí es el primer modelo que conviene probar cuando el objetivo es arreglar una base de código, revisar cambios o resolver incidencias reales de repositorios.

Kimi K2.6: contexto multimodal largo, con letra pequeña en los benchmarks

Kimi K2.6 aparece con 58,6 % en SWE-Bench Pro y 80,2 % en SWE-Bench Verified; otra guía lista 66,7 % en Terminal-Bench 2.0 y 54,0 % en HLE con herramientas [1][6]. El matiz es importante: esas cifras se atribuyen a la ficha oficial de Moonshot AI, y para SWE-Bench Pro se menciona un entorno interno de evaluación de Moonshot [6].

Por eso, aunque Kimi K2.6 y GPT-5.5 compartan el número 58,6 % en SWE-Bench Pro, no conviene tratarlo automáticamente como un empate bajo condiciones idénticas [1][6][19]. Donde Kimi sí tiene un ángulo claro es en entrada multimodal y contexto largo: se presenta con soporte para texto, imagen y vídeo, además de una ruta de contexto de 256k [7]. Si el producto necesita leer documentos extensos, capturas, imágenes o vídeo dentro de una misma sesión, Kimi K2.6 merece una prueba separada.

DeepSeek V4: precio atractivo, pero con controles de fiabilidad

DeepSeek V4 no encaja tan fácilmente en la misma tabla de Terminal-Bench, SWE-Bench Pro, SWE-Bench Verified o GPQA Diamond, al menos con las fuentes disponibles aquí. Lo que sí hay son señales útiles desde otros ángulos. Artificial Analysis reporta que DeepSeek V4 Pro Max logra -10 en AA-Omniscience, una mejora de 11 puntos frente a V3.2, mientras que V4 Flash Max marca -23. La misma fuente informa tasas de alucinación muy altas: 94 % para V4 Pro y 96 % para V4 Flash, con la interpretación de que, cuando no saben la respuesta, casi siempre responden de todos modos [2].

En arquitectura, DataCamp describe DeepSeek V4 como un modelo Mixture of Experts. La versión Pro tendría 1,6 billones de parámetros totales y 49.000 millones activos; la versión Flash, 284.000 millones totales y 13.000 millones activos [4]. En precio, la ventaja es más visible: Mashable recoge US$ 1,74 por millón de tokens de entrada y US$ 3,48 por millón de tokens de salida para DeepSeek V4, por debajo de GPT-5.5 y Claude Opus 4.7 en esa comparación [3].

La lectura práctica es clara: DeepSeek V4 puede ser candidato para procesos de alto volumen, tareas donde el costo manda y flujos internos con verificación automática. Pero si la exactitud es crítica, conviene añadir evaluación propia, posprocesado, detección de fallos y límites de uso, especialmente por las tasas de alucinación reportadas [2][3][4].

Guía de elección por caso de uso

Caso de usoModelo que probaría primeroMotivo
Automatización larga de terminal, scripts, agentes de shell, reproducción de CIGPT-5.5Lidera Terminal-Bench 2.0 con 82,7 %, frente a 69,4 % de Claude Opus 4.7 y 66,7 % de Kimi K2.6 [19][8][13][6].
Resolución de issues reales de GitHub, reparación de código, tareas tipo SWE-BenchClaude Opus 4.7Reporta 64,3 % en SWE-Bench Pro y 87,6 % en SWE-Bench Verified [27].
Navegación web y búsqueda asistidaGPT-5.5BrowseComp muestra 84,4 % para GPT-5.5 y 79,3 % para Claude Opus 4.7 [8][13].
Integración de herramientas, flujos MCP y tareas con tool callingClaude Opus 4.7En MCP Atlas, Claude Opus 4.7 aparece con 79,1 % frente a 75,3 % de GPT-5.5 [13].
Contextos largos con texto, imagen y vídeoKimi K2.6Se presenta con entrada de texto, imagen y vídeo, y una ruta de contexto de 256k [7].
Llamadas masivas de API con presupuesto ajustadoDeepSeek V4Su precio por tokens es menor en la comparación de Mashable, aunque debe ponderarse junto con las tasas de alucinación reportadas por Artificial Analysis [2][3].

Por qué un ranking único puede engañar

Primero, no todos los modelos están medidos en la misma cancha. GPT-5.5 y Claude Opus 4.7 tienen más benchmarks comunes, pero Kimi K2.6 combina cifras de ficha de modelo y de entornos propios, mientras que DeepSeek V4 no tiene suficientes filas directamente comparables en esta selección [1][2][5][6].

Segundo, el nombre del benchmark no garantiza una metodología idéntica. Un análisis de LLM Stats resume que las puntuaciones de GPT-5.5 y Claude Opus 4.7 son comparables en forma, pero no necesariamente en metodología [5]. Anthropic, por ejemplo, detalla que en Terminal-Bench 2.0 usó el harness Terminus-2, con pensamiento desactivado y condiciones específicas de recursos [31].

Tercero, una puntuación no equivale a calidad de producto. En una integración real importan la forma de fallar, la tasa de alucinación, la latencia, el costo, la estabilidad de las llamadas a herramientas, la seguridad y la reproducibilidad de logs. ExplainX advierte que las definiciones de leaderboard, los prompts y las políticas de herramientas pueden mover las puntuaciones, por lo que estos datos deben tratarse como una instantánea y no como sustituto de un entorno propio de evaluación [28].

Veredicto

Con la evidencia pública reunida, la estrategia más sensata es probar GPT-5.5 primero para agentes de terminal, Claude Opus 4.7 para reparación de código tipo SWE-Bench, Kimi K2.6 para contexto largo multimodal y DeepSeek V4 para cargas masivas sensibles al costo [19][27][7][3].

Lo que no conviene hacer es coronar un campeón absoluto. Antes de mover un producto a cualquiera de estos modelos, lo prudente es replicar las condiciones reales: los mismos prompts, las mismas herramientas, el mismo presupuesto de razonamiento, los mismos criterios de fallo y una medición propia de costo y fiabilidad [5][28][31].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • No conviene declarar un ganador global: GPT 5.5 y Claude Opus 4.7 tienen más resultados comparables entre sí, mientras que Kimi K2.6 mezcla cifras de ficha de modelo y entornos de evaluación distintos, y DeepSeek V4 n...
  • Para agentes que trabajan en línea de comandos, GPT 5.5 es el primer candidato: OpenAI reporta 82,7 % en Terminal Bench 2.0, frente al 69,4 % publicado para Claude Opus 4.7 y el 66,7 % citado para Kimi K2.6 [19][8][13...
  • Para reparación de código tipo SWE Bench, Claude Opus 4.7 parte con ventaja, con 64,3 % en SWE Bench Pro y 87,6 % en SWE Bench Verified; DeepSeek V4 destaca más por precio, pero exige controles por las tasas de alucin...

사람들은 또한 묻습니다.

"GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6: qué modelo gana según la tarea"에 대한 짧은 대답은 무엇입니까?

No conviene declarar un ganador global: GPT 5.5 y Claude Opus 4.7 tienen más resultados comparables entre sí, mientras que Kimi K2.6 mezcla cifras de ficha de modelo y entornos de evaluación distintos, y DeepSeek V4 n...

먼저 검증할 핵심 포인트는 무엇인가요?

No conviene declarar un ganador global: GPT 5.5 y Claude Opus 4.7 tienen más resultados comparables entre sí, mientras que Kimi K2.6 mezcla cifras de ficha de modelo y entornos de evaluación distintos, y DeepSeek V4 n... Para agentes que trabajan en línea de comandos, GPT 5.5 es el primer candidato: OpenAI reporta 82,7 % en Terminal Bench 2.0, frente al 69,4 % publicado para Claude Opus 4.7 y el 66,7 % citado para Kimi K2.6 [19][8][13...

실무에서는 다음으로 무엇을 해야 합니까?

Para reparación de código tipo SWE Bench, Claude Opus 4.7 parte con ventaja, con 64,3 % en SWE Bench Pro y 87,6 % en SWE Bench Verified; DeepSeek V4 destaca más por precio, pero exige controles por las tasas de alucin...

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 벤치마크를 비교해 주세요.

Studio Global AI34 소스

인용 답변

요약하면, 공개적으로 확인 가능한 “동일 조건” 벤치마크만 놓고 보면 GPT-5.5는 터미널/에이전트 코딩, Claude Opus 4.7은 SWE-Bench Pro·Verified와 추론 계열에서 강합니다. DeepSeek V4와 Kimi K2.6은 공개 수치가 흩어져 있어 4개 모델을 한 표로 공정하게 순위화하기에는 근거가 부족합니다.

항목GPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6
Terminal-Bench 2.082.7%69.4%공개 비교 근거 부족약 66%대로 보도됨
SWE-Bench Pro58.6%64.3%공개 비교 근거 부족58.6%
SWE-Bench Verified공개 수치 확인 부족87.6%공개 비교 근거 부족80.2%
GPQA Diamond0.94/1로 집계된 자료 있음94.2%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
HLEGPT-5.5와 Opus 4.7 비교 자료에서 항목 존재46.9%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
기타OSWorld, BrowseComp, CyberGym 등에서 GPT-5.5가 앞선다는 비교가 있음FinanceAgent, MCP Atlas 등에서 Opus 4.7이 앞선다는 비교가 있음Artificial Analysis 기준 AA-Omniscience 개선이 보고됐지만 환각률이 매우 높다는 지적도 있음텍스트·이미지·비디오 입력과 256k 컨텍스트 지원으로 소개됨
  • GPT-5.5는 OpenAI 발표 기준 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록한 것으로 확인됩니다 [15].
  • Claude Opus 4.7은 여러 비교 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 69.4%, GPQA Diamond 94.2%로 제시됩니다 [3].
  • GPT-5.5와 Claude Opus 4.7만 비교하면, 한 집계 자료는 공통 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 요약합니다 [12].
  • Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개된 자료가 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4와 완전히 같은 하네스에서 비교됐는지는 명확하지 않습니다 [15][4].
  • DeepSeek V4는 Artificial Analysis에서 V4 Pro와 V4 Flash의 지식·환각 관련 평가가 언급되지만, 위 표의 SWE-Bench Pro, Terminal-Bench, GPQA, HLE와 직접 대응되는 공개 비교 수치는 충분하지 않습니다 [7].

결론적으로 “벤치마크 승자”를 하나로 고르면 왜곡될 수 있습니다.

  • 에이전트 터미널 작업: GPT-5.5 우세로 볼 근거가 가장 강합니다 [15].
  • 실전 GitHub 이슈 해결/SWE-Bench 계열: Claude Opus 4.7 우세로 볼 근거가 강합니다 [3][12].
  • 비용 대비 성능/오픈웨이트 계열: DeepSeek V4와 Kimi K2.6을 검토할 만하지만, 동일 벤치마크 공개 근거는 부족합니다 [7][4].
  • 종합 순위: Insufficient evidence. 4개 모델 모두를 같은 프롬프트, 같은 도구 사용 조건, 같은 채점기로 평가한 독립 벤치마크가 필요합니다.

출처

  • [1] Claude Opus 4.7 vs Kimi K2.6 - Detailed Performance & Feature Comparisondocsbot.ai

    SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups Not available 80.2% SWE-Bench Verified, thinking mode Source SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...

  • [2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [4] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com

    How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...

  • [5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com

    The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...

  • [6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai

    Official Contract Lanes Official rows keep the comparison honest. Kimi's K2.6 pricing page says K2.6 is the latest and smartest Kimi model, supports text, image, and video input, and has a 256k context route. DeepSeek's pricing page lists deepseek-v4-flash...

  • [8] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [13] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [19] Introducing GPT-5.5 - OpenAIopenai.com

    Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...

  • [27] Claude Opus 4.7: Anthropic's New Best (Available) Model - DataCampdatacamp.com

    Claude Opus 4.7 Benchmarks Opus 4.7 was evaluated across 14 benchmarks covering coding, reasoning, tool use, computer use, and visual reasoning. The table below shows the full comparison with Opus 4.6, GPT 5.4, Gemini 3.1 Pro, and the not-yet-published Myth...

  • [28] Claude Opus 4.7: Anthropic’s new flagship, benchmarks, and how it compares to Sonnet & Haiku | explainx.ai Blog | explainx.aiexplainx.ai

    \Percentages are as printed on Anthropic’s benchmark figure; leaderboard definitions, prompts, and tool policies can move scores over time—treat this as a snapshot, not a substitute for your eval harness. Reading the table pragmatically Agentic coding (SWE-...

  • [29] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com

    Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...

  • [31] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table. MCP-Atlas: The Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI. SWE-bench Verified, Pro, and...

GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6: qué modelo gana según la tarea | 답변 | Studio Global