Claude Opus 4.7 tiene como cifra titular 87.6% en SWE bench Verified, reportada por AWS a partir de datos de Anthropic; es una señal fuerte para coding agéntico, no una garantía de rendimiento universal. También se citan 64.3% en SWE bench Pro, 69.4% en Terminal Bench 2.0 y 64.4% en Finance Agent v1.1, útiles para e...

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 benchmarks: 87.6% en SWE-bench Verified y cómo interpretarlo. Article summary: Si necesitas una cifra rápida: AWS reporta 87.6% en SWE bench Verified para Claude Opus 4.7 en coding/agentes, pero no debe leerse como un rendimiento universal porque otras fuentes publican cifras distintas y la conf.... Topic tags: ai, anthropic, claude, ai benchmarks, coding agents. Reference image context from search candidates: Reference image 1: visual subject "# Anthropic releases Claude Opus 4.7 with benchmark-leading coding and agentic performance. *In short: Anthropic has released Claude Opus 4.7, its most capable generally available" source context "Claude Opus 4.7 leads on SWE-bench and agentic reasoning, beating GPT-5.4 and Gemini 3.1 Pro" Reference image 2: visual subject "Benchmark comparison table showing Cl
Claude Opus 4.7 se entiende mejor como un modelo optimizado para razonamiento complejo, coding agéntico y flujos largos, no como un modelo que pueda resumirse con una sola cifra. Anthropic lo describe en su documentación como su modelo generalmente disponible más capaz para razonamiento complejo y agentic coding [1], y AWS lo presenta como una mejora sobre Opus 4.6 para flujos de producción como coding agéntico, knowledge work, comprensión visual y tareas de larga duración [
7].
El número que más destaca para desarrolladores es 87.6% en SWE-bench Verified, reportado por AWS a partir de datos de Anthropic [7]. Es un dato importante, pero debe leerse junto con otros benchmarks y con la advertencia de AWS de que el modelo puede requerir cambios de prompting y ajustes de harness para aprovecharlo bien [
7].
| Área | Benchmark | Resultado reportado | Qué mide mejor |
|---|---|---|---|
| Coding y agentes | SWE-bench Verified |
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Claude Opus 4.7 tiene como cifra titular 87.6% en SWE bench Verified, reportada por AWS a partir de datos de Anthropic; es una señal fuerte para coding agéntico, no una garantía de rendimiento universal.
Claude Opus 4.7 tiene como cifra titular 87.6% en SWE bench Verified, reportada por AWS a partir de datos de Anthropic; es una señal fuerte para coding agéntico, no una garantía de rendimiento universal. También se citan 64.3% en SWE bench Pro, 69.4% en Terminal Bench 2.0 y 64.4% en Finance Agent v1.1, útiles para evaluar flujos de software, terminal y finanzas [7].
Conviene citar siempre benchmark, score y fuente: una fuente secundaria reporta 82.4% en SWE bench Verified, y AWS advierte que Opus 4.7 puede requerir ajustes de prompting y harness [2][7].
Continúe con "Gemini en Google Maps para CarPlay: lo que revela el código de la app de iOS" para conocer otro ángulo y citas adicionales.
Open related pageVerifique esta respuesta con "Agent View de Claude Code: el panel CLI de Anthropic para coordinar sesiones de IA en paralelo".
Open related pageFeature Claude Opus 4.7 Claude Sonnet 4.6 Claude Haiku 4.5 --- --- Description Our most capable generally available model for complex reasoning and agentic coding The best combination of speed and intelligence The fastest model with near-frontier intelligen...
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
For coding, the official materials point to several standout numbers. Anthropic says Opus 4.7 improved resolution by 13% over Opus 4.6 on a 93-task coding benchmark. AWS cites 64.3% on SWE-bench Pro, 87.6% on SWE-bench Verified, and 69.4% on Terminal-Bench...
According to Anthropic, Claude Opus 4.7 model provides improvements across the workflows that teams run in production such as agentic coding, knowledge work, visual understanding,long-running tasks. Opus 4.7 works better through ambiguity, is more thorough...
| 87.6% |
| La referencia más citada para evaluar resolución de tareas de software en Claude Opus 4.7 [ |
| Coding y agentes | SWE-bench Pro | 64.3% | Una lectura complementaria para tareas de software más exigentes o distintas a SWE-bench Verified [ |
| Agentes en terminal | Terminal-Bench 2.0 | 69.4% | Útil cuando el caso de uso implica operar en entornos tipo terminal o con herramientas [ |
| Agentes financieros | Finance Agent v1.1 | 64.4% | Más relevante para flujos de análisis o automatización financiera [ |
| Coding interno | Benchmark interno de 93 tareas | +13% de resolución frente a Opus 4.6 | Una mejora relativa reportada para una evaluación concreta, no una promesa de mejora uniforme en todos los proyectos [ |
| Research agent interno | Score general | 0.715 | Anthropic lo presenta como un resultado fuerte para trabajo multi-step en su benchmark interno de research-agent [ |
| Research agent interno | General Finance | 0.813 frente a 0.767 de Opus 4.6 | Señala mejora frente a Opus 4.6 en el módulo financiero interno de Anthropic [ |
Para equipos que comparan modelos como coding agents, SWE-bench Verified es el titular más claro de las fuentes disponibles: AWS reporta 87.6% para Claude Opus 4.7 [7]. En términos prácticos, eso coloca el foco del modelo en tareas de ingeniería de software y resolución de problemas de código, coherente con la descripción de Anthropic de Opus 4.7 como un modelo fuerte en razonamiento complejo y coding agéntico [
1].
Pero ese porcentaje no debe interpretarse como un rendimiento general del modelo en cualquier tarea. SWE-bench Verified evalúa un tipo concreto de capacidad; no sustituye benchmarks de terminal, finanzas, visión, trabajo largo o investigación. Por eso, para una decisión técnica, conviene mirar al menos SWE-bench Pro y Terminal-Bench 2.0 junto al score principal [6][
7].
No todas las fuentes publican el mismo número. Una fuente secundaria reporta 82.4% en SWE-bench Verified, mientras que AWS reporta 87.6% para Claude Opus 4.7 [2][
7]. Esa diferencia importa: no basta con copiar un porcentaje sin explicar de dónde sale.
La lectura más prudente es citar siempre el nombre exacto del benchmark, el score y la fuente. Además, AWS señala que Opus 4.7 puede requerir cambios de prompting y ajustes de harness para obtener mejores resultados, lo que refuerza que la configuración de evaluación puede influir en el rendimiento observado [7].
Si el caso de uso principal es programación, empieza por SWE-bench Verified, pero no te quedes ahí. SWE-bench Pro y Terminal-Bench 2.0 ayudan a evaluar escenarios donde el modelo debe resolver tareas de software más complejas o interactuar con entornos y herramientas [6][
7].
Si el objetivo es finanzas o investigación, los datos internos de Anthropic son más cercanos a ese tipo de flujo: en su benchmark interno de research-agent, Opus 4.7 obtuvo 0.715 de score general y 0.813 en General Finance, frente a 0.767 de Opus 4.6 en ese módulo [8]. Aun así, deben leerse como evaluaciones internas, no como una verificación independiente.
Si el interés está en workflows empresariales largos, la información pública apunta a mejoras en tareas de larga duración, seguimiento de instrucciones y trabajo bajo ambigüedad, según AWS citando a Anthropic [7]. En ese contexto, los benchmarks son una guía inicial, pero la prueba real debería replicar tu propio harness, tus herramientas y tus prompts.
El benchmark más fuerte y fácil de citar de Claude Opus 4.7 es 87.6% en SWE-bench Verified, especialmente relevante para coding agéntico [7]. La interpretación correcta, sin embargo, es más matizada: el modelo también reporta 64.3% en SWE-bench Pro, 69.4% en Terminal-Bench 2.0 y 64.4% en Finance Agent v1.1, mientras que Anthropic destaca mejoras internas en trabajo multi-step y finanzas [
7][
8].
La forma responsable de comparar Claude Opus 4.7 no es preguntar por un único benchmark, sino elegir el benchmark que se parece a tu flujo real y verificar la configuración usada. Para desarrollo de software, SWE-bench Verified es el punto de partida; para agentes, terminal, finanzas o research, los resultados complementarios cuentan igual o más.
Gemini en Google Maps para CarPlay: lo que revela el código de la app de iOS
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...