Composer 2.5 de Cursor: rendimiento, precio y cómo se compara con Claude Opus 4.7 y GPT‑5.5
Composer 2.5, lanzado el 18 de mayo de 2026, alcanza 79,8% en SWE‑Bench Multilingual y 69,3% en Terminal‑Bench 2.0, con precios desde 0,50 dólares por millón de tokens de entrada. El modelo está optimizado para flujos de ingeniería de software complejos dentro del IDE Cursor, como edición de múltiples archivos, ejec...
Cursor Composer 2.5: Benchmarks, Pricing, and How It Stacks Up to Claude Opus 4.7 and GPT‑5.5Cursor’s Composer 2.5 aims to deliver frontier‑level coding performance while dramatically lowering the cost of running AI coding agents.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: Cursor Composer 2.5: Benchmarks, Pricing, and How It Stacks Up to Claude Opus 4.7 and GPT‑5.5. Article summary: Cursor’s Composer 2.5 is an in‑house coding model released May 18, 2026 that scores about 79.8% on SWE‑Bench Multilingual and 69.3% on Terminal‑Bench 2.0—roughly matching Claude Opus 4.7 on some benchmarks while costi.... Topic tags: cursor, ai coding, developer tools, ai models, benchmarks. Reference image context from search candidates: Reference image 1: visual subject "Composer 2.5 matches Opus 4.7 and GPT-5.5 on CursorBench 3.1 but costs less than a dollar per task - compared to up to eleven dollars for the competition. | Image: Cursor" source context "Cursor's Composer 2.5 matches Opus 4.7 and GPT-5.5 benchmarks ..." Reference image 2: visual subject "Composer 2.5 vs Opus | The Results Are Brutal Merv
openai.com
Qué es Composer 2.5
Composer 2.5 es el modelo de IA más reciente desarrollado por Anysphere, la empresa detrás del popular IDE de programación asistido por IA Cursor. Se lanzó el 18 de mayo de 2026 y está diseñado específicamente para tareas complejas de ingeniería de software dentro del entorno del editor.
A diferencia de los asistentes tradicionales que solo generan fragmentos de código, Composer está pensado para actuar como un agente de desarrollo capaz de trabajar durante periodos largos: analizar repositorios grandes, modificar múltiples archivos, ejecutar comandos de terminal y corregir errores a través de ciclos repetidos de pruebas.
Según Cursor, esta versión mejora especialmente en tres aspectos frente a generaciones anteriores:
mayor fiabilidad en tareas prolongadas
seguimiento más consistente de instrucciones complejas
colaboración más fluida con el desarrollador dentro del IDE
Este enfoque refleja una tendencia clara en herramientas de IA para programación: pasar del simple autocompletado a agentes capaces de ejecutar flujos completos de desarrollo.
Cómo rinde frente a Claude Opus 4.7 y GPT‑5.5
Los benchmarks publicados sitúan a Composer 2.5 en la misma liga que los modelos más avanzados del momento en algunas pruebas clave de ingeniería de software.
¿Cuál es la respuesta corta a "Composer 2.5 de Cursor: rendimiento, precio y cómo se compara con Claude Opus 4.7 y GPT‑5.5"?
Composer 2.5, lanzado el 18 de mayo de 2026, alcanza 79,8% en SWE‑Bench Multilingual y 69,3% en Terminal‑Bench 2.0, con precios desde 0,50 dólares por millón de tokens de entrada.
¿Cuáles son los puntos clave a validar primero?
Composer 2.5, lanzado el 18 de mayo de 2026, alcanza 79,8% en SWE‑Bench Multilingual y 69,3% en Terminal‑Bench 2.0, con precios desde 0,50 dólares por millón de tokens de entrada. El modelo está optimizado para flujos de ingeniería de software complejos dentro del IDE Cursor, como edición de múltiples archivos, ejecución de terminal y depuración iterativa.
¿Qué debo hacer a continuación en la práctica?
Construido sobre el checkpoint Kimi K2.5 de Moonshot AI y entrenado con 25× más tareas sintéticas, forma parte de la estrategia de Cursor para depender menos de proveedores externos de IA.
SWE‑Bench Multilingual, que evalúa si un modelo puede resolver incidencias reales de GitHub en distintos lenguajes, coloca a Composer 2.5 prácticamente al nivel de los modelos frontera. Incluso aparece ligeramente por encima de GPT‑5.5 en la comparación publicada.
En Terminal‑Bench 2.0, que mide el rendimiento de agentes que interactúan con un terminal —compilando código, ejecutando tests o scripts—, Composer 2.5 queda prácticamente empatado con Claude Opus 4.7, aunque GPT‑5.5 mantiene una ventaja clara.
También hay mejoras importantes respecto a la versión anterior. En SWE‑Bench Multilingual, por ejemplo, el modelo sube de 73,7% a 79,8%, un salto significativo en este tipo de evaluaciones.
En resumen: Composer 2.5 compite con modelos líderes en varias tareas de programación, aunque no lidera todos los benchmarks.
El factor que más llama la atención: el precio
Más allá del rendimiento, lo que realmente ha generado conversación en la comunidad de desarrolladores es el precio.
El modelo tiene dos niveles principales:
Versión estándar: 0,50 USD por millón de tokens de entrada y 2,50 USD por millón de tokens de salida
Versión rápida: 3,00 USD por millón de tokens de entrada y 15,00 USD por millón de tokens de salida
Para ponerlo en contexto, algunos análisis sitúan el coste aproximado de Claude Opus alrededor de 5 USD por millón de tokens de entrada y 25 USD por millón de tokens de salida.
Esto significa que, en el nivel estándar, el coste de salida de Composer 2.5 puede ser hasta diez veces menor.
La diferencia importa mucho porque los agentes de programación consumen enormes cantidades de tokens. Resolver una tarea real puede implicar:
buscar información en el repositorio
planificar cambios
editar múltiples archivos
compilar el proyecto
ejecutar pruebas
Cada paso genera nuevas llamadas al modelo. Si el coste por token es alto, ejecutar agentes durante mucho tiempo se vuelve caro rápidamente.
Con precios más bajos, Cursor puede permitir más pasos de razonamiento y más iteraciones dentro de un mismo flujo de trabajo.
En qué se basa el modelo y cómo se entrenó
Composer 2.5 se construye sobre el checkpoint Kimi K2.5 de Moonshot AI, un modelo de pesos abiertos que Cursor amplía mediante entrenamiento adicional especializado en programación.
Según reportes técnicos, el proceso de entrenamiento incluyó:
25 veces más tareas sintéticas de programación que la generación anterior
aproximadamente 85% del presupuesto de cómputo dedicado a entrenamiento adicional y aprendizaje por refuerzo en lugar de depender solo del modelo base
Las tareas sintéticas permiten entrenar repetidamente patrones de trabajo reales del desarrollo de software, como:
planificar cambios en múltiples archivos
modificar código
ejecutar pruebas
iterar hasta que el error desaparezca
Este tipo de entrenamiento busca mejorar la fiabilidad en flujos de trabajo largos, que es uno de los desafíos principales de los agentes de programación.
Por qué este lanzamiento es clave para la estrategia de Cursor
Composer 2.5 también refleja un cambio estratégico importante para Cursor.
Las primeras versiones del IDE dependían en gran medida de modelos externos de OpenAI, Anthropic o Google para impulsar sus funciones de IA.
Desarrollar modelos propios reduce esa dependencia y ofrece varias ventajas:
menores costes de inferencia
menos dependencia de proveedores externos
mayor control sobre el comportamiento del modelo dentro del IDE
Esto es especialmente relevante frente a productos como Claude Code, donde Anthropic controla tanto el modelo como la herramienta de desarrollo.
Al construir sus propios modelos Composer, Cursor intenta competir en ese mismo terreno: una integración profunda entre modelo y herramienta de programación.
Conclusión
Composer 2.5 no domina todos los benchmarks frente a los modelos más avanzados. GPT‑5.5 sigue liderando algunas evaluaciones de agentes, y Claude Opus 4.7 continúa siendo muy competitivo.
Lo que hace realmente interesante este lanzamiento es la combinación de rendimiento cercano al nivel frontera y un coste mucho más bajo.
Si Cursor consigue seguir mejorando sus modelos internos mientras mantiene esa ventaja económica, podría cambiar de forma significativa la economía de la programación asistida por IA, especialmente en flujos de trabajo donde los agentes operan durante largos periodos dentro del entorno de desarrollo.
Comments
0 comments