| ~18.1%* |
| Resolución de bugs reales (SWE-Bench Verified) | ~83% (est) | 87.6% | 85.0% | 82.1% | 81.0% | 80.6% |
| Uso de terminal para programar (Terminal-Bench 2.0/2.1) | 74.6% | 66.1–69.4% | 78.2–82.7% | 76.2% | 68.5% | 65.0% |
| Control autónomo del ordenador (OSWorld) | 83.4% | 82.8% | 78.7% | 75.0% | 72.1% | 70.5% |
| Trabajo de conocimiento (GDPval-AA / ELO Agente) | 1890 | 1753 | 1620–1769 | 1656 | 1500–1570 | 1550 |
| Razonamiento multidisciplinar (Humanity's Last Exam, con herramientas) | 57.9% | 54.7% | — | — | — | — |
| Razonamiento multidisciplinar (Humanity's Last Exam, sin herramientas) | 49.8% | — | — | — | — | — |
| Razonamiento científico avanzado (GPQA Diamond) | ~94% (est) | 94.2% | 96.0% | 92.4% | 90.1–91.5% | 95.1% |
| Razonamiento visual abstracto (ARC-AGI-2) | ~80% (est) | 80.2% | 85.0% | 75.8% | 76.1% | 74.0% |
| Orquestación de herramientas (MCP Atlas) | — | 77.3% | 79.1% | 83.6% | 74.2% | 71.5% |
| Índice de inteligencia general (AA v4.0) | ~59–60 (est) | 59 | 60 | 57 | 53 | 55 |
| Análisis financiero autónomo (Finance Agent v2) | 53.9% | 51.5% | — | — | — | — |
| Programación competitiva en directo (LiveCodeBench) | — | — | ~91–92% (est) | — | — | 93.5% |
| ELO en competiciones (Codeforces) | — | ~3050 (est) | 3168 | — | — | 3206 |
| Matemáticas de frontera (FrontierMath Tier 1–3) | — | 43.8% | 51.7% | — | — | — |
| Conocimiento de posgrado (MMLU-Pro) | — | — | — | — | — | 87.5% |
| Olimpiada matemática (AIME 2025) | — | — | 95.2% | — | — | — |
| Comprensión y navegación web (BrowseComp) | — | 79.3% | 84.4% | — | — | — |
* Las puntuaciones de SWE-Bench Pro para Gemini 3.5 Flash, Grok 4.3 y DeepSeek V4 Pro provienen de una sola prueba de terceros ; el modelo de Google muestra cifras distintas en sus tarjetas oficiales.
El recién llegado de Anthropic se corona como el mejor en tareas de programación autónoma compleja (SWE-Bench Pro) con un 69.2%, lo que implica una capacidad superior para manejar cambios arquitectónicos en múltiples archivos . También arrasa en trabajo de conocimiento (GDPval-AA con 1890 puntos ELO) y en control del ordenador (OSWorld-Verified al 83.4%)
. Es tu mejor aliado si necesitas un copiloto que resuelva problemas de principio a fin con la mínima intervención humana. En el ranking global BenchLM, obtiene una puntuación compuesta de 93/100, posicionándose como el número 2 del mundo
.
OpenAI ha afinado GPT-5.5 para destacar en el uso de la línea de comandos, con un impresionante 82.7% en Terminal-Bench 2.0 . Esto lo convierte en la herramienta más fiable para flujos de trabajo que requieren planificación e iteración. Además, es el líder indiscutible en razonamiento abstracto (ARC-AGI-2 al 85.0%) y en matemáticas de alto nivel (AIME 2025 al 95.2%)
. Si tu trabajo diario pasa por el terminal o necesitas resolver problemas lógicos complejos, GPT-5.5 es la mejor opción.
Google ha lanzado un modelo de la gama "Flash" —optimizada para la eficiencia— que se codea con los mejores. Su punto fuerte es la orquestación de herramientas (MCP Atlas con un 83.6%), coordinando múltiples flujos de trabajo de forma casi perfecta . Su ventaja diferencial es la velocidad: genera texto a 289 tokens por segundo, unas 4 veces más rápido que sus competidores directos, y todo ello al precio más bajo del mercado
. Es la opción ideal para productos que requieran respuestas inmediatas y un alto volumen de peticiones.
El modelo chino se ha especializado en competiciones de código. Con 3206 puntos de ELO en Codeforces y un 93.5% en LiveCodeBench, es el mejor resolviendo problemas algorítmicos complejos sobre la marcha . Además, empata con los gigantes en resolución de bugs reales (SWE-bench Verified al 80.6%), todo ello a un coste por token significativamente menor
. Es la opción más interesante para equipos que prioricen el rendimiento en código sin disparar el presupuesto.
Comments
0 comments