InformesPublicado28 abr 2026Last edited 6 may 202614 fuentes

Claude Opus 4.7 vs GPT-5.5 Spud: qué pueden probar realmente los benchmarks

No se puede declarar un ganador fiable: Claude Opus 4.7 está verificado en documentación de Anthropic, mientras que GPT 5.5 Spud no queda confirmado aquí por una fuente primaria de OpenAI. Los benchmarks más sólidos usan tareas recientes o privadas, métodos públicos, puntuación objetiva y replicación independiente;...

Buscar y verificar hechos con Studio Global AI Explora más de Descubrir

17K0

Editorial illustration of Claude Opus 4.7 and GPT-5.5 Spud benchmark claims being compared on scorecards — Claude Opus 4.7 vs GPT-5.5 Spud: Why the Benchmark Winner Isn’t Proven YetAI-generated editorial image visualizing a benchmark comparison where one model is verified and the other remains unconfirmed in the supplied evidence.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 Spud: Why the Benchmark Winner Isn’t Proven Yet. Article summary: Claude Opus 4.7 is documented by Anthropic and reported as publicly released, while GPT 5.5 Spud is not verified here by a primary OpenAI source; a reliable head to head winner cannot be named yet.. Topic tags: ai, ai benchmarks, anthropic, claude, openai. Reference image context from search candidates: Reference image 1: visual subject "# Claude 4.7 vs GPT-5.5: Who Actually Wins in 2026? Both offer a 1,000,000-token context window. Both charge $5.00 per million input tokens. The difference between choosing the rig" source context "Claude 4.7 vs GPT-5.5: Who Actually Wins in 2026? | Topify" Reference image 2: visual subject "# OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? OpenAI released its latest model, GPT-5.5, on
openai.com

Comparar Claude Opus 4.7 con GPT-5.5 Spud suena a duelo clásico: dos modelos, una tabla de resultados y un vencedor. Pero, con la evidencia disponible, el asunto es menos espectacular y más importante: no tenemos dos contendientes verificados al mismo nivel.

Claude Opus 4.7 sí aparece en material de Anthropic: la compañía indica que los desarrolladores pueden usar claude-opus-4-7 mediante la API de Claude, y VentureBeat informó su lanzamiento público. ^[8]^[1] En cambio, las referencias suministradas sobre GPT-5.5 Spud son páginas de terceros que hablan de posibles o futuros modelos de OpenAI, no una ficha de modelo, tarjeta de sistema, nota de lanzamiento ni documentación de API publicada por OpenAI. ^[19]^[20]

La conclusión, por tanto, es asimétrica: Claude Opus 4.7 puede evaluarse como modelo real dentro de este conjunto de fuentes; GPT-5.5 Spud no puede tratarse aquí como un modelo de OpenAI ya verificado y lanzado. Con esa base, no hay un ganador limpio en benchmarks.

Lo que sí está verificado

Pregunta	Qué sostiene la evidencia	Por qué importa
¿Existe Claude Opus 4.7 como modelo de Anthropic?	Sí. Anthropic lista `claude-opus-4-7` para uso vía la API de Claude. ^[8]	Un equipo puede incluirlo razonablemente en evaluaciones internas controladas.
¿Se informó públicamente el lanzamiento de Claude Opus 4.7?	Sí. VentureBeat reportó el lanzamiento público de Claude Opus 4.7 por parte de Anthropic. ^[1]	Una afirmación de lanzamiento pesa más cuando se apoya en documentación oficial o cobertura reputada.
¿GPT-5.5 Spud queda verificado aquí como modelo lanzado por OpenAI?	No. Las fuentes entregadas sobre Spud son páginas de terceros sobre modelos próximos o posibles de OpenAI. ^[19]^[20]	Cualquier afirmación directa sobre su rendimiento debe tratarse como no confirmada en este paquete de evidencia.
¿Hay un benchmark independiente, comparable y directo entre Claude Opus 4.7 y GPT-5.5 Spud?	No aparece un benchmark de ese tipo en las fuentes suministradas.	Publicar un ranking directo exageraría lo que las fuentes permiten afirmar.

Qué puede demostrar realmente un benchmark

Un benchmark puede mostrar cómo rindió un modelo en un conjunto concreto de tareas, con un sistema de evaluación concreto, una política concreta de herramientas, una forma concreta de puntuar y unas condiciones concretas de acceso. No prueba, por sí solo, que un modelo sea universalmente superior.

Esa diferencia es clave porque la literatura sobre evaluación de modelos grandes de lenguaje —LLM, por sus siglas en inglés— advierte que los benchmarks estáticos pueden sufrir saturación, contaminación de datos y falta de replicación independiente suficiente. ^[26] El riesgo aumenta cuando un lado de la comparación está documentado y el otro no está confirmado por una fuente primaria.

Para que una comparación Claude Opus 4.7 vs GPT-5.5 Spud fuera creíble, como mínimo haría falta:

Una fuente primaria de OpenAI que confirme Spud.
Un identificador estable del modelo.
Condiciones de acceso reproducibles para ambos modelos.
Configuración de benchmark documentada: prompts, herramientas, reintentos y sistema de puntuación.
Replicación independiente bajo condiciones comparables.

Las fuentes suministradas sobre Spud no cumplen ese estándar. ^[19]^[20]

Por qué la contaminación puede cambiar un ranking

La contaminación y la filtración de datos importan porque una puntuación alta puede reflejar exposición previa al material de prueba, a patrones de solución o a artefactos públicos del benchmark, y no necesariamente una capacidad general robusta. Investigaciones recientes sobre benchmarks señalan este riesgo, sobre todo en conjuntos de pruebas estáticos o públicos. ^[25]^[26]^[45]

Una revisión posterior sobre benchmarks de LLM indica que diseños dinámicos como LiveBench pueden reducir el riesgo de filtración de datos. ^[25] Eso no convierte a ningún ranking en definitivo, pero sí hace que las pruebas renovadas con frecuencia y diseñadas para limitar la contaminación sean más informativas que los benchmarks estáticos antiguos cuando se evalúan modelos frontera.

LiveBench es una señal fuerte, no una sentencia

LiveBench es uno de los diseños públicos más sólidos dentro de la evidencia suministrada: se basa en tareas con contaminación limitada, preguntas actualizadas con frecuencia a partir de fuentes recientes, generación procedimental de preguntas y puntuación objetiva con respuestas verificables. ^[37] Su sitio también enlaza a ranking, detalles, código, datos y artículo, lo que hace la evaluación más inspeccionable que una gráfica aislada de lanzamiento. ^[36]

Aun así, LiveBench debe leerse como una señal pública fuerte, no como una decisión automática de compra o adopción. Un benchmark puede reducir la lista de candidatos, pero no sustituye las pruebas con tus propios prompts, tu base de código, tus límites de latencia, tus costes y tu tolerancia al fallo.

SWE-bench ayuda, pero es fácil leerlo de más

Las evaluaciones de la familia SWE-bench son valiosas para comparar modelos en programación y tareas de ingeniería de software con agentes, pero el nombre del benchmark no basta. La variante usada, el arnés de evaluación, el acceso a herramientas, el estado del repositorio, la política de reintentos y el sistema de puntuación pueden alterar el resultado.

SWE-bench Live se diseñó para reducir la contaminación del preentrenamiento restringiendo las tareas a incidencias creadas entre el 1 de enero de 2024 y el 20 de abril de 2025, y sus autores señalan que las configuraciones de los rankings pueden diferir de forma sustancial. ^[43] SWE-bench Pro se presenta como un benchmark más difícil y resistente a la contaminación para tareas de ingeniería de software de horizonte más largo. ^[44]

Las cautelas son importantes. SWE-Bench++ sostiene que los benchmarks de software de código abierto tienen un riesgo crítico de contaminación y que la filtración de soluciones puede sesgar los rankings. ^[45] Un análisis de 2026 sobre rankings de SWE-bench también reporta envíos recientes a SWE-bench Verified con contaminación de datos. ^[47]

Además, hay un problema de saturación. Un trabajo sobre infraestructura de benchmarking informa que resultados obtenidos en SWE-bench Verified pueden caer hasta el 23% en SWE-bench Pro. ^[46] SWE-ABS sostiene por separado que el ranking de SWE-bench Verified se acerca a la saturación y puede mostrar tasas de éxito infladas hasta que las tareas se refuercen de forma adversarial. ^[49]

Una escala práctica para confiar en benchmarks

Los benchmarks públicos sirven como filtros, no como veredictos finales. Una escala razonable sería esta:

Tipo de evidencia	Cuánto peso darle	Principal cautela
Evaluaciones privadas con tu propia carga de trabajo	El mayor valor práctico, porque reflejan tus prompts, herramientas, código y restricciones reales.	Requieren arneses repetibles y puntuación cuidadosa.
Benchmarks públicos dinámicos o con contaminación limitada	Más fuertes que las pruebas estáticas, porque las tareas renovadas reducen el riesgo de filtración. ^[25]^[37]	Aun así, pueden no parecerse a tu uso en producción.
SWE-bench Live y SWE-bench Pro	Útiles para agentes de ingeniería de software y diseñados con controles de contaminación más fuertes que configuraciones estáticas anteriores. ^[43]^[44]	Las diferencias de arnés y herramientas pueden cambiar los rankings. ^[43]
SWE-bench Verified y rankings similares	Útiles como señal general del mercado.	La contaminación, las filtraciones y la saturación pueden distorsionar las puntuaciones brutas. ^[45]^[47]^[49]
Gráficas de lanzamiento de proveedores	Ayudan a entender qué fortalezas afirma el fabricante del modelo.	Necesitan replicación independiente antes de decisiones de alto impacto. ^[26]
Páginas de rumores y comparativas SEO	Solo sirven como pistas para investigar.	No son evidencia primaria para un modelo no verificado. ^[19]^[20]

Cómo probar antes de cambiar de modelo

Si estás comparando Claude Opus 4.7 con cualquier modelo de OpenAI, Google, Anthropic o un modelo abierto, conviene empezar por la calidad del benchmark y terminar con tu propia carga de trabajo.

Confirma el identificador exacto del modelo. Para Claude Opus 4.7, Anthropic documenta claude-opus-4-7 para uso vía la API de Claude. ^[8] Para GPT-5.5 Spud, este conjunto de evidencia no aporta un identificador primario de OpenAI. ^[19]^[20]
Usa el mismo arnés para todos los modelos. SWE-bench Live advierte que las configuraciones de los rankings pueden diferir de forma sustancial, así que comparar configuraciones distintas puede crear rankings falsos. ^[43]
Prioriza tareas recientes, privadas o resistentes a la contaminación. Los benchmarks dinámicos y los de ingeniería de software diseñados contra la contaminación buscan reducir el riesgo de filtración. ^[25]^[37]^[44]
Mide restricciones prácticas. Registra reintentos, latencia, coste, permisos de herramientas, modos de fallo y si el modelo resuelve la tarea limpiamente o solo tras intentos caros.
Repite la evaluación. Un resultado aislado en un ranking debe tratarse como una hipótesis hasta que pruebas internas o replicaciones de terceros lo respalden. ^[26]

Qué cambiaría el veredicto

La conclusión cambiaría si apareciera en la evidencia un anuncio primario de OpenAI, una ficha de modelo, una tarjeta de sistema o una documentación de API para GPT-5.5 Spud; además de un identificador estable, acceso reproducible y entradas de benchmark independientes con arneses y permisos de herramientas comparables.

La evidencia sería aún más fuerte si esas entradas aparecieran en evaluaciones con contaminación limitada o resistente a la contaminación, como LiveBench, SWE-bench Live o SWE-bench Pro, y si equipos independientes pudieran reproducir los resultados. ^[37]^[43]^[44]^[26]

Límites importantes

Este análisis se limita a la evidencia suministrada. La ausencia de una fuente primaria de OpenAI para GPT-5.5 Spud en este paquete no demuestra que esa fuente no exista en otro lugar; significa que la afirmación no queda verificada por las fuentes entregadas. ^[19]^[20]

Varias fuentes metodológicas citadas aquí proceden de arXiv, OpenReview o SSRN, no necesariamente de artículos finales en revistas académicas. Son útiles para entender el diseño actual de evaluaciones, el riesgo de contaminación y los problemas de replicación, pero conviene tener presente su estado de publicación. ^[25]^[26]^[37]^[43]^[44]^[45]^[46]^[47]^[49]

Conclusión

Claude Opus 4.7 queda verificado en la evidencia suministrada; GPT-5.5 Spud no queda verificado aquí mediante documentación primaria de OpenAI. ^[8]^[1]^[19]^[20] No debería publicarse un ganador entre Claude Opus 4.7 y GPT-5.5 Spud hasta que Spud esté confirmado, accesible con un identificador estable y evaluado bajo condiciones comparables.

Para elegir modelo, da más peso a benchmarks con contaminación limitada o resistente, métodos inspeccionables y pruebas repetidas. LiveBench, SWE-bench Live y SWE-bench Pro son más informativos que las tablas estáticas o las gráficas de proveedor, pero ninguno sustituye una evaluación controlada con tu propia carga de trabajo. ^[37]^[25]^[43]^[44]^[26]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

Conclusiones clave

No se puede declarar un ganador fiable: Claude Opus 4.7 está verificado en documentación de Anthropic, mientras que GPT 5.5 Spud no queda confirmado aquí por una fuente primaria de OpenAI.
Los benchmarks más sólidos usan tareas recientes o privadas, métodos públicos, puntuación objetiva y replicación independiente; no bastan las gráficas de lanzamiento ni las páginas de rumores.
LiveBench y las variantes más nuevas de SWE bench son útiles porque reducen el riesgo de contaminación, pero los rankings pueden cambiar por diferencias de configuración, filtraciones o saturación.

La gente también pregunta

¿Cuál es la respuesta corta a "Claude Opus 4.7 vs GPT-5.5 Spud: qué pueden probar realmente los benchmarks"?

No se puede declarar un ganador fiable: Claude Opus 4.7 está verificado en documentación de Anthropic, mientras que GPT 5.5 Spud no queda confirmado aquí por una fuente primaria de OpenAI.

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

LiveBench y las variantes más nuevas de SWE bench son útiles porque reducen el riesgo de contaminación, pero los rankings pueden cambiar por diferencias de configuración, filtraciones o saturación.

¿Qué tema relacionado debería explorar a continuación?

Continúe con "Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto" para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "Madera del Noroeste vs. del Sureste: por qué la respuesta es larger; larger".

Abrir página relacionada

Continúe su investigación

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026

Madera del Noroeste vs. del Sureste: por qué la respuesta es larger; larger

Northwest y Southeast Timber: por qué más sustituibilidad implica larger; larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

¿DeepSeek derrotará a OpenAI, Claude, Gemini y Grok? La clave no es el ranking, sino el costo y la confianza

Illustration of an AI coding agent connected to cloud database and backup systems

PocketOS y el borrado de su base de datos: lo que de verdad enseña el caso Claude/Cursor

Conversación de investigación

Tú21 abr 2026

Pregunta de investigación

Research and fact-check: Claude Opus 4.7 vs GPT-5.5 Spud, Benchmark credibility, contamination risk, and independent replication.

Studio Global AI21 abr 202640 fuentes

Respuesta citada

Claude Opus 4.7 is verified: Anthropic officially announced it on Apr. 16, 2026 and said it is generally available.^[1] In the retrieved evidence, “GPT-5.5 Spud” appeared on third-party pages about upcoming OpenAI models rather than in a primary OpenAI release document, so the evidence does not support a clean Claude-vs-Spud head-to-head yet.^[2]^[3] On benchmark credibility, the strongest signals come from contamination-limited or contamination-resistant public benchmarks such as LiveBench and newer SWE-bench variants, not from release-day charts alone.^[4]^[5]^[6]^[7]^[8]

Key findings

Model status: Claude Opus 4.7 is a real, released Anthropic model.^[1] In the retrieved evidence, mentions of “GPT-5.5 Spud” were on third-party pages describing “next” or unreleased OpenAI models.^[2]^[3]
Benchmark credibility: LiveBench was explicitly designed to resist contamination by using recent-source questions, objective ground-truth scoring, and monthly updates.^[4] A later benchmark survey says dynamic benchmark designs like LiveBench reduce data-leakage risk.^[5]
SWE-bench is useful, but raw leaderboard scores need caution: SWE-bench Live restricts tasks to issues created between Jan. 1, 2024 and Apr. 20, 2025 to reduce pretraining contamination, and its authors note that leaderboard setups can differ substantially.^[6] SWE-bench Pro is presented as a more contamination-resistant benchmark for longer-horizon software-engineering tasks.^[7]
Contamination risk remains material: SWE-Bench++ argues that public GitHub-based software benchmarks face critical contamination risk and that solution leakage can skew rankings.^[9] A 2026 analysis of SWE-Bench leaderboards also reports recent Verified submissions with data contamination.^[10]
Saturation and benchmark gaming are also real risks: one 2026 benchmarking paper says results that look strong on SWE-bench Verified can drop to 23% on SWE-bench Pro.^[11] SWE-ABS separately argues that Verified is approaching saturation and can show inflated success rates until tasks are adversarially strengthened.^[12]
Independent replication is still thin: a broader 2025 assessment of major LLM evaluations says many claims now have clearer methods but still limited independent replication.^[8] Inference: that caution applies to fresh Opus 4.7 launch claims until stronger third-party replications appear.^[1]^[8]
Practical takeaway: if you want the most trustworthy performance signal today, put the most weight on contamination-limited/resistant, publicly inspectable benchmarks and repeated third-party tests, and less weight on vendor launch charts.^[4]^[5]^[7]^[8]^[9]^[10]^[11]^[12]

Evidence notes

I did not retrieve a primary OpenAI announcement, model card, or system card for “GPT-5.5 Spud.”
I also did not retrieve a strong, independent, apples-to-apples replication of Claude Opus 4.7 versus a verified GPT-5.5 Spud model.
Sources
- ^[1] Anthropic, “Introducing Claude Opus 4.7” — https://www.anthropic.com/news/claude-opus-4-7
- ^[2] Pasquale Pillitteri, “GPT-5.5 Spud and GPT Image 2: Complete Guide to OpenAI Next Models in 2026” — https://pasqualepillitteri.it/en/news/741/gpt-5-5-spud-gpt-image-2-openai-complete-guide-2026
- ^[3] Idlen, “OpenAI Spud: GPT-6 Release Between April 14 and May 5, 2026” — https://www.idlen.io/news/openai-spud-gpt6-release-april-14-may-5-super-app-ambient-computing
- ^[4] White et al., “LiveBench: A Challenging, Contamination-Limited LLM Benchmark” — https://arxiv.org/abs/2406.19314
- ^[5] “A survey on large language model benchmarks” — https://arxiv.org/abs/2508.15361
- ^[6] “Swe-bench goes live!” — https://arxiv.org/abs/2505.23419
- ^[7] “Swe-bench pro: Can AI agents solve long-horizon software engineering tasks?” — https://arxiv.org/abs/2509.16941
- ^[8] “From Benchmarks to Real-World Performance: A Data-Driven Assessment of Large Language Models in 2025” — https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5991894
- ^[9] “SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories” — https://arxiv.org/abs/2512.17419
- ^[10] “What’s in a Benchmark? The Case of SWE-Bench in Automated Program Repair” — https://arxiv.org/abs/2602.04449
- ^[11] “Towards Comprehensive Benchmarking Infrastructure for LLMs In Software Engineering” — https://arxiv.org/abs/2601.21070
- ^[12] “SWE-ABS: Adversarial Benchmark Strengthening Exposes Inflated Success Rates on Test-based Benchmark” — https://arxiv.org/abs/2603.00520

Limitations / uncertainty

Because “GPT-5.5 Spud” was not verified from primary-source material in the retrieved evidence, any direct Opus-4.7-vs-Spud ranking claim should be treated as provisional.^[2]^[3]
Several benchmark-methodology sources here are recent arXiv or SSRN papers rather than final peer-reviewed journal versions.^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[11]^[12]

Summary

The fact-checked conclusion is asymmetric: Claude Opus 4.7 is real and released, while “GPT-5.5 Spud” is not verified from primary-source material in the evidence I retrieved.^[1]^[2]^[3] For benchmark credibility, the best current evidence favors contamination-limited or contamination-resistant public evals such as LiveBench and SWE-bench Pro over static or vendor-only charts.^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[11]^[12] If you want, I can turn this into a stricter buyer’s guide with a simple trust ranking for specific benchmarks like LiveBench, SWE-bench Verified, SWE-bench Pro, HumanEval, and vendor internal evals.

Fuentes

[1] Anthropic releases Claude Opus 4.7, narrowly retaking lead for most powerful generally available LLM - VentureBeatventurebeat.com
Anthropic is publicly releasing its most powerful large language model yet,Claude Opus 4.7, today — as it continues to keep aneven more powerful successor, Mythos, restricted to a small number of external enterprise partners for cybersecurity testing and pa...
[8] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Skip to main contentSkip to footer. . Developers can use claude-opus-4-7 via the Claude API. ![Image 3: logo](
[19] GPT-5.5 Spud and GPT Image 2: Complete Guide to OpenAI Next Models in 2026pasqualepillitteri.it
GPT-5.5 Spud and GPT Image 2: Complete Guide to OpenAI Next Models in 2026. Complete guide to GPT-5.5 Spud and GPT Image 2: everything about release date (ChatGPT 5.5 release date), capabilities, benchmarks, competitor comparison and how to test upcoming Op...
[20] OpenAI Spud: GPT-6 Release Between April 14 and May 5, 2026 | Idlenidlen.io
2. OpenAI Spud Drops Between April 14 and May 5 — 78% Polymarket, Greg Brockman Says 'Not Incremental': GPT-5.5 or GPT-6? OpenAI Spud Drops Between April 14 and May 5 — 78% Polymarket, Greg Brockman Says 'Not Incremental': GPT-5.5 or GPT-6? Spud, OpenAI's n...
[25] A survey on large language model benchmarksarxiv.org
… In this survey, we present a comprehensive review of LLM … The creation of dynamic, non-public benchmarks like LiveBench [100] … of the dataset but also reduces the risk of data leakage. … 2025
[26] From Benchmarks to Real-World Performance: A Data-Driven Assessment of Large Language Models in 2025papers.ssrn.com
… -relevant outcomes across major 2025 LLM systems. … of static benchmarks, including saturation effects, data contamination, and … with clear methods but limited independent replication. … 5991
[36] LiveBenchlivebench.ai
LeaderboardDetailsCodeDataPaper. GPT-5.4 Thinking xHigh Effort OpenAI 80.28 88.12 77.54 70.00 94.15 79.31 82.63 70.22 . Claude 4.6 Opus Thinking High Effort Anthropic 76.33 88.67 78.18 61.67 89.32 69.89 83.27 63.31 . [Claude 4.5 Opus Thinking High Effort](htt…
[37] LiveBench: A Challenging, Contamination-Limited LLM Benchmarkopenreview.net
TL;DR: LiveBench is a difficult LLM benchmark consisting of contamination-limited tasks that employ verifiable ground truth answers on frequently-updated questions from recent information sources and procedural question generation techniques. We release Liv...
[43] Swe-bench goes live!arxiv.org
… contamination from pretraining, we restrict the dataset to issues created between January 1, 2024, and April 20, 2025. … setups on the SWE-bench leaderboard often involve dramatically … 2025
[44] Swe-bench pro: Can ai agents solve long-horizon software engineering tasks?arxiv.org
… PRO, a substantially more challenging benchmark that … Overall, SWE-BENCH PRO provides a contamination-resistant … publicly in this paper and will update in the leaderboard. This is … 2025
[45] SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositoriesarxiv.org
… benchmarks introduces a critical data contamination risk: most … SWE-bench and its manually curated variant SWE-bench … rather than reasoning, further skewing leaderboard rankings. … 2025
[46] Towards Comprehensive Benchmarking Infrastructure for LLMs In Software Engineeringarxiv.org
… context, and widespread contamination issues. To understand … on SWE-bench Verified drop to just 23% on SWE-bench Pro, … evaluation methods or reusing existing but often inadequate … 2026
[47] What's in a Benchmark? The Case of SWE-Bench in Automated Program Repairarxiv.org
… To carry out our study, we examine each entry in the SWE-Bench leaderboards. … We also observed in Verified several recent submissions (August 2025) with … Data Contamination. Some … 2602
[49] SWE-ABS: Adversarial Benchmark Strengthening Exposes Inflated Success Rates on Test-based Benchmarkarxiv.org
… The SWE-Bench Verified leaderboard is approaching saturation, with the … 2025) pioneered test augmentation for SWE-Bench, … effectiveness on contamination-resistant SWE-Bench Pro … 2026

Tendencias en Descubrir

InformesPublicado28 abr 2026Last edited 6 may 202614 fuentes