Benchmarks de Claude Opus 4.7: resultados clave y qué significa el 87.6% en SWE-bench Verified | Answer