GPT-5.5 é tão forte assim? Forças e limites nos benchmarks públicos | Resposta