A tabela abaixo junta apenas benchmarks em que Claude Opus 4.7 e GPT-5.5 aparecem no mesmo teste. A variante GPT-5.5 Pro só entra quando a fonte a lista separadamente .
A OpenAI usa SWE-Bench Pro Public na comparação direta entre GPT-5.5 e Claude Opus 4.7 . Isso não é a mesma coisa que SWE-bench Verified. A BenchLM descreve o SWE-bench Verified como um subconjunto curado e verificado por humanos do SWE-bench que testa modelos na resolução de issues reais do GitHub em repositórios Python populares, como Django, Flask e scikit-learn
.
Na prática: o 64,3% do Claude no SWE-Bench Pro Public não deve ser comparado diretamente com uma pontuação do Claude em SWE-bench Verified retirada de outro ranking sem checar protocolo, data, configuração e modo de execução .
A Vellum coloca Claude Opus 4.7 em 94,2% e GPT-5.5 em 93,6% no GPQA Diamond . A The Next Web também reportou Claude Opus 4.7 em 94,2%, GPT-5.4 Pro em 94,4% e Gemini 3.1 Pro em 94,3%, avaliando que diferenças desse tamanho ficam dentro do ruído
.
Ou seja: GPQA ainda serve como sinal geral de raciocínio científico, mas é fraco como critério único para escolher um modelo de produção. Quando os modelos estão todos perto do teto, a decisão passa a depender mais do tipo de fluxo real: terminal, ferramentas, busca, código, finanças ou tarefas internas.
No SWE-bench Verified, as pontuações públicas do Claude Opus 4.7 variam bastante entre fontes. A BenchLM lista Claude Opus 4.7 Adaptive com 87,6% em 24 de abril de 2026 . A LLM Stats também cita 87,6%
. Já a LM Council mostra Claude Opus 4.7 max com 83,5% ±1,7
, enquanto a MindStudio menciona 82,4%
.
Essas diferenças costumam vir de configuração de modelo, ambiente de avaliação, data do teste, número de tentativas e modo de raciocínio. Para times de produto e engenharia, rankings públicos devem servir como triagem inicial, não como substituto para testes no próprio repositório, nas próprias ferramentas e no próprio fluxo de CI/CD.
O sinal mais forte do Claude Opus 4.7 está em reparo de código e agentes que dependem de muitas ferramentas. Na tabela da OpenAI, Claude supera GPT-5.5 no SWE-Bench Pro Public, 64,3% vs. 58,6%, e no FinanceAgent v1.1, 64,4% vs. 60,0% . A Vellum também mostra Claude à frente no MCP Atlas, 79,1% vs. 75,3% para GPT-5.5
.
A própria Anthropic destaca avaliações de parceiros ligadas a fluxos agentic. No lançamento do Claude Opus 4.7, a empresa cita a Hebbia relatando salto de dois dígitos na precisão de tool calls e planejamento em agentes orquestradores, além do Rakuten-SWE-Bench, em que Opus 4.7 teria resolvido três vezes mais tarefas de produção do que Opus 4.6, com ganhos de dois dígitos em Code Quality e Test Quality .
Isso é um sinal útil, mas ainda não substitui avaliação independente no seu ambiente. Se a prioridade é reparo autônomo de repositórios, MCP ou workflows longos com várias ferramentas, Claude Opus 4.7 merece entrar primeiro no teste. Ainda assim, valide com sua suíte de testes, seu modelo de permissões e seus padrões reais de chamadas de ferramenta.
A vantagem mais nítida do GPT-5.5 aparece no Terminal-Bench 2.0. A OpenAI reporta GPT-5.5 com 82,7%, contra 69,4% do Claude Opus 4.7 e 68,5% do Gemini 3.1 Pro . Na mesma tabela, GPT-5.5 também fica acima do Claude em GDPval, 84,9% vs. 80,3%, e OfficeQA Pro, 54,1% vs. 43,6%
.
A Vellum adiciona contexto para uso de computador, busca e matemática. GPT-5.5 fica ligeiramente à frente em OSWorld-Verified, 78,7% vs. 78,0%; mais alto em BrowseComp, 84,4% vs. 79,3%; e mais alto em FrontierMath T1–3, 51,7% vs. 43,8% . Para BrowseComp, a Vellum também reporta GPT-5.5 Pro em 90,1%
.
Em código, o quadro é misto. GPT-5.5 é muito forte em tarefas de terminal, mas fica atrás do Claude Opus 4.7 no SWE-Bench Pro Public da OpenAI . O System Card da OpenAI também descreve o CoT-Control do GPT-5.5, uma suíte com mais de 13.000 tarefas derivadas de benchmarks como GPQA, MMLU-Pro, HLE, BFCL e SWE-Bench Verified
. Esse documento, porém, não traz uma comparação direta com DeepSeek V4 ou Kimi K2.6
.
Para DeepSeek V4, as fontes disponíveis não trazem pontuação direta. O dado mais próximo é sobre DeepSeek V3.2: a MangoMind lista DeepSeek V3.2 nas recomendações de coding de abril de 2026 com 89,2% no SWE-bench, abaixo de Claude Opus 4.6 com 93,2% e GPT-5.4 Pro com 91,1% . Isso não permite concluir nada sobre DeepSeek V4.
Para Kimi K2.6, vale a mesma cautela. O Stanford HAI menciona KimiK2.5 dentro do grupo de modelos entre 70% e 76% no SWE-bench Verified em fevereiro de 2026 . A Siliconflow lista Kimi K2 Thinking com GPQA 84,5 e SWE Bench 71,3
. Nenhum desses números é de Kimi K2.6; servem apenas como contexto do ecossistema Kimi, não como benchmark direto do modelo perguntado.
Com os dados head-to-head disponíveis, GPT-5.5 é o candidato mais forte para agentes de terminal/CLI, navegação e busca, tarefas de escritório e alguns benchmarks matemáticos . Claude Opus 4.7 é o candidato mais forte para SWE-Bench Pro Public, MCP/tool orchestration e FinanceAgent v1.1
.
DeepSeek V4 e Kimi K2.6 não podem ser ranqueados de forma justa contra esses dois modelos com base nas fontes fornecidas. Os dados disponíveis se referem a DeepSeek V3.2, KimiK2.5 e Kimi K2 Thinking; portanto, qualquer afirmação de que DeepSeek V4 ou Kimi K2.6 supera Claude Opus 4.7 ou GPT-5.5 ainda não está sustentada por números diretos neste conjunto de fontes .
Comments
0 comments