Já a documentação pública da Anthropic para o Claude Opus 4.7 se concentra em recursos e formas de chamada da API, como o beta de task budgets
Entre as fontes disponíveis aqui, o ponto de comparação comum em que os quatro modelos têm números públicos é o Terminal-Bench 2.0. Nesse recorte, a ordem fica assim:
| Modelo | Terminal-Bench 2.0 | Fonte |
|---|---|---|
| GPT-5.5 | 82,7% | OpenAI e resumo da MLQ.ai |
| Claude Opus 4.7 | 69,4% | OpenAI |
| DeepSeek V4-Pro Max | 67,9% | Model card da DeepSeek |
| Kimi K2.6 Thinking | 66,7% | Model card da DeepSeek |
Essa tabela sustenta uma conclusão estreita, mas útil: em Terminal-Bench 2.0, GPT-5.5 aparece claramente à frente; Claude Opus 4.7 vem em segundo; DeepSeek V4-Pro Max e Kimi K2.6 Thinking ficam próximos.
O que ela não sustenta: dizer que GPT-5.5 é necessariamente superior em todos os cenários de produto, ou substituir um reteste controlado com o mesmo conjunto de prompts, ferramentas, tamanho de contexto e orçamento de raciocínio.
A página de lançamento da OpenAI traz comparações entre GPT-5.5 e Claude Opus 4.7 em vários benchmarks. Nos itens listados pela OpenAI, GPT-5.5 aparece com pontuação maior que Claude Opus 4.7.
| Benchmark na tabela da OpenAI | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82,7% | 69,4% |
| GDPval wins or ties | 84,9% | 80,3% |
| BrowseComp | 84,4% | 79,3% |
| FrontierMath Tier 1–3 | 51,7% | 43,8% |
| FrontierMath Tier 4 | 35,4% | 22,9% |
| CyberGym | 81,8% | 73,1% |
A leitura prudente é: dentro da tabela da OpenAI, nos benchmarks listados, GPT-5.5 supera Claude Opus 4.7.
O system card da OpenAI também posiciona o GPT-5.5 como um modelo voltado a trabalho real complexo, incluindo escrever código, pesquisar online, analisar informações, criar documentos e planilhas, e atuar entre ferramentas para concluir tarefas.
Ainda assim, essa é uma comparação publicada pela OpenAI. Ela não equivale a uma avaliação independente dos quatro modelos sob o mesmo harness — isto é, o mesmo conjunto de regras, ambiente, permissões e critérios de medição.
O model card do DeepSeek V4-Pro apresenta uma comparação direta entre DS-V4-Pro Max e K2.6 Thinking em vários testes. Nessa tabela, o DeepSeek V4-Pro Max fica à frente na maioria dos itens, mas Kimi também tem vitórias claras.
| Benchmark no model card da DeepSeek | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | Líder na tabela |
|---|---|---|---|
| MMLU-Pro | 87,5 | 87,1 | DeepSeek |
| SimpleQA-Verified | 57,9 | 36,9 | DeepSeek |
| Chinese-SimpleQA | 84,4 | 75,9 | DeepSeek |
| GPQA Diamond | 90,1 | 90,5 | Kimi |
| HLE | 37,7 | 36,4 | DeepSeek |
| LiveCodeBench | 93,5 | 89,6 | DeepSeek |
| HMMT 2026 Feb | 95,2 | 92,7 | DeepSeek |
| IMOAnswerBench | 89,8 | 86,0 | DeepSeek |
| Apex Shortlist | 90,2 | 75,5 | DeepSeek |
| SWE Pro | 55,4 | 58,6 | Kimi |
| Terminal-Bench 2.0 | 67,9 | 66,7 | DeepSeek |
A leitura mais segura é: nos itens listados no model card da DeepSeek, DS-V4-Pro Max supera K2.6 Thinking na maioria dos benchmarks; Kimi K2.6 Thinking lidera em GPQA Diamond e SWE Pro.
Também vale cuidado com diferenças pequenas. Em MMLU-Pro e Terminal-Bench 2.0, por exemplo, as pontuações estão próximas; numa decisão de produto, a direção da liderança importa menos do que o tipo de tarefa que você realmente precisa resolver.
O erro mais comum é pegar uma tabela da OpenAI, outra da DeepSeek e uma página de documentação da Anthropic, somar tudo e declarar um campeão. As fontes públicas disponíveis não dão base para isso por três razões:
Em outras palavras: benchmark público é um bom filtro inicial, mas não deve ser o único critério para compra, arquitetura ou troca de modelo em produção.
Uma forma mais prática de ler os dados é separar a análise em três camadas:
Se o produto depende de ciclos longos de agentes — por exemplo, várias chamadas de ferramenta antes de uma resposta final — o recurso task budgets
Se o caso de uso está mais perto de programação complexa, pesquisa online, geração de documentos ou planilhas e trabalho entre ferramentas, a descrição do GPT-5.5 no system card da OpenAI conversa diretamente com esses cenários. Mesmo assim, desempenho em tabela pública não substitui teste no seu repositório, com sua cadeia de ferramentas, suas permissões e suas regras de recuperação de falhas.
Comments
0 comments