| Raciocínio com ferramentas | GPT-5.5 Pro | 57,2% no Humanity’s Last Exam com ferramentas, contra 54,7% do Claude Opus 4.7 |
| Terminal e computação agentiva | GPT-5.5 | 82,7% no Terminal-Bench 2.0, bem acima de Claude Opus 4.7 com 69,4% e DeepSeek-V4-Pro-Max com 67,9% |
| Operação de sistema operacional | GPT-5.5 | 78,7% no OSWorld-Verified contra 78,0% do Claude Opus 4.7 |
| Matemática de fronteira | GPT-5.5 | 51,7% no FrontierMath Tiers 1–3 contra 43,8% do Claude Opus 4.7 |
| Engenharia de software na tabela compartilhada | Claude Opus 4.7 | 64,3% no SWE-Bench Pro / SWE Pro, acima de GPT-5.5 com 58,6% e DeepSeek-V4-Pro-Max com 55,4% |
| Navegação e compreensão web | GPT-5.5 Pro | 90,1% no BrowseComp, à frente de GPT-5.5 com 84,4%, DeepSeek-V4-Pro-Max com 83,4% e Claude Opus 4.7 com 79,3% |
| Fluxos com ferramentas públicas no estilo MCP | Claude Opus 4.7 | 79,1% no MCP Atlas / MCPAtlas Public, acima de GPT-5.5 com 75,3% e DeepSeek-V4-Pro-Max com 73,6% |
| Visão e análise de documentos | Claude Opus 4.7 | Reportado como nº 1 no Vision & Document Arena, com vitórias em diagramas, tarefas escolares e OCR |
Linhas que misturam fontes pedem cuidado. Um número do Kimi vindo de uma comparação focada em Kimi é útil, mas não tem o mesmo peso que uma medição feita no mesmo harness e na mesma tabela que GPT-5.5, Claude Opus 4.7 e DeepSeek-V4-Pro-Max .
A vitória mais clara do GPT-5.5 está no Terminal-Bench 2.0: 82,7% contra 69,4% do Claude Opus 4.7 e 67,9% do DeepSeek-V4-Pro-Max na tabela compartilhada . Entre os benchmarks citados, é uma das diferenças mais expressivas.
Ele também fica à frente do Claude Opus 4.7 no OSWorld-Verified, mas por margem apertada: 78,7% contra 78,0% . Em FrontierMath Tiers 1–3, a vantagem é maior: 51,7% contra 43,8% do Claude
.
Quando ferramentas e navegação entram no jogo, o GPT-5.5 Pro muda o placar. Ele lidera o Humanity’s Last Exam com ferramentas, com 57,2%, acima de Claude Opus 4.7 com 54,7%, GPT-5.5 com 52,2% e DeepSeek-V4-Pro-Max com 48,2% . Também lidera o BrowseComp com 90,1%, à frente de GPT-5.5 com 84,4%, DeepSeek-V4-Pro-Max com 83,4% e Claude Opus 4.7 com 79,3%
.
Isso não significa que o GPT-5.5 vença todo teste de raciocínio. No GPQA Diamond, Claude Opus 4.7 passa ligeiramente à frente: 94,2% contra 93,6% . Há ainda resultados específicos reportados apenas para GPT-5.5, como 91,7% no Harvey BigLaw Bench, 88,5% em um benchmark interno de investment banking e 80,5% no BixBench, mas esses números não devem ser tratados como vitórias contra Claude, DeepSeek ou Kimi porque a fonte citada não traz as mesmas medições para os quatro modelos
.
O Claude Opus 4.7 tem o melhor perfil de raciocínio sem ferramentas na principal tabela compartilhada. Ele lidera o GPQA Diamond com 94,2% e o Humanity’s Last Exam sem ferramentas com 46,9% . Na mesma tabela, também lidera SWE-Bench Pro / SWE Pro com 64,3% e MCP Atlas / MCPAtlas Public com 79,1%
.
A área menos favorável para Claude, nos dados citados, é operação em terminal. O GPT-5.5 fica mais de 13 pontos à frente no Terminal-Bench 2.0, 82,7% contra 69,4%, e também supera Claude em OSWorld-Verified e FrontierMath Tiers 1–3 .
Em multimodal e documentos, Claude tem o sinal mais forte entre as fontes. Uma delas reporta Claude Opus 4.7 como nº 1 no Vision & Document Arena, com melhora de 4 pontos sobre o Opus 4.6 no Document Arena e vitórias em subcategorias como diagramas, tarefas escolares e OCR . A mesma fonte não fornece pontuações numéricas comparáveis para GPT-5.5, DeepSeek V4 ou Kimi K2.6 nesse arena, então o dado apoia a força de Claude em documentos, mas não fecha um ranking multimodal completo entre quatro modelos
.
As fontes usam mais de um rótulo para DeepSeek. A tabela compartilhada fala em DeepSeek-V4-Pro-Max, enquanto a comparação da Artificial Analysis cita DeepSeek V4 Pro com janela de contexto de 1 milhão de tokens . Esses nomes não devem ser tratados automaticamente como equivalentes.
Na tabela compartilhada, o DeepSeek-V4-Pro-Max é competitivo, mas não lidera nenhuma linha. Ele marca 90,1% no GPQA Diamond, 37,7% no Humanity’s Last Exam sem ferramentas, 48,2% no Humanity’s Last Exam com ferramentas, 67,9% no Terminal-Bench 2.0, 55,4% no SWE-Bench Pro / SWE Pro, 83,4% no BrowseComp e 73,6% no MCP Atlas / MCPAtlas Public .
O argumento mais forte a favor do DeepSeek V4, nas fontes citadas, é econômico. A VentureBeat descreve o modelo como entregando inteligência próxima ao estado da arte por cerca de um sexto do custo de Opus 4.7 e GPT-5.5 . Isso é motivo para testá-lo em projetos sensíveis a custo, não para dispensar validação com seus próprios dados, prompts e métricas.
Para triagem de contexto longo, uma comparação da Artificial Analysis lista tanto DeepSeek V4 Pro quanto Claude Opus 4.7 com janelas de contexto de 1 milhão de tokens . Isso sustenta paridade nessa configuração específica, mas não uma conclusão geral sobre todos os modos de DeepSeek ou Claude
.
O Kimi K2.6 é o modelo mais difícil de posicionar de forma limpa nesta disputa. Ele não aparece na principal tabela compartilhada contra GPT-5.5, Claude Opus 4.7 e DeepSeek-V4-Pro-Max .
Uma comparação focada em Kimi reporta o K2.6 com 58,6% no SWE-Bench Pro, 80,2% no SWE-Bench Verified, 66,7% no Terminal-Bench 2.0, 54,0% no Humanity’s Last Exam com ferramentas e 89,6% no LiveCodeBench v6 . A fonte afirma que os números do K2.6 vêm de um model card oficial da Moonshot AI, mas o conjunto comparado ali é principalmente Claude Opus 4.6 e GPT-5.4, não exatamente a disputa de quatro modelos analisada aqui
.
Outra comparação Kimi vs DeepSeek reporta Kimi K2.6 com 96,4% no AIME 2026 em modo Thinking, 27,9% no APEX Agents em modo Thinking e 83,2% no BrowseComp com modo Thinking e gerenciamento de contexto . Na mesma fonte, DeepSeek-V4 Pro aparece com 83,4% no BrowseComp, enquanto valores de DeepSeek não estão disponíveis para AIME 2026 e APEX Agents
.
A conclusão prática: Kimi merece teste, especialmente em coding, agentes, matemática e navegação, mas o material citado não sustenta um ranking geral limpo contra GPT-5.5 e Claude Opus 4.7 no mesmo conjunto de benchmarks .
Isto não é um ranking universal. As fontes misturam variantes base e Pro, incluindo GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 e Kimi K2.6 . Alguns resultados também são reportados por fornecedores, e a OpenAI observa que suas avaliações GPT para ARC foram rodadas com esforço de raciocínio em xhigh em um ambiente de pesquisa que pode gerar saídas ligeiramente diferentes das do ChatGPT em produção
.
Margens pequenas devem ser lidas como tendência, não como veredito definitivo. A vantagem de Claude sobre GPT-5.5 no GPQA Diamond é de 0,6 ponto, e a vantagem de GPT-5.5 sobre Claude no OSWorld-Verified é de 0,7 ponto . Já diferenças maiores são mais acionáveis: o GPT-5.5 passa Claude por mais de 13 pontos no Terminal-Bench 2.0 e por 7,9 pontos no FrontierMath
.
A resposta curta é: não existe um vencedor único entre GPT-5.5, Claude Opus 4.7, DeepSeek V4 e Kimi K2.6. Escolha o benchmark que mais se parece com o seu uso real e depois rode a mesma avaliação nos modelos que você pode de fato colocar em produção.
Comments
0 comments