A leitura curta é: Claude Opus 4.7 vence mais linhas ligadas a raciocínio e engenharia de software; GPT-5.5 Pro vira o jogo quando ferramentas e navegação entram na tarefa; GPT-5.5 tem a vantagem mais clara em workflows de terminal. Já Kimi K2.6 deve ser analisado com mais cautela, porque seus números vêm principalmente de fontes separadas, não da mesma matriz direta .
No recorte direto da VentureBeat, Claude Opus 4.7 marca 94,2% no GPQA Diamond, contra 93,6% do GPT-5.5 e 90,1% do DeepSeek-V4-Pro-Max . A diferença para GPT-5.5 é pequena, mas Claude fica na frente nessa linha específica
.
O mesmo padrão aparece no Humanity’s Last Exam sem uso de ferramentas: Claude Opus 4.7 chega a 46,9%, acima de GPT-5.5 Pro, com 43,1%, GPT-5.5, com 41,4%, e DeepSeek-V4-Pro-Max, com 37,7% . Para perguntas científicas difíceis, provas de conhecimento geral muito exigentes ou raciocínio sem apoio de busca e ferramentas, os dados favorecem Claude Opus 4.7
.
Kimi K2.6 também tem um sinal interessante em GPQA: o LLM Stats lista Kimi K2.6 em 0,91, enquanto Claude Opus 4.7 e GPT-5.5 aparecem em 0,94 arredondado nesse leaderboard . Ainda assim, isso não é a mesma tabela GPQA Diamond da VentureBeat; vale como referência, não como desempate definitivo
.
Quando o benchmark permite usar ferramentas, a liderança muda. No Humanity’s Last Exam com ferramentas, GPT-5.5 Pro alcança 57,2%, acima de Claude Opus 4.7, com 54,7%, GPT-5.5, com 52,2%, e DeepSeek-V4-Pro-Max, com 48,2% .
O BrowseComp também favorece GPT-5.5 Pro na tabela da VentureBeat: 90,1%, contra 84,4% do GPT-5.5, 83,4% do DeepSeek-V4-Pro-Max e 79,3% do Claude Opus 4.7 . O DocsBot lista Kimi K2.6 com 83,2% em BrowseComp, mas esse número aparece em uma comparação própria entre Kimi K2.6 e DeepSeek-V4 Pro, não na mesma matriz completa da VentureBeat
.
Para fluxos que dependem de pesquisa na web, browsing, orquestração de ferramentas ou recuperação de informações em várias etapas, GPT-5.5 Pro é o nome mais forte dentro dos números citados .
Terminal-Bench 2.0 é relevante para quem quer um agente operando em ambiente de shell, e não apenas respondendo perguntas. O benchmark é descrito como uma avaliação de workflows reais de CLI, incluindo manipulação de arquivos, execução de scripts, depuração e coordenação de ferramentas .
Aqui, GPT-5.5 abre distância: 82,7% no Terminal-Bench 2.0, contra 69,4% do Claude Opus 4.7 e 67,9% do DeepSeek-V4-Pro-Max . Se o caso de uso envolve corrigir erros via terminal, automatizar repositórios, rodar comandos, depurar scripts ou executar tarefas de shell em várias etapas, esse é o ponto mais forte do GPT-5.5 nos dados disponíveis
.
SWE-Bench Pro é uma pista importante para tarefas de engenharia de software mais complexas. O LLM Stats descreve esse benchmark como uma versão avançada do SWE-Bench, voltada a tarefas reais de software que exigem raciocínio prolongado e solução em múltiplas etapas .
Na tabela da VentureBeat, Claude Opus 4.7 chega a 64,3% em SWE-Bench Pro / SWE Pro, acima de GPT-5.5, com 58,6%, e DeepSeek-V4-Pro-Max, com 55,4% . O LLM Stats também lista Claude Opus 4.7 em 0,64, GPT-5.5 em 0,59, Kimi K2.6 em 0,59 e DeepSeek-V4-Pro-Max em 0,55 no SWE-Bench Pro
.
As fontes usam formatos diferentes para pontuação, mas apontam na mesma direção: Claude Opus 4.7 lidera esse grupo em SWE-Bench Pro; GPT-5.5 e Kimi K2.6 ficam próximos no recorte do LLM Stats; DeepSeek-V4-Pro-Max aparece abaixo nos números citados .
DeepSeek-V4-Pro-Max não lidera nenhuma linha da comparação direta da VentureBeat: ele aparece com 90,1% em GPQA Diamond, 37,7% no Humanity’s Last Exam sem ferramentas, 48,2% no Humanity’s Last Exam com ferramentas, 67,9% no Terminal-Bench 2.0, 55,4% no SWE-Bench Pro, 83,4% no BrowseComp e 73,6% no MCP Atlas .
O argumento a favor do DeepSeek V4 é custo/eficiência. A VentureBeat descreve o DeepSeek-V4 como próximo do estado da arte com custo em torno de 1/6 em relação a Opus 4.7 e GPT-5.5 .
O ponto de atenção é confiabilidade. A Artificial Analysis registra DeepSeek V4 Pro Max com -10 no AA-Omniscience, uma melhora de 11 pontos em relação ao V3.2 Reasoning, que tinha -21; ao mesmo tempo, afirma que V4 Pro e V4 Flash têm taxas de alucinação muito altas, de 94% e 96%, respectivamente .
Isso não permite concluir que DeepSeek V4 seja necessariamente o menos confiável de todo o grupo, porque as fontes citadas não trazem a mesma métrica de alucinação para GPT-5.5, Claude Opus 4.7 e Kimi K2.6 . A conclusão mais prudente é: DeepSeek V4 pode valer a pena quando custo pesa muito, mas precisa ser testado com seus próprios dados, prompts e critérios de verificação
.
Kimi K2.6 é o modelo mais difícil de posicionar nesta comparação. O problema não é falta total de números, e sim falta de uma matriz única que compare Kimi K2.6, GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 e DeepSeek-V4-Pro-Max no mesmo conjunto de benchmarks .
Ainda assim, há sinais úteis. O LLM Stats lista Kimi K2.6 em 0,91 no GPQA e 0,59 no SWE-Bench Pro . O DocsBot lista Kimi K2.6 com 96,4% no AIME 2026 em thinking mode, 27,9% no APEX Agents e 83,2% no BrowseComp; na mesma página, DeepSeek-V4 Pro aparece com 83,4% no BrowseComp
.
Como esses números vêm de fontes e contextos diferentes, a conclusão correta não é dizer que Kimi K2.6 ganha ou perde no geral. O melhor uso desses dados é tratar Kimi K2.6 como candidato para testes internos quando os benchmarks citados se parecem com o seu problema real .
Primeiro, GPT-5.5 Pro só aparece com números em algumas linhas da tabela da VentureBeat. Não dá para presumir que a versão Pro ganhe, empate ou perca nos benchmarks em que ela não foi reportada .
Segundo, os dados de Kimi K2.6 vêm principalmente de LLM Stats e DocsBot, não de uma comparação direta completa com GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 e DeepSeek-V4-Pro-Max .
Terceiro, a OpenAI tem um system card próprio para GPT-5.5. Nele, o CoT-Control é descrito como uma suíte com mais de 13.000 tarefas construídas a partir de benchmarks como GPQA, MMLU-Pro, HLE, BFCL e SWE-Bench Verified . Essa informação ajuda a entender como GPT-5.5 foi avaliado, mas as fontes citadas não trazem resultados CoT-Control equivalentes para Claude Opus 4.7, DeepSeek V4 e Kimi K2.6; portanto, não serve para ranquear todos no mesmo eixo
.
O resumo final é simples: Claude Opus 4.7 é a escolha mais forte neste recorte para raciocínio difícil e SWE-Bench Pro; GPT-5.5 Pro é o destaque em ferramentas e navegação; GPT-5.5 sobressai em terminal; DeepSeek V4 vale atenção quando custo é prioridade; e Kimi K2.6 parece competitivo em sinais isolados, mas ainda precisa de uma comparação mais uniforme .
Comments
0 comments