Na tabela abaixo, — significa que, nas fontes públicas fornecidas, não há um número diretamente comparável para aquele modelo naquele benchmark. Não significa que o modelo seja incapaz de executar a tarefa.
A OpenAI afirma que o GPT-5.5 chegou a 82,7% no Terminal-Bench 2.0 e a 58,6% no SWE-Bench Pro . Segundo a empresa, o Terminal-Bench 2.0 mede fluxos complexos de linha de comando que exigem planejamento, iteração e coordenação de ferramentas, enquanto o SWE-Bench Pro avalia resolução de issues reais do GitHub
.
Isso torna o GPT-5.5 um candidato natural para cenários como execução em sandbox, reprodução de falhas de CI, criação e edição de arquivos, scripts de correção e sessões longas de shell. Mas o resultado não autoriza dizer que ele vence em todo tipo de programação: no SWE-Bench Pro, Claude Opus 4.7 aparece com 64,3%, acima dos 58,6% do GPT-5.5 .
Claude Opus 4.7 é reportado com 64,3% no SWE-Bench Pro e 87,6% no SWE-Bench Verified . A DataCamp resume que o modelo foi avaliado em 14 benchmarks envolvendo codificação, raciocínio, uso de ferramentas, uso de computador e raciocínio visual
.
Nas comparações diretas com GPT-5.5, Claude Opus 4.7 também aparece levemente à frente em GPQA Diamond, com 94,2% contra 93,6%, e em MCP Atlas, com 79,1% contra 75,3% . Já em Terminal-Bench 2.0 e BrowseComp, os valores públicos favorecem o GPT-5.5
.
O retrato mais honesto é este: Claude Opus 4.7 parece ser um ótimo primeiro teste para correção de bugs, revisão estruturada e resolução de issues; GPT-5.5 parece mais forte quando a tarefa depende de executar muitos passos no terminal.
Kimi K2.6 aparece com 58,6% no SWE-Bench Pro e 80,2% no SWE-Bench Verified; outro guia também lista 66,7% no Terminal-Bench 2.0 e 54,0% em HLE com ferramentas . A ressalva é importante: esse guia atribui os números do K2.6 ao model card oficial da Moonshot AI e aponta o uso de um harness interno da Moonshot no SWE-Bench Pro
.
Por isso, mesmo que o SWE-Bench Pro mostre 58,6% para Kimi K2.6 e 58,6% para GPT-5.5, não é seguro tratar os dois valores como um empate perfeito sob condições idênticas .
O motivo para testar Kimi K2.6 está mais claro em outro ponto: ele é apresentado com suporte a entrada de texto, imagem e vídeo, além de uma rota de contexto de 256k . Para produtos que precisam analisar documentos grandes, sequências multimodais ou muito material em uma só chamada, isso pode ser mais relevante do que uma diferença pequena em benchmark.
Nas fontes disponíveis, DeepSeek V4 não tem números diretamente comparáveis para Terminal-Bench, SWE-Bench Pro, SWE-Bench Verified ou GPQA Diamond. O que há é outro tipo de evidência: a Artificial Analysis informa que o DeepSeek V4 Pro Max marcou -10 no AA-Omniscience, 11 pontos acima do V3.2, enquanto o V4 Flash Max marcou -23 . A mesma análise reporta taxas de alucinação de 94% para V4 Pro e 96% para V4 Flash, interpretando que os modelos quase sempre respondem mesmo quando não sabem
.
Em arquitetura e custo, porém, há razões para olhar o modelo com atenção. A DataCamp afirma que DeepSeek V4 usa uma arquitetura Mixture of Experts; o modelo Pro teria 1,6 trilhão de parâmetros totais, com 49 bilhões ativos, enquanto o Flash teria 284 bilhões de parâmetros totais, com 13 bilhões ativos . Já a Mashable lista preços de API menores que os de GPT-5.5 e Claude Opus 4.7
.
Assim, DeepSeek V4 pode fazer sentido para processamento em grande volume, fluxos internos com validação automática e cenários em que custo por token pesa muito. Para produtos em que precisão é crítica, os relatos de alucinação alta e a falta de números nos benchmarks comuns tornam indispensáveis uma avaliação própria, checagens adicionais e mecanismos de detecção de falhas .
Primeiro, as fontes disponíveis não trazem uma comparação independente dos quatro modelos usando o mesmo prompt, o mesmo acesso a ferramentas, o mesmo orçamento de raciocínio e o mesmo avaliador. GPT-5.5 e Claude Opus 4.7 têm mais números em comum; Kimi K2.6 combina model card e harness interno; DeepSeek V4 tem lacunas nos principais benchmarks desta tabela .
Segundo, o mesmo nome de benchmark pode esconder configurações diferentes. Uma análise observa que os resultados públicos de GPT-5.5 e Claude Opus 4.7 são comparáveis em formato, mas não necessariamente idênticos em metodologia . A Anthropic também informa que usou o harness Terminus-2 e condições específicas de recursos ao avaliar Terminal-Bench 2.0
.
Terceiro, benchmark não é produto. Em uma adoção real, entram na conta taxa de erro, tipo de falha, alucinação, latência, custo, estabilidade no uso de ferramentas, políticas de segurança e capacidade de reproduzir logs. A ExplainX ressalta que definições de leaderboard, prompts e políticas de ferramentas podem mover pontuações, então esses números devem ser tratados como um retrato do momento, não como substituto de uma avaliação própria .
Com as evidências públicas atuais, a estratégia mais razoável é testar GPT-5.5 primeiro para agentes de terminal, Claude Opus 4.7 para correção e revisão de código no estilo SWE-Bench, Kimi K2.6 para contexto multimodal longo e DeepSeek V4 para chamadas em grande volume com foco em custo .
Comments
0 comments