As lacunas da tabela não querem dizer que DeepSeek V4 ou Kimi K2.6 sejam fracos. Querem dizer apenas que, nas fontes disponíveis aqui, não há pontuações homogêneas nos mesmos benchmarks, com os mesmos ajustes e o mesmo nível de detalhe
.
Nos dois resultados ARC-AGI citados na página de lançamento da OpenAI, GPT-5.5 fica à frente de Claude Opus 4.7. Ele marca 95,0% no ARC-AGI-1 Verified, contra 93,5% de Claude Opus 4.7, e 85,0% no ARC-AGI-2 Verified, contra 75,8% de Claude Opus 4.7 .
Isso é um dado importante, mas não transforma GPT-5.5 no melhor modelo para qualquer tarefa. A própria OpenAI informa que as avaliações GPT foram executadas com esforço de raciocínio xhigh em ambiente de pesquisa, o que pode gerar saídas ligeiramente diferentes das vistas no ChatGPT em produção .
O resultado mais favorável a Claude Opus 4.7 vem do MCP-Atlas. Uma análise secundária reporta 79,1% para Claude Opus 4.7 contra 75,3% para GPT-5.5, associando essa vantagem a maior confiabilidade em chamadas de ferramentas em cenários complexos e encadeados via Model Context Protocol .
Para equipes que constroem agentes conectados a várias ferramentas, esse ponto pode pesar tanto quanto um teste de raciocínio puro. Se o produto depende de orquestração MCP, ferramentas externas e fluxos de trabalho encadeados, o melhor sinal citado aqui favorece Claude Opus 4.7 nesse benchmark específico .
GPT-5.5 aparece com 82,7% no Terminal-Bench 2.0, benchmark ligado a tarefas de terminal e coding agêntico . É o dado de código mais aproveitável nas fontes usadas para este comparativo.
A limitação é tão importante quanto o número. As fontes disponíveis não trazem uma grade completa de Terminal-Bench 2.0 para Claude Opus 4.7, DeepSeek V4 e Kimi K2.6. Portanto, a conclusão prudente é que GPT-5.5 tem o melhor sinal documentado nesse ponto, não que ele necessariamente vença os três rivais em todas as condições de programação com agentes .
DeepSeek V4 e Kimi K2.6 entram na conversa por outro motivo: pesos abertos. Nessa categoria, eles parecem relevantes, mas os dados citados não permitem um confronto rigoroso com GPT-5.5 e Claude Opus 4.7 em ARC-AGI, MCP-Atlas ou Terminal-Bench 2.0
.
No caso do DeepSeek, a Artificial Analysis indica que o lançamento do DeepSeek V4 recoloca a família entre os principais modelos de pesos abertos . O número mais específico disponível aqui é o do DeepSeek V4 Pro (Max), reportado com 52 no Artificial Analysis Intelligence Index, ante 42 do DeepSeek V3.2
.
Para Kimi K2.6, a Artificial Analysis destaca uma análise intitulada Kimi K2.6: The new leading open weights model . É um sinal forte de posicionamento, mas as fontes fornecidas não trazem os scores necessários para comparar Kimi K2.6, DeepSeek V4, GPT-5.5 e Claude Opus 4.7 nos mesmos benchmarks
.
A system card de GPT-5.5 descreve CoT-Control como uma suíte com mais de 13.000 tarefas construídas a partir de benchmarks estabelecidos, incluindo GPQA, MMLU-Pro, HLE, BFCL e SWE-Bench Verified . Esse dado ajuda a entender avaliações de controlabilidade do raciocínio, mas não entrega um score comparativo entre GPT-5.5, Claude Opus 4.7, DeepSeek V4 e Kimi K2.6
.
Outra fonte relata para GPT-5.5 uma taxa de sucesso de 93% em um cyber range, ao mesmo tempo em que aponta que um jailbreak universal teria sido encontrado em seis horas de red-teaming . As duas informações precisam ser lidas juntas: desempenho alto em tarefas cibernéticas não equivale, por si só, a segurança global do modelo
.
Também há crítica externa sobre a dependência das declarações da própria OpenAI para avaliar a segurança de GPT-5.5, o que limita o que se pode concluir apenas com informações publicadas pelo fornecedor .
xhigh em ambiente de pesquisa Não dá para concluir que GPT-5.5 é o melhor modelo universal só porque lidera os scores ARC-AGI disponíveis contra Claude Opus 4.7 . Também não dá para concluir que Claude Opus 4.7 é globalmente superior porque vence no MCP-Atlas
. Cada benchmark mede uma fatia diferente do problema.
Também não faz sentido ranquear DeepSeek V4 e Kimi K2.6 contra os dois modelos proprietários sem benchmarks comuns. Os sinais da Artificial Analysis mostram que DeepSeek V4 e Kimi K2.6 importam no ecossistema de pesos abertos, mas não bastam para estabelecer uma classificação geral nas mesmas métricas usadas para GPT-5.5 e Claude Opus 4.7
.
Por fim, um score de capacidade não deve virar garantia de segurança. As informações disponíveis sobre GPT-5.5 mostram justamente que bons resultados em tarefas cibernéticas podem coexistir com ressalvas sobre jailbreaks e independência das avaliações
.
O ranking mais honesto é por uso, não por troféu. GPT-5.5 lidera os benchmarks ARC-AGI disponíveis contra Claude Opus 4.7 e tem o melhor sinal numérico citado para coding agêntico; Claude Opus 4.7 lidera no MCP-Atlas; DeepSeek V4 e Kimi K2.6 seguem como candidatos importantes em pesos abertos, mas os dados disponíveis não bastam para colocá-los em um mesmo placar contra os dois modelos proprietários
.
Para uma decisão de produto, o melhor caminho não é procurar um vencedor universal. É testar os modelos nas suas próprias tarefas: raciocínio, chamadas de ferramentas, código, custo, latência, restrições de implantação e nível de risco aceitável.
Comments
0 comments