GPT-5.5 é o melhor ponto de partida para uso geral. No recorte disponível do Artificial Analysis Intelligence Index, o GPT-5.5 aparece em primeiro com 60 pontos na configuração xhigh e em segundo com 59 pontos na configuração high; Claude Opus 4.7 aparece com 57 pontos . No BrowseComp, o GPT-5.5 marca 84,4%, acima do DeepSeek V4, com 83,4%, e do Claude Opus 4.7, com 79,3%
.
Claude Opus 4.7 é especialmente forte em engenharia de software e conhecimento. Ele supera o GPT-5.5 no SWE-Bench Pro, com 64,3% contra 58,6%, e fica um pouco à frente em GPQA Diamond, com 94,2% contra 93,6% . Em compensação, o GPT-5.5 lidera com folga no Terminal-Bench 2.0: 82,7% contra 69,4% do Claude Opus 4.7
.
DeepSeek V4 chama atenção pelo custo-benefício. No BrowseComp, ele chega a 83,4%, apenas 1 ponto percentual atrás do GPT-5.5 e acima do Claude Opus 4.7 . Em preços de API, a Mashable cita US$ 1,74 por 1 milhão de tokens de entrada e US$ 3,48 por 1 milhão de tokens de saída para o DeepSeek V4, contra US$ 5/US$ 30 no GPT-5.5 e US$ 5/US$ 25 no Claude Opus 4.7
.
Kimi K2.6 é tecnicamente interessante, mas difícil de ranquear aqui. A DocsBot descreve o Kimi K2.6 como um modelo de código aberto, multimodal nativo e agentivo, com arquitetura MoE de 1 trilhão de parâmetros, 32 bilhões de parâmetros ativados e contexto de 256K tokens . O problema é que as fontes fornecidas não trazem uma matriz direta de benchmarks contra GPT-5.5, Claude Opus 4.7 e DeepSeek V4
.
Benchmark de IA parece simples: quem tem o maior número vence. Na prática, não é bem assim. A DataCamp observa, em um comparativo relacionado de modelos de fronteira, que alguns resultados são reportados pelos próprios fornecedores e podem usar configurações diferentes de teste, o chamado “harness” . Isso importa muito: pequenas diferenças no ambiente de avaliação, nas ferramentas disponíveis e no nível de esforço de raciocínio podem mudar o placar.
Também há o problema das variantes. O recorte da Artificial Analysis fala em GPT-5.5 xhigh, GPT-5.5 high e Claude Opus 4.7 com Adaptive Reasoning e Max Effort . Já a VentureBeat trata do DeepSeek-V4-Pro-Max
. Ou seja: nem sempre estamos olhando para “o modelo” em abstrato, mas para uma versão específica, com uma configuração específica.
Por isso, a pergunta mais útil não é “qual é o melhor modelo?”, e sim: melhor para quê?
O indicador mais direto de desempenho geral nas fontes é o recorte do Artificial Analysis Intelligence Index. Nele, o GPT-5.5 xhigh aparece com 60 pontos, o GPT-5.5 high com 59 pontos e o Claude Opus 4.7, em Adaptive Reasoning e Max Effort, com 57 pontos .
Esse recorte sustenta uma vantagem leve, mas clara, do GPT-5.5 sobre o Claude Opus 4.7 nesse índice . Para DeepSeek V4 e Kimi K2.6, porém, o mesmo material disponível não traz valores completos e diretamente citáveis para fechar um comparativo de quatro modelos
.
O BrowseComp é o melhor ponto de comparação direta entre GPT-5.5, Claude Opus 4.7 e DeepSeek V4 nas fontes. A VentureBeat cita 90,1% para o GPT-5.5 Pro, 84,4% para o GPT-5.5, 83,4% para o DeepSeek V4 e 79,3% para o Claude Opus 4.7 .
A própria VentureBeat afirma que o DeepSeek-V4-Pro-Max não parece destronar GPT-5.5 ou Claude Opus 4.7 nos benchmarks diretamente comparáveis como um todo . A leitura equilibrada é: DeepSeek V4 impressiona no BrowseComp, mas um benchmark forte não basta para declarar vitória geral
.
Em desenvolvimento de software, o placar depende do tipo de teste. No SWE-Bench Pro, o Claude Opus 4.7 fica à frente, com 64,3%, contra 58,6% do GPT-5.5 . A Vellum também cita 87,6% para o Claude Opus 4.7 no SWE-Bench Verified
.
Mas no Terminal-Bench 2.0, a vantagem muda de lado: o GPT-5.5 alcança 82,7%, contra 69,4% do Claude Opus 4.7 . Isso sugere uma diferença prática: Claude aparece muito forte em resolução de problemas de software no estilo SWE-Bench, enquanto GPT-5.5 se sai melhor em tarefas de terminal e execução operacional.
Para DeepSeek V4 e Kimi K2.6, as fontes fornecidas não trazem o mesmo nível de detalhe em coding para uma tabela equivalente. A VentureBeat afirma que o DeepSeek V4 chega perto dos líderes em vários benchmarks diretamente comparáveis, mas o número mais claro no recorte disponível é o do BrowseComp . Para o Kimi K2.6, a DocsBot traz sobretudo características de arquitetura e capacidade, não uma matriz completa contra os outros três modelos
.
Em testes de conhecimento e raciocínio, GPT-5.5 e Claude Opus 4.7 ficam bem próximos, com vantagem variando conforme o benchmark e o uso de ferramentas. No GPQA Diamond, a Vellum cita 93,6% para o GPT-5.5 e 94,2% para o Claude Opus 4.7 . A Mashable também cita esses valores e acrescenta o Humanity’s Last Exam: sem ferramentas, GPT-5.5 marca 40,6% contra 31,2% do Claude Opus 4.7; com ferramentas, Claude Opus 4.7 fica ligeiramente à frente, com 54,7% contra 52,2% do GPT-5.5
.
Em tarefas profissionais e agentivas, o quadro continua misto. A Vellum cita GPT-5.5 com 84,9% no GDPval contra 80,3% do Claude Opus 4.7, 78,7% no OSWorld-Verified contra 78,0%, e 75,3% no MCP Atlas contra 79,1% do Claude . A OpenAI cita 60,0% para o GPT-5.5 no FinanceAgent v1.1 e 64,4% para o Claude Opus 4.7
.
A Anthropic também cita um benchmark interno de agente de pesquisa em que o Claude Opus 4.7 empatou no maior score geral, com 0,715 em seis módulos, e marcou 0,813 em General Finance, acima dos 0,767 do Opus 4.6 . Como se trata de benchmark interno e os dados fornecidos não cobrem igualmente os quatro modelos, isso funciona mais como evidência da força agentiva do Claude do que como ranking independente
.
Para uso em produção, alguns pontos percentuais de benchmark podem pesar menos do que custo por token, latência, disponibilidade e qualidade no seu fluxo real. Nas fontes citadas, DeepSeek V4 se destaca justamente no preço.
A Mashable cita DeepSeek V4 a US$ 1,74 por 1 milhão de tokens de entrada e US$ 3,48 por 1 milhão de tokens de saída, com janela de contexto de 1 milhão de tokens . Na mesma comparação, GPT-5.5 aparece a US$ 5 por 1 milhão de tokens de entrada e US$ 30 por 1 milhão de tokens de saída; Claude Opus 4.7 aparece a US$ 5 de entrada e US$ 25 de saída, também com contexto de 1 milhão de tokens
.
O Kimi K2.6 fica em outra situação. A DocsBot descreve contexto de 256K tokens, arquitetura MoE de 1 trilhão de parâmetros, 32 bilhões ativados e orquestração agentiva com até 300 subagentes e 4.000 passos coordenados . São especificações relevantes, mas não substituem benchmarks e preços diretos contra GPT-5.5, Claude Opus 4.7 e DeepSeek V4
.
O resultado mais honesto não é “um modelo vence tudo”. GPT-5.5 é o melhor all-rounder documentado nas fontes disponíveis, porque lidera o recorte do Artificial Analysis Intelligence Index e aparece muito forte em BrowseComp, Terminal-Bench 2.0 e benchmarks profissionais .
Claude Opus 4.7 continua sendo um modelo de ponta, especialmente em SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond e algumas tarefas financeiras ou agentivas . DeepSeek V4 é o nome que mais incomoda pelo preço, pois chega muito perto do GPT-5.5 no BrowseComp e custa bem menos nas cotações citadas
. Kimi K2.6, por enquanto, deve ser tratado como promissor, não como vencedor ou perdedor, porque faltam benchmarks e preços diretos suficientes para uma comparação justa
.
Comments
0 comments