Por isso, a leitura mais útil é por tipo de tarefa. Código? Trabalho de escritório? Uso de computador? Raciocínio científico? Custo operacional? Cada eixo muda o placar.
Em IA generativa, benchmark funciona mais como um conjunto de provas do que como uma nota final. A Kili Technology descreve avaliações como MMLU, MMLU-Pro, GPQA Diamond, SWE-Bench, Terminal-Bench, GAIA, WebArena, GDPval e testes de segurança como formas de medir capacidades diferentes . O AI Index de Stanford HAI também separa desempenho técnico em eixos como MMLU, MATH, GPQA Diamond, MMMU, OSWorld, AIME e SWE-bench Verified
.
Isso importa porque uma pontuação alta em conhecimento geral não garante o melhor desempenho em engenharia de software, automação de navegador, atendimento ao cliente ou análise financeira. E há outro detalhe: benchmarks clássicos como o MMLU perderam parte da capacidade de diferenciar os modelos de ponta. A Nanonets explica que o MMLU usa avaliação 5-shot e que, em 2026, modelos líderes já ficam concentrados acima de 88%, o que torna a comparação fina menos útil .
Entre os três modelos com páginas do BenchLM citadas aqui, Claude Opus 4.7 lidera. O BenchLM coloca o Claude Opus 4.7 em 2º lugar entre 110 modelos no ranking provisório, com pontuação geral de 97/100, e também em 2º lugar entre 14 modelos no ranking verificado .
O GPT-5.5 aparece no BenchLM em 5º lugar entre 112 modelos no ranking provisório, com 89/100, e em 2º lugar entre 16 modelos no ranking verificado . Já o Kimi 2.6 aparece com 85/100, em 12º lugar entre 115 modelos no ranking provisório, com 27 pontuações públicas de benchmark exibidas
.
Esse recorte favorece o Claude, mas não fecha a discussão. As amostras do BenchLM têm tamanhos diferentes — 110, 112 e 115 modelos — e os materiais fornecidos não trazem uma pontuação BenchLM equivalente para o DeepSeek V4 .
Para engenharia de software, o dado mais claro é do Claude Opus 4.7. A MindStudio informa que o modelo marcou 82,4% no SWE-bench Verified, cerca de 11 pontos acima do Opus 4.6 . A mesma fonte também cita 82,7% no FinanceBench e uma melhora de 9,5 pontos no MathVista, voltado a raciocínio matemático visual
.
No caso do GPT-5.5, os números destacados no material da OpenAI não são de SWE-bench, mas de GDPval, OSWorld-Verified e Tau2-bench Telecom . Para Kimi K2.6, a GMI Cloud afirma que o modelo lidera o SWE-Bench Pro, mas o trecho disponível não traz uma pontuação exata nem uma comparação direta com os quatro modelos sob as mesmas condições
. Já os dados do DeepSeek V4 neste conjunto de fontes aparecem mais fortes em raciocínio e matemática do que em uma métrica pública de código diretamente comparável
.
Se o foco é trabalho de conhecimento, automação de tarefas e uso de computador, o GPT-5.5 tem a divulgação oficial mais detalhada. A OpenAI afirma que o modelo chegou a 84,9% no GDPval, benchmark que testa a capacidade de agentes produzirem trabalhos de conhecimento bem especificados em 44 ocupações .
A OpenAI também informa 78,7% no OSWorld-Verified, que mede se um modelo consegue operar ambientes reais de computador, e 98,0% no Tau2-bench Telecom, voltado a fluxos complexos de atendimento ao cliente em telecomunicações .
Claude Opus 4.7 também tem dados em tarefas agentivas, mas em outro formato. A Anthropic afirma que, em seu benchmark interno de research-agent, o Claude Opus 4.7 empatou na melhor pontuação geral entre seis módulos, com 0,715, e marcou 0,813 no módulo General Finance, acima dos 0,767 do Opus 4.6 .
A ressalva é importante: 84,9% no GDPval e 0,715 no benchmark interno da Anthropic não são a mesma escala. Compará-los como se fossem notas equivalentes distorce a leitura .
Os números mais concretos do DeepSeek V4 surgem na configuração V4-Pro-Max. A DataCamp relata que, segundo resultados internos da DeepSeek, o DeepSeek V4-Pro-Max marcou 87,5% no MMLU-Pro, 90,1% no GPQA Diamond e 92,6% no GSM8K . São números relevantes, mas a própria caracterização como resultado interno recomenda cautela antes de tratá-los como equivalentes a um ranking independente
.
A página do Hugging Face para o DeepSeek-V4-Pro traz uma tabela em que DeepSeek V4-Pro-Max e Kimi K2.6 Thinking aparecem juntos em alguns benchmarks de conhecimento e raciocínio . O recorte é este:
| Benchmark | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | Leitura do recorte |
|---|---|---|---|
| MMLU-Pro | 87,5 | 87,1 | DeepSeek por margem pequena |
| SimpleQA-Verified | 57,9 | 36,9 | DeepSeek |
| Chinese-SimpleQA | 84,4 | 75,9 | DeepSeek |
| GPQA Diamond | 90,1 | 90,5 | Kimi por margem pequena |
| HLE | 37,7 | 36,4 | DeepSeek |
Nesse recorte, o DeepSeek V4-Pro-Max fica à frente do Kimi K2.6 Thinking em MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA e HLE, enquanto o Kimi K2.6 Thinking aparece ligeiramente acima em GPQA Diamond . Ainda assim, essa tabela não compara os quatro modelos deste artigo: os outros modelos listados são Opus-4.6 Max e GPT-5.4 xHigh, não Claude Opus 4.7 e GPT-5.5
.
Nos registros da Vals, o GPT-5.5 aparece com Accuracy de 67,76% ± 1,79, latência de 409,09 s e janela de contexto de 1 milhão de tokens . O Kimi K2.6 aparece com Accuracy de 63,94% ± 1,97, latência de 373,57 s e custo de US$ 0,21 por teste
. Comparando apenas esses dois registros da Vals, o GPT-5.5 tem a Accuracy exibida mais alta, enquanto o Kimi K2.6 tem latência menor
.
O Kimi K2.6 também é relevante para quem prioriza modelos open weights. A Artificial Analysis descreve o Kimi K2.6, da Moonshot, como um leading open weights model e informa Intelligence Index 54, com 4º lugar geral . Mas esse índice, a Accuracy da Vals e a pontuação 85/100 do BenchLM pertencem a sistemas diferentes; não faz sentido somá-los como se fossem uma nota única
.
Com os dados públicos disponíveis, Claude Opus 4.7 aparece mais forte em código e no recorte do BenchLM; GPT-5.5 tem os números oficiais mais específicos para trabalho de conhecimento, uso de computador e fluxos de atendimento; DeepSeek V4-Pro-Max tem bons resultados divulgados em raciocínio, ciência e matemática; e Kimi K2.6 se destaca quando a conversa envolve open weights, custo e latência .
Comments
0 comments