Um traço significa que a pontuação não foi encontrada nas fontes citadas para aquele modelo, não que o modelo tirou zero. Os resultados de GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 e DeepSeek-V4-Pro-Max vêm majoritariamente de uma comparação compartilhada; os números do Kimi K2.6 vêm de fontes específicas do Kimi .
A OpenAI descreve o GPT-5.5 como um modelo feito para tarefas complexas como programação, pesquisa e análise de dados . Na comparação compartilhada, ele marca 82,7% no Terminal-Bench 2.0, acima do Claude Opus 4.7, com 69,4%, e do DeepSeek-V4-Pro-Max, com 67,9%
. Também aparece com 93,6% no GPQA Diamond, 58,6% no SWE-Bench Pro e 84,4% no BrowseComp
.
O cuidado principal é não confundir GPT-5.5 com GPT-5.5 Pro. Na mesma tabela, o GPT-5.5 Pro chega a 90,1% no BrowseComp e 57,2% no Humanity’s Last Exam com ferramentas, mas esses números não devem ser somados mentalmente ao GPT-5.5 base .
Para contexto de compra, o BenchLM lista o GPT-5.5 com janela de 1 milhão de tokens, enquanto um relatório de preços aponta US$ 5 por milhão de tokens de entrada e US$ 30 por milhão de tokens de saída . Trate isso como sinal inicial e confirme o preço vigente antes de fechar orçamento.
O Claude Opus 4.7 tem os sinais mais fortes de reparo de software no material citado. O LLM Stats lista 87,6% no SWE-Bench Verified, e a comparação compartilhada traz 64,3% no SWE-Bench Pro . Ele também lidera GPQA Diamond, com 94,2%, Humanity’s Last Exam sem ferramentas, com 46,9%, e MCP Atlas, com 79,1%, nessa mesma comparação
.
O LLM Stats informa janela de 1 milhão de tokens e preço de US$ 5/US$ 25 por milhão de tokens para o Claude Opus 4.7 . A ressalva é importante: a Anthropic observa que alguns resultados usaram implementações internas ou parâmetros de harness atualizados, e que certos placares não são diretamente comparáveis a leaderboards públicos
.
Kimi K2.6 é o candidato mais forte para quem precisa de pesos abertos entre as opções descritas. A cobertura de lançamento o apresenta como um MoE open-weight de 1 trilhão de parâmetros, com 32 bilhões de parâmetros ativos, 384 especialistas, multimodalidade nativa, quantização INT4 e janela de 256 mil tokens . O card no Hugging Face reporta 80,2% no SWE-Bench Verified, 58,6% no SWE-Bench Pro, 66,7% no Terminal-Bench 2.0 e 89,6 no LiveCodeBench v6
.
A mesma cobertura de lançamento cita 54,0 no Humanity’s Last Exam com ferramentas e 83,2 no BrowseComp para o Kimi K2.6 . Já o LLM Stats lista 262 mil tokens de contexto, colunas de preço de US$ 0,95/US$ 4,00 e rótulo Open Source
. A limitação é que esses números não vêm da mesma tabela compartilhada usada para GPT-5.5, Claude Opus 4.7 e DeepSeek-V4-Pro-Max; diferenças pequenas devem servir como convite para teste, não como veredito definitivo
.
DeepSeek-V4-Pro-Max parece mais uma aposta de custo-benefício do que um líder geral de benchmarks. O LLM Stats lista tamanho de 1,6 trilhão, janela de 1 milhão de tokens, 80,6% no SWE-Bench Verified e colunas de custo de US$ 1,74/US$ 3,48 . Na comparação compartilhada, ele marca 90,1% no GPQA Diamond, 37,7% no Humanity’s Last Exam sem ferramentas, 48,2% com ferramentas, 67,9% no Terminal-Bench 2.0, 55,4% no SWE-Bench Pro, 83,4% no BrowseComp e 73,6% no MCP Atlas
.
Esses números fazem do DeepSeek-V4-Pro-Max uma opção que vale incluir em testes quando custo pesa muito. Mas a mesma tabela mostra GPT-5.5, GPT-5.5 Pro ou Claude Opus 4.7 liderando a maior parte das linhas reportadas, então a troca por um modelo mais barato precisa ser validada nas suas tarefas reais .
Preços e janelas de contexto nem sempre vêm da mesma fonte, nem necessariamente refletem o contrato que você encontrará no provedor. Use a tabela como orientação, não como cotação final.
Cada benchmark mede uma coisa. GPQA Diamond e Humanity’s Last Exam tendem a enfatizar raciocínio difícil; Terminal-Bench 2.0 e as variantes do SWE-Bench olham para programação e trabalho agenteado em software; BrowseComp avalia desempenho em tarefas de busca e navegação na comparação compartilhada . É normal um modelo liderar uma linha e perder outra.
Até o mesmo benchmark pode variar conforme a implementação. O LLM Stats lista Claude Opus 4.7 com 87,6% no SWE-Bench Verified, enquanto o LMCouncil lista Claude Opus 4.7 com 83,5% ± 1,7 em sua configuração . A própria Anthropic observa que alguns resultados usam implementações internas ou parâmetros atualizados, o que limita a comparação direta com rankings públicos
.
Na prática: diferenças de um ou dois pontos não deveriam decidir sozinhas uma adoção em produção. Benchmarks públicos servem para reduzir a lista de candidatos; a decisão final deve vir de testes no seu ambiente.
Antes de escolher um modelo, rode os dois ou três finalistas em tarefas parecidas com as que você realmente tem.
Se você quer uma lista premium e curta, teste GPT-5.5 e Claude Opus 4.7 lado a lado: GPT-5.5 tem o melhor Terminal-Bench 2.0 citado, enquanto Claude Opus 4.7 tem os melhores sinais citados em SWE-Bench Pro e SWE-Bench Verified . Se precisa de pesos abertos, comece pelo Kimi K2.6
. Se o gargalo é custo, inclua DeepSeek-V4-Pro-Max, mas valide no seu próprio fluxo antes de tratá-lo como substituto direto das opções premium
.
Comments
0 comments