Aqui, n/d significa que o valor não foi informado na fonte correspondente. Não significa que a modelo tirou zero.
Nos testes de raciocínio puro, Claude Opus 4.7 aparece muito forte. Em GPQA Diamond, a diferença para GPT-5.5 é pequena — 94,2% contra 93,6% — enquanto DeepSeek-V4-Pro-Max fica em 90,1% . Em Humanity’s Last Exam sem ferramentas, a vantagem de Claude é mais clara: 46,9%, contra 41,4% do GPT-5.5, 43,1% do GPT-5.5 Pro e 37,7% do DeepSeek-V4-Pro-Max
.
A ordem muda quando o benchmark permite uso de ferramentas. Em HLE com ferramentas, GPT-5.5 Pro marca 57,2%, à frente de Claude Opus 4.7, com 54,7%, de GPT-5.5, com 52,2%, e de DeepSeek-V4-Pro-Max, com 48,2% . A leitura prática: Claude parece melhor para raciocínio difícil sem apoio externo; GPT-5.5 Pro se destaca quando a tarefa envolve ferramentas, ações externas ou navegação
.
O maior distanciamento do GPT-5.5 nesta amostra aparece no Terminal-Bench 2.0: 82,7%, contra 69,4% do Claude Opus 4.7 e 67,9% do DeepSeek-V4-Pro-Max . Para Kimi K2.6, o cartão do modelo informa 66,7 nesse mesmo benchmark, e o leaderboard LLM Stats também mostra 0,667 para Kimi K2.6 e 0,694 para Claude Opus 4.7
.
Isso coloca Kimi perto de Claude e DeepSeek nessa escala específica, mas bem abaixo do GPT-5.5 na tabela comparável .
Em SWE-Bench Pro / SWE Pro, a liderança troca de mãos. Claude Opus 4.7 marca 64,3%, GPT-5.5 aparece com 58,6% e DeepSeek-V4-Pro-Max com 55,4% . Kimi K2.6 também aparece com 58,6 em SWE-Bench Pro no cartão do Hugging Face, mas esse número não vem do mesmo comparativo que agrupa GPT-5.5, Claude e DeepSeek
.
SWE-Bench Verified exige ainda mais cuidado. Kimi K2.6 tem 80,2 no cartão do modelo e no arquivo de avaliação . Outra análise informa 87,6% para Claude Opus 4.7 e 80,6% para DeepSeek V4-Pro, mas não traz uma linha completa com GPT-5.5 e se refere ao V4-Pro, não ao V4-Pro-Max
.
GPT-5.5 se destaca principalmente no Terminal-Bench 2.0, onde chega a 82,7% e lidera a linha comparável . Já GPT-5.5 Pro não aparece em todas as linhas, mas vence onde há dados: 57,2% em HLE com ferramentas e 90,1% em BrowseComp
.
Na prática, faz sentido testar GPT-5.5 primeiro em fluxos agentic de terminal. Para tarefas com ferramentas, browsing e raciocínio apoiado por ações externas, GPT-5.5 Pro é o candidato mais forte nos dados disponíveis .
Claude Opus 4.7 lidera quatro linhas importantes da tabela comum: 94,2% em GPQA Diamond, 46,9% em HLE sem ferramentas, 64,3% em SWE-Bench Pro / SWE Pro e 79,1% em MCP Atlas / MCPAtlas Public . Ao mesmo tempo, fica atrás do GPT-5.5 no Terminal-Bench 2.0 e atrás do GPT-5.5 Pro em HLE com ferramentas e BrowseComp
.
Se a prioridade é raciocínio complexo sem ferramentas ou tarefas de coding próximas ao SWE-Bench Pro, Claude Opus 4.7 é o nome mais forte nessa fotografia dos benchmarks .
Kimi K2.6 não deve ser ranqueado contra todos os outros como se tivesse participado do mesmo teste. Seus números vêm de fontes separadas, especialmente o cartão do Hugging Face e um arquivo de avaliação . Ainda assim, como candidato para coding, ele chama atenção: o cartão informa 80,2 em SWE-Bench Verified, 58,6 em SWE-Bench Pro, 76,7 em SWE-Bench Multilingual, 66,7 em Terminal-Bench 2.0 e 73,1 em OSWorld-Verified
.
O diferencial operacional é outro: uma fonte aponta que os pesos estão disponíveis no Hugging Face e que Kimi K2.6 pode rodar por vLLM, SGLang ou KTransformers . Isso não transforma Kimi no campeão da tabela geral, mas o torna um candidato relevante para equipes que querem experimentar self-hosting ou rodar avaliações próprias com mais controle
.
Na tabela comum, DeepSeek aparece como DeepSeek-V4-Pro-Max . Nessa comparação, ele não lidera nenhuma das linhas listadas: 90,1% em GPQA Diamond, 37,7% em HLE sem ferramentas, 48,2% em HLE com ferramentas, 67,9% em Terminal-Bench 2.0, 55,4% em SWE-Bench Pro / SWE Pro, 83,4% em BrowseComp e 73,6% em MCP Atlas / MCPAtlas Public
.
O argumento mais forte do DeepSeek V4, aqui, é custo. Mashable e DataCamp informam preço de API de US$ 1,74 por 1 milhão de tokens de entrada e US$ 3,48 por 1 milhão de tokens de saída; nas mesmas comparações, GPT-5.5 aparece em US$ 5/US$ 30 e Claude Opus 4.7 em US$ 5/US$ 25 . Para cenários muito sensíveis a custo, DeepSeek V4 vale entrar no eval interno — mas não deve ser vendido como líder de benchmark com base nesta tabela
.
Se a leitura ficar restrita às linhas comparáveis, Claude Opus 4.7 vence em GPQA Diamond, Humanity’s Last Exam sem ferramentas, SWE-Bench Pro e MCP Atlas. GPT-5.5 vence em Terminal-Bench 2.0. GPT-5.5 Pro vence em HLE com ferramentas e BrowseComp .
Kimi K2.6 aparece como um forte candidato de coding com pesos disponíveis, mas precisa ser comparado por meio de evals próprios antes de entrar no mesmo ranking dos demais . DeepSeek V4 não lidera as linhas de benchmark citadas, mas seus preços de API mais baixos o tornam uma opção a testar quando o custo por token é uma restrição central
.
Comments
0 comments