RelatóriosPublicadohá 3 mesesLast edited há 2 meses18 fontes

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: vencedores por categoria

Claude Opus 4.7 lidera GPQA Diamond com 94,2% e Humanity’s Last Exam sem ferramentas com 46,9%, enquanto GPT 5.5 lidera Terminal Bench 2.0 com 82,7% [4][5]. GPT 5.5 Pro é o melhor resultado citado para raciocínio com ferramentas e navegação: 57,2% no Humanity’s Last Exam com ferramentas e 90,1% no BrowseComp [4].

Pesquisar e verificar fatos com Studio Global AI Veja mais páginas em alta

Editorial illustration of GPT-5.5, Claude Opus 4.7, DeepSeek V4 and Kimi K2.6 compared across AI benchmark categories — GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by CategoryAI-generated editorial illustration for comparing frontier model benchmark winners by category.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by Category. Article summary: No single model wins across the available 2026 benchmark evidence: Claude Opus 4.7 leads GPQA Diamond at 94.2% and Humanity’s Last Exam without tools at 46.9%, GPT 5.5 leads Terminal Bench 2.0 at 82.7%, and GPT 5.5 Pr.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "Kimi K2.6 ties GPT-5.5 on SWE-bench Pro at 5–6x lower cost — with agent swarms, 13-hour autonomous runs, and open weights. In practice it is the first open-source model that can su" source context "Kimi K2.6: The Complete Developer Guide (2026) - Codersera" Reference image 2: visual subject "# Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: Which S
openai.com

Tabelas de benchmark dão a impressão de que existe um placar único, mas essa comparação é mais parecida com escolher ferramenta de trabalho: depende da tarefa. O conjunto mais comparável coloca lado a lado GPT-5.5, GPT-5.5 Pro quando disponível, Claude Opus 4.7 e DeepSeek-V4-Pro-Max. Já o Kimi K2.6 aparece principalmente em comparações separadas, então seus números devem ser lidos com mais cautela quando a pergunta é quem vence entre os quatro .

A leitura mais útil é por categoria: se o seu uso parece com terminal e agentes, olhe para Terminal-Bench; se parece com pesquisa na web, olhe para BrowseComp; se envolve documentos e OCR, o sinal mais forte citado está em Vision & Document Arena. Depois disso, o ideal é rodar os finalistas nos seus próprios prompts, ferramentas, limites de contexto e critérios de avaliação.

Vencedores em resumo

Tipo de uso	Melhor escolha apoiada pelos dados	Por quê
Raciocínio científico	Claude Opus 4.7	94,2% no GPQA Diamond, à frente do GPT-5.5 com 93,6% e do DeepSeek-V4-Pro-Max com 90,1%
Raciocínio especialista sem ferramentas	Claude Opus 4.7	46,9% no Humanity’s Last Exam sem ferramentas, acima de GPT-5.5 Pro com 43,1%, GPT-5.5 com 41,4% e DeepSeek-V4-Pro-Max com 37,7%
Raciocínio com ferramentas	GPT-5.5 Pro	57,2% no Humanity’s Last Exam com ferramentas, contra 54,7% do Claude Opus 4.7
Terminal e computação agentiva	GPT-5.5	82,7% no Terminal-Bench 2.0, bem acima de Claude Opus 4.7 com 69,4% e DeepSeek-V4-Pro-Max com 67,9%
Operação de sistema operacional	GPT-5.5	78,7% no OSWorld-Verified contra 78,0% do Claude Opus 4.7
Matemática de fronteira	GPT-5.5	51,7% no FrontierMath Tiers 1–3 contra 43,8% do Claude Opus 4.7
Engenharia de software na tabela compartilhada	Claude Opus 4.7	64,3% no SWE-Bench Pro / SWE Pro, acima de GPT-5.5 com 58,6% e DeepSeek-V4-Pro-Max com 55,4%
Navegação e compreensão web	GPT-5.5 Pro	90,1% no BrowseComp, à frente de GPT-5.5 com 84,4%, DeepSeek-V4-Pro-Max com 83,4% e Claude Opus 4.7 com 79,3%
Fluxos com ferramentas públicas no estilo MCP	Claude Opus 4.7	79,1% no MCP Atlas / MCPAtlas Public, acima de GPT-5.5 com 75,3% e DeepSeek-V4-Pro-Max com 73,6%
Visão e análise de documentos	Claude Opus 4.7	Reportado como nº 1 no Vision & Document Arena, com vitórias em diagramas, tarefas escolares e OCR
Avaliação sensível a custo	DeepSeek V4	A VentureBeat descreve o modelo como próximo do estado da arte por cerca de um sexto do custo de Opus 4.7 e GPT-5.5; ainda assim, esse custo deve ser validado no seu workload
Comparação menos limpa entre os quatro	Kimi K2.6	Há pontuações úteis, mas as evidências citadas vêm sobretudo de tabelas separadas, não do mesmo conjunto usado para GPT-5.5, Claude Opus 4.7 e DeepSeek-V4-Pro-Max

Tabela detalhada dos benchmarks citados

Benchmark / capacidade	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4 / V4 Pro Max	Kimi K2.6	Leitura mais segura
GPQA Diamond	93,6%	Não reportado	94,2%	90,1% para DeepSeek-V4-Pro-Max	Não reportado	Claude lidera a tabela compartilhada
Humanity’s Last Exam, sem ferramentas	41,4%	43,1%	46,9%	37,7% para DeepSeek-V4-Pro-Max	Não reportado	Claude lidera a tabela compartilhada
Humanity’s Last Exam, com ferramentas	52,2%	57,2%	54,7%	48,2% para DeepSeek-V4-Pro-Max	54,0% em uma comparação separada do Kimi	GPT-5.5 Pro lidera a tabela compartilhada
Terminal-Bench 2.0	82,7%	Não reportado	69,4%	67,9% para DeepSeek-V4-Pro-Max	66,7% em uma comparação separada do Kimi	GPT-5.5 lidera
SWE-Bench Pro / SWE Pro	58,6%	Não reportado	64,3%	55,4% para DeepSeek-V4-Pro-Max	58,6% em uma comparação separada do Kimi	Claude lidera a tabela compartilhada
BrowseComp	84,4%	90,1%	79,3%	83,4% para DeepSeek-V4-Pro-Max ; 83,4% para DeepSeek-V4 Pro em outra comparação	83,2% em comparação Kimi vs DeepSeek	GPT-5.5 Pro lidera a tabela compartilhada
MCP Atlas / MCPAtlas Public	75,3%	Não reportado	79,1%	73,6% para DeepSeek-V4-Pro-Max	Não reportado	Claude lidera
OSWorld-Verified	78,7%	Não reportado	78,0%	Não reportado	Não reportado	GPT-5.5 lidera Claude por margem pequena
FrontierMath Tiers 1–3	51,7%	Não reportado	43,8%	Não reportado	Não reportado	GPT-5.5 lidera Claude
Vision & Document Arena	Não reportado	Não reportado	Reportado como nº 1 geral	Não reportado	Não reportado	Claude tem o único resultado citado
AIME 2026	Não reportado	Não reportado	Não reportado	Não disponível na tabela Kimi vs DeepSeek citada	96,4% no modo Thinking	Bom sinal para Kimi, mas não é ranking entre quatro modelos
APEX Agents	Não reportado	Não reportado	Não reportado	Não disponível na tabela Kimi vs DeepSeek citada	27,9% no modo Thinking	Bom sinal para Kimi, mas não é ranking entre quatro modelos
Janela de contexto	Não reportado	Não reportado	1 milhão de tokens em uma comparação da Artificial Analysis	1 milhão de tokens para DeepSeek V4 Pro na mesma comparação	Não reportado	Claude e DeepSeek V4 Pro empatam nessa configuração específica

Linhas que misturam fontes pedem cuidado. Um número do Kimi vindo de uma comparação focada em Kimi é útil, mas não tem o mesmo peso que uma medição feita no mesmo harness e na mesma tabela que GPT-5.5, Claude Opus 4.7 e DeepSeek-V4-Pro-Max .

GPT-5.5: terminal, OS, matemática e uso de ferramentas

A vitória mais clara do GPT-5.5 está no Terminal-Bench 2.0: 82,7% contra 69,4% do Claude Opus 4.7 e 67,9% do DeepSeek-V4-Pro-Max na tabela compartilhada . Entre os benchmarks citados, é uma das diferenças mais expressivas.

Ele também fica à frente do Claude Opus 4.7 no OSWorld-Verified, mas por margem apertada: 78,7% contra 78,0% . Em FrontierMath Tiers 1–3, a vantagem é maior: 51,7% contra 43,8% do Claude .

Quando ferramentas e navegação entram no jogo, o GPT-5.5 Pro muda o placar. Ele lidera o Humanity’s Last Exam com ferramentas, com 57,2%, acima de Claude Opus 4.7 com 54,7%, GPT-5.5 com 52,2% e DeepSeek-V4-Pro-Max com 48,2% . Também lidera o BrowseComp com 90,1%, à frente de GPT-5.5 com 84,4%, DeepSeek-V4-Pro-Max com 83,4% e Claude Opus 4.7 com 79,3% .

Isso não significa que o GPT-5.5 vença todo teste de raciocínio. No GPQA Diamond, Claude Opus 4.7 passa ligeiramente à frente: 94,2% contra 93,6% . Há ainda resultados específicos reportados apenas para GPT-5.5, como 91,7% no Harvey BigLaw Bench, 88,5% em um benchmark interno de investment banking e 80,5% no BixBench, mas esses números não devem ser tratados como vitórias contra Claude, DeepSeek ou Kimi porque a fonte citada não traz as mesmas medições para os quatro modelos .

Claude Opus 4.7: raciocínio sem ferramentas, software e documentos

O Claude Opus 4.7 tem o melhor perfil de raciocínio sem ferramentas na principal tabela compartilhada. Ele lidera o GPQA Diamond com 94,2% e o Humanity’s Last Exam sem ferramentas com 46,9% . Na mesma tabela, também lidera SWE-Bench Pro / SWE Pro com 64,3% e MCP Atlas / MCPAtlas Public com 79,1% .

A área menos favorável para Claude, nos dados citados, é operação em terminal. O GPT-5.5 fica mais de 13 pontos à frente no Terminal-Bench 2.0, 82,7% contra 69,4%, e também supera Claude em OSWorld-Verified e FrontierMath Tiers 1–3 .

Em multimodal e documentos, Claude tem o sinal mais forte entre as fontes. Uma delas reporta Claude Opus 4.7 como nº 1 no Vision & Document Arena, com melhora de 4 pontos sobre o Opus 4.6 no Document Arena e vitórias em subcategorias como diagramas, tarefas escolares e OCR . A mesma fonte não fornece pontuações numéricas comparáveis para GPT-5.5, DeepSeek V4 ou Kimi K2.6 nesse arena, então o dado apoia a força de Claude em documentos, mas não fecha um ranking multimodal completo entre quatro modelos .

DeepSeek V4: competitivo, com destaque para custo-benefício

As fontes usam mais de um rótulo para DeepSeek. A tabela compartilhada fala em DeepSeek-V4-Pro-Max, enquanto a comparação da Artificial Analysis cita DeepSeek V4 Pro com janela de contexto de 1 milhão de tokens . Esses nomes não devem ser tratados automaticamente como equivalentes.

Na tabela compartilhada, o DeepSeek-V4-Pro-Max é competitivo, mas não lidera nenhuma linha. Ele marca 90,1% no GPQA Diamond, 37,7% no Humanity’s Last Exam sem ferramentas, 48,2% no Humanity’s Last Exam com ferramentas, 67,9% no Terminal-Bench 2.0, 55,4% no SWE-Bench Pro / SWE Pro, 83,4% no BrowseComp e 73,6% no MCP Atlas / MCPAtlas Public .

O argumento mais forte a favor do DeepSeek V4, nas fontes citadas, é econômico. A VentureBeat descreve o modelo como entregando inteligência próxima ao estado da arte por cerca de um sexto do custo de Opus 4.7 e GPT-5.5 . Isso é motivo para testá-lo em projetos sensíveis a custo, não para dispensar validação com seus próprios dados, prompts e métricas.

Para triagem de contexto longo, uma comparação da Artificial Analysis lista tanto DeepSeek V4 Pro quanto Claude Opus 4.7 com janelas de contexto de 1 milhão de tokens . Isso sustenta paridade nessa configuração específica, mas não uma conclusão geral sobre todos os modos de DeepSeek ou Claude .

Kimi K2.6: bons sinais, comparação direta mais fraca

O Kimi K2.6 é o modelo mais difícil de posicionar de forma limpa nesta disputa. Ele não aparece na principal tabela compartilhada contra GPT-5.5, Claude Opus 4.7 e DeepSeek-V4-Pro-Max .

Uma comparação focada em Kimi reporta o K2.6 com 58,6% no SWE-Bench Pro, 80,2% no SWE-Bench Verified, 66,7% no Terminal-Bench 2.0, 54,0% no Humanity’s Last Exam com ferramentas e 89,6% no LiveCodeBench v6 . A fonte afirma que os números do K2.6 vêm de um model card oficial da Moonshot AI, mas o conjunto comparado ali é principalmente Claude Opus 4.6 e GPT-5.4, não exatamente a disputa de quatro modelos analisada aqui .

Outra comparação Kimi vs DeepSeek reporta Kimi K2.6 com 96,4% no AIME 2026 em modo Thinking, 27,9% no APEX Agents em modo Thinking e 83,2% no BrowseComp com modo Thinking e gerenciamento de contexto . Na mesma fonte, DeepSeek-V4 Pro aparece com 83,4% no BrowseComp, enquanto valores de DeepSeek não estão disponíveis para AIME 2026 e APEX Agents .

A conclusão prática: Kimi merece teste, especialmente em coding, agentes, matemática e navegação, mas o material citado não sustenta um ranking geral limpo contra GPT-5.5 e Claude Opus 4.7 no mesmo conjunto de benchmarks .

Qual modelo testar primeiro?

Teste GPT-5.5 primeiro para agentes que trabalham em terminal, tarefas de operação de sistema e problemas parecidos com FrontierMath; ele lidera os resultados citados em Terminal-Bench 2.0, OSWorld-Verified e FrontierMath .
Teste GPT-5.5 Pro primeiro quando raciocínio com ferramentas ou navegação forem centrais; ele lidera o Humanity’s Last Exam com ferramentas e o BrowseComp na tabela compartilhada .
Teste Claude Opus 4.7 primeiro para raciocínio científico no estilo GPQA, perguntas especialistas sem ferramentas, engenharia de software no estilo SWE-Bench Pro, fluxos MCP e análise de documentos .
Teste DeepSeek V4 primeiro quando custo-benefício for a restrição principal e você puder fazer checagens próprias de qualidade; a vantagem citada é desempenho próximo aos modelos de fronteira por cerca de um sexto do custo de Opus 4.7 e GPT-5.5 .
Teste Kimi K2.6 primeiro se você quiser investigar especificamente os resultados reportados em coding, agentes, matemática e navegação, mas compare usando os mesmos prompts, ferramentas, limites de contexto, metas de latência e regras de pontuação dos demais modelos .

Ressalvas que realmente importam

Isto não é um ranking universal. As fontes misturam variantes base e Pro, incluindo GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 e Kimi K2.6 . Alguns resultados também são reportados por fornecedores, e a OpenAI observa que suas avaliações GPT para ARC foram rodadas com esforço de raciocínio em xhigh em um ambiente de pesquisa que pode gerar saídas ligeiramente diferentes das do ChatGPT em produção .

Margens pequenas devem ser lidas como tendência, não como veredito definitivo. A vantagem de Claude sobre GPT-5.5 no GPQA Diamond é de 0,6 ponto, e a vantagem de GPT-5.5 sobre Claude no OSWorld-Verified é de 0,7 ponto . Já diferenças maiores são mais acionáveis: o GPT-5.5 passa Claude por mais de 13 pontos no Terminal-Bench 2.0 e por 7,9 pontos no FrontierMath .

A resposta curta é: não existe um vencedor único entre GPT-5.5, Claude Opus 4.7, DeepSeek V4 e Kimi K2.6. Escolha o benchmark que mais se parece com o seu uso real e depois rode a mesma avaliação nos modelos que você pode de fato colocar em produção.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Pesquisar e verificar fatos com Studio Global AI

As pessoas também perguntam

Câu trả lời ngắn gọn cho "GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: vencedores por categoria" là gì?

Claude Opus 4.7 lidera GPQA Diamond com 94,2% e Humanity’s Last Exam sem ferramentas com 46,9%, enquanto GPT 5.5 lidera Terminal Bench 2.0 com 82,7% [4][5].

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

DeepSeek V4 aparece competitivo e com forte apelo de custo benefício; Kimi K2.6 tem sinais úteis, mas em comparações separadas, o que dificulta um ranking direto de quatro modelos [4][11][13].

Fontes

← Back to Trending