Claude Opus 4.7 tem a evidência pública mais forte em coding e agentes: a Vals AI o lista com 82,00% no SWE bench, e a Anthropic reporta 0,715 em benchmark interno de research agent [16][17]. GPT 5.5 aparece muito competitivo em raciocínio geral, com 92,4% no MMLU, 93,6% no GPQA Diamond, 85,0% no ARC AGI 2 e 95,0% n...

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026. Article summary: La lectura más defendible es que Claude Opus 4.7 tiene la mejor evidencia pública: Vals AI lo sitúa en 82.00% en SWE bench, actualizado el 24/04/2026, y Anthropic reporta 0.715 en su benchmark interno de research agen.... Topic tags: ai, ai benchmarks, llm, claude, openai. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek V4 vs Claude vs GPT-5.5. Claude Opus 4.6 is no longer Anthropic's flagship — Opus 4.7 shipped on April 16, 2026, at the same $5/$25 price. If you're evaluating "best Ant" source context "DeepSeek V4 vs Claude vs GPT-5.5 - Verdent AI" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90
Comparar Claude Opus 4.7, GPT-5.5, DeepSeek V4 e Kimi K2.6 como se todos estivessem em uma mesma liga, com as mesmas fichas técnicas e benchmarks, seria uma simplificação perigosa. A fotografia de 2026 é desigual: Claude tem os sinais públicos mais fortes em coding e agentes; GPT-5.5 aparece muito competitivo em raciocínio, mas principalmente em fontes secundárias; DeepSeek V4/V4 Pro reúne resultados comunitários e claims técnicos; Kimi K2.6 ainda tem pouca cobertura comparável.
Para quem precisa montar uma apresentação executiva ou escolher o que testar primeiro, a melhor leitura não é escolher um campeão absoluto. É separar duas perguntas: qual modelo parece melhor em cada tipo de tarefa e qual é a qualidade da evidência que sustenta essa conclusão.
| Modelo | Leitura mais defensável | Confiança da evidência |
|---|---|---|
| Claude Opus 4.7 | Melhor caso público em coding, agentes e trabalho multi-step. A Anthropic reporta 0,715 em um benchmark interno de research-agent, e a Vals AI o coloca em primeiro no SWE-bench com 82,00% [ | Alta-média |
| GPT-5.5 | Muito forte em raciocínio geral: a O-Mega reporta 92,4% no MMLU, 93,6% no GPQA Diamond, 85,0% no ARC-AGI-2 e 95,0% no ARC-AGI-1 [ | Média |
| DeepSeek V4 / V4 Pro | Promissor em coding e como alternativa técnica, mas as fontes misturam variantes como V4, V4 Pro e V4 Pro High [ |
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Claude Opus 4.7 tem a evidência pública mais forte em coding e agentes: a Vals AI o lista com 82,00% no SWE bench, e a Anthropic reporta 0,715 em benchmark interno de research agent [16][17].
Claude Opus 4.7 tem a evidência pública mais forte em coding e agentes: a Vals AI o lista com 82,00% no SWE bench, e a Anthropic reporta 0,715 em benchmark interno de research agent [16][17]. GPT 5.5 aparece muito competitivo em raciocínio geral, com 92,4% no MMLU, 93,6% no GPQA Diamond, 85,0% no ARC AGI 2 e 95,0% no ARC AGI 1 segundo a O Mega [3].
DeepSeek V4/V4 Pro é promissor, mas mistura variantes e claims; Kimi K2.6 tem apenas sinais parciais, como 0,91 em GPQA no LLM Stats [7][25][26][27].
Tiếp tục với "Ôn thi cảnh sát Hong Kong: ICAC, quyền lực cảnh sát và trách nhiệm giải trình" để có góc nhìn khác và trích dẫn bổ sung.
Abrir página relacionadaKiểm tra chéo câu trả lời này với "DeepSeek V4: không chỉ là 1M token, mà là bài toán MoE và API".
Abrir página relacionadaHow the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...
Star on GitHub 55.8KGo to Console Start building for free Sign upGo to Console Start building for free Products Docs Pricing Customers Blog Changelog Star on GitHub 55.8K Blog/GPT-5.5 is here: benchmarks, pricing, and what changes for developers Apr 24, 202...
Reasoning, Math, and Science Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- MMLU 92.4% - - GPQA Diamond 93.6% 92.8% 94.2% 94.3% ARC-AGI-2 85.0% 73.3% 77.1% ARC-AGI-1 95.0% 93.7% - FrontierMath T1-3 51.7% 52.4% 47.6% 43.8% F...
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...
| Média-baixa |
| Kimi K2.6 | Tem sinais parciais, como 0,91 em GPQA no LLM Stats e presença no top 10 do Quality Index do WhatLLM, mas ainda não há cobertura multi-benchmark suficiente [ | Baixa |
| Benchmark ou métrica | Claude Opus 4.7 | GPT-5.5 | DeepSeek V4 / V4 Pro | Kimi K2.6 | Leitura prática |
|---|---|---|---|---|---|
| SWE-bench | 82,00% na Vals AI, atualizado em 24/04/2026 [ | Sem cifra comparável recuperada | 81% reivindicado pela NxCode para DeepSeek V4 [ | Sem cifra comparável recuperada | A sinalização mais limpa favorece Claude. |
| SWE-bench Verified | 87,6% segundo a Vellum; 83,5% ± 1,7 segundo a LMCouncil [ | Sem cifra comparável recuperada | A Hugging Face lista SWE-bench Verified em avaliação comunitária, sem número visível no resumo recuperado [ | Sem cifra comparável recuperada | Varia por fonte, configuração e variante. |
| SWE-bench Pro | 64,3% segundo a Vellum [ | Sem cifra comparável recuperada | A Hugging Face lista SWE-bench Pro na avaliação comunitária, sem número visível no resumo recuperado [ | Sem cifra comparável recuperada | Mais relevante para agentes de software de longo horizonte. |
| GPQA Diamond | 94,2% segundo O-Mega, Vellum e TNW [ | 93,6% segundo O-Mega e Vellum [ | Mencionado em suites comunitárias, sem cifra comparável visível no resumo recuperado [ | 0,91 no LLM Stats [ | Claude e GPT-5.5 estão próximos demais para decidir só por GPQA. |
| MMLU | Sem cifra comparável recuperada | 92,4% segundo a O-Mega [ | MMLU-Pro aparece em avaliação comunitária, sem número visível no resumo recuperado [ | Sem cifra comparável recuperada | Deve pesar pouco porque MMLU está saturado entre modelos de ponta. |
| ARC-AGI | Sem cifra comparável recuperada | ARC-AGI-2: 85,0%; ARC-AGI-1: 95,0% segundo a O-Mega [ | Sem cifra comparável recuperada | Sem cifra comparável recuperada | Reforça o caso do GPT-5.5 em raciocínio, com cautela pela fonte. |
| Research-agent e trabalho multi-step | 0,715 em benchmark interno da Anthropic [ | Sem cifra comparável recuperada | BenchLM reporta 83,8/100 em Agentic para DeepSeek V4 Pro High [ | Sem cifra comparável recuperada | Útil como direção de capacidade, mas não são métricas equivalentes. |
| Long context e Needle-in-a-Haystack | A Anthropic diz que Opus 4.7 teve o desempenho long-context mais consistente entre os modelos testados [ | Sem cifra comparável recuperada | A NxCode reporta 97% em 1M de tokens, condicionado a validação independente [ | Sem cifra comparável recuperada | DeepSeek tem um claim forte, mas não uma conclusão fechada. |
| LiveCodeBench / Codeforces | Sem cifra comparável recuperada | Sem cifra comparável recuperada | A Redreamality reporta LiveCodeBench 93,5 e Codeforces 3206 para DeepSeek V4 [ | Sem cifra comparável recuperada | Sinal positivo para coding puro, mas não resolve a comparação agentic. |
O maior erro aqui é tratar todos os números como se fossem a mesma régua. SWE-bench mede tarefas reais de engenharia de software, e a Vals AI o descreve como um benchmark para resolver tarefas de software em produção [17]. Já o SWE-bench Pro precisa ficar em uma categoria própria: o paper o apresenta como uma versão substancialmente mais difícil, voltada a tarefas de software de longo horizonte [
38].
GPQA Diamond é útil para raciocínio científico, mas já separa pouco os modelos frontier. A TNW observa que, nesse benchmark, modelos como Opus 4.7, GPT-5.4 Pro e Gemini 3.1 Pro estão tão próximos que as diferenças caem no ruído de medição [15]. Isso não invalida o GPQA; só impede que ele seja usado como desempate absoluto.
MMLU merece ainda mais cautela. A Nanonets afirma que, em 2026, os modelos de ponta já passam de 88%, tornando o benchmark saturado demais para distinguir bem os líderes [1]. Em outras palavras: um número alto em MMLU confirma competência, mas raramente decide a compra, a adoção ou a arquitetura.
Também importa quem está publicando cada número. Uma fonte oficial de laboratório, um leaderboard independente, um agregador e uma discussão comunitária não têm o mesmo peso. A própria BenchLM diz que seu perfil de Claude Opus 4.7 está excluído do leaderboard público porque ainda falta cobertura pública não gerada suficiente para ranqueá-lo com segurança [14].
Claude Opus 4.7 é o modelo com melhor sustentação pública nesta comparação. A Anthropic afirma que o Opus 4.7 empatou o melhor resultado global em seu benchmark interno de research-agent, com 0,715, e teve o desempenho long-context mais consistente entre os modelos avaliados [16]. Como é uma avaliação interna, ela não deve ser tratada como benchmark independente, mas é uma sinalização forte sobre o foco do modelo em trabalho multi-step.
A evidência externa mais clara aparece em SWE-bench. A Vals AI coloca Claude Opus 4.7 em primeiro lugar, com 82,00%, em página atualizada em 24/04/2026 [17]. A Vellum reporta 87,6% em SWE-bench Verified e 64,3% em SWE-bench Pro [
20]. A LMCouncil, por sua vez, lista 83,5% ± 1,7 para Claude Opus 4.7 em SWE-bench Verified [
9].
A conclusão rigorosa não é escolher uma dessas cifras e ignorar as outras. O mais correto é dizer que Claude aparece na faixa de liderança em várias fontes de engenharia de software, mas que SWE-bench, SWE-bench Verified e SWE-bench Pro não são o mesmo teste e podem variar por metodologia, data, subconjunto e configuração [17][
20][
38].
Em raciocínio científico, Claude Opus 4.7 aparece com 94,2% em GPQA Diamond em O-Mega, Vellum e TNW [3][
12][
15]. Ainda assim, a própria leitura da TNW reforça que GPQA está comprimido demais entre modelos frontier para declarar, sozinho, um vencedor global [
15].
GPT-5.5 se destaca nos dados de raciocínio recuperados. A O-Mega reporta 92,4% no MMLU, 93,6% no GPQA Diamond, 85,0% no ARC-AGI-2 e 95,0% no ARC-AGI-1 [3]. A Vellum também lista GPT-5.5 com 93,6% no GPQA Diamond, abaixo de Claude Opus 4.7 nessa tabela específica [
12]. A BenchLM o coloca em patamar alto, com 89/100 no leaderboard provisório e 2º lugar entre 16 no leaderboard verificado [
6].
A cautela principal é a rastreabilidade. Nas fontes disponíveis para esta comparação, GPT-5.5 aparece em artigos, agregadores e páginas de benchmarks, mas não foi recuperada uma ficha oficial da OpenAI com um conjunto completo e comparável ao material oficial da Anthropic para Claude Opus 4.7. A Appwrite descreve o lançamento do GPT-5.5 em 24/04/2026, enquanto a Vals lista openai/gpt-5.5 com data de lançamento em 23/04/2026 e Vals Index de 67,76% ± 1,79; isso ajuda a contextualizar, mas não substitui uma benchmark card oficial [2][
11].
Para uma apresentação executiva, a formulação mais segura é: GPT-5.5 é rival de primeira linha em raciocínio geral, especialmente por GPQA e ARC-AGI, mas não deve ser chamado de vencedor global se o critério for evidência pública homogênea entre todos os modelos [3][
6][
12].
DeepSeek é o caso mais ambíguo em termos de variante. As fontes recuperadas alternam entre DeepSeek V4, DeepSeek V4 Pro e DeepSeek V4 Pro High, então não é seguro transferir automaticamente uma pontuação de uma variante para outra [25][
26][
27].
A Hugging Face mostra uma discussão comunitária para DeepSeek-V4-Pro que adiciona resultados de avaliação em GPQA, GSM8K, HLE, MMLU-Pro, SWE-bench Pro, SWE-bench Verified e Terminal-Bench 2.0 [25]. A BenchLM reporta, para DeepSeek V4 Pro High, 83,8/100 em Agentic, 88,8/100 em Coding e 72,1/100 em Knowledge [
27]. A NxCode afirma que DeepSeek V4 chega a 81% no SWE-bench e 97% em Needle-in-a-Haystack em 1M de tokens, mas a própria leitura do claim de 97% depende de validação independente [
26].
A Redreamality traz outro sinal favorável para coding puro: LiveCodeBench 93,5 e Codeforces 3206 para DeepSeek V4 [30]. Ao mesmo tempo, a fonte resume que, em trabalho agentic de longo horizonte, como SWE-bench Pro e Terminal-Bench 2.0, modelos fechados frontier ainda lideram [
30].
A leitura prática: DeepSeek V4/V4 Pro merece teste interno, especialmente quando a equipe valoriza controle técnico, custo, ecossistema aberto ou implantação local. Mas, com as fontes disponíveis aqui, ele ainda não tem a mesma solidez pública que Claude em SWE-bench e no benchmark interno da Anthropic [16][
17][
25][
27].
Kimi K2.6 não deve sair da conversa, mas também não deve aparecer como se tivesse a mesma cobertura dos outros três. O LLM Stats o lista com 0,91 em GPQA, e o WhatLLM o inclui no top 10 de modelos por Quality Index [7][
21]. Isso mostra presença em rankings, mas não basta para uma comparação ampla com Claude Opus 4.7, GPT-5.5 e DeepSeek V4/V4 Pro.
Também é importante não trocar silenciosamente Kimi K2.6 por Kimi K2.5. Simon Willison registrou em fevereiro de 2026 um resultado de Kimi K2.5 em SWE-bench Verified, mas esse dado pertence a outra versão do modelo [8]. Para uma comparação séria, Kimi K2.6 deve ficar marcado como evidência insuficiente ou pendente de validação multi-benchmark.
| Caso de uso | Recomendação | Confiança | Por quê |
|---|---|---|---|
| Resolver issues reais e coding agentic | Claude Opus 4.7 | Alta-média | Lidera SWE-bench na Vals AI com 82,00% e aparece forte em SWE-bench Verified e SWE-bench Pro na Vellum [ |
| Tarefas multi-step e research-agent | Claude Opus 4.7 | Média | A Anthropic reporta 0,715 em seu benchmark interno e a melhor consistência long-context entre os modelos que testou [ |
| Raciocínio científico no estilo GPQA | Claude Opus 4.7 ou GPT-5.5 | Média | Claude aparece com 94,2% e GPT-5.5 com 93,6%; a diferença é pequena e GPQA está comprimido entre modelos frontier [ |
| Raciocínio geral amplo | GPT-5.5 | Média-baixa | As cifras em MMLU, GPQA e ARC-AGI são fortes, mas vêm principalmente de O-Mega, Vellum, BenchLM e outros agregadores [ |
| Exploração aberta, local ou com mais controle técnico | DeepSeek V4 / V4 Pro | Média-baixa | Há sinais em Hugging Face, BenchLM, NxCode e Redreamality, mas variantes se misturam e a validação independente ainda é necessária [ |
| Ranking quantitativo completo com Kimi K2.6 | Não usar como comparável verificado | Baixa | Há sinais parciais, como GPQA 0,91 no LLM Stats, mas falta cobertura comparável [ |
O jeito mais defensável de transformar esses dados em slides é separar desempenho de qualidade da evidência. Uma lâmina pode mostrar o ranking por caso de uso; outra, a tabela de números; e uma terceira, as limitações metodológicas.
A mensagem principal deve ser direta: Claude Opus 4.7 é o líder melhor respaldado em coding e agentes; GPT-5.5 é o rival mais forte em raciocínio geral; DeepSeek V4/V4 Pro é uma alternativa técnica promissora que exige validação própria; Kimi K2.6 ainda depende de dados comparáveis.
Inclua três notas de rodapé metodológicas. Primeiro, não misture SWE-bench, SWE-bench Verified e SWE-bench Pro como se fossem o mesmo teste, porque o SWE-bench Pro foi desenhado para tarefas de software de longo horizonte mais difíceis [38]. Segundo, não baseie a decisão em MMLU: os modelos de topo estão agrupados demais acima de 88% [
1]. Terceiro, rotule cada número por tipo de fonte: oficial, leaderboard, agregador, comunidade ou claim técnico.
Se a pergunta é qual modelo colocar em primeiro em uma apresentação com evidência defensável, Claude Opus 4.7 deve liderar pela combinação de fonte oficial, primeiro lugar no SWE-bench da Vals e resultados fortes em variantes de SWE-bench reportadas por terceiros [16][
17][
20]. GPT-5.5 deve aparecer como competidor de elite em raciocínio, com a ressalva de que as cifras recuperadas são majoritariamente secundárias [
3][
6][
12]. DeepSeek V4/V4 Pro merece prova interna, não proclamação de liderança [
25][
26][
27][
30]. Kimi K2.6, por ora, deve ser apresentado como evidência insuficiente para uma comparação completa [
7][
21].
Ôn thi cảnh sát Hong Kong: ICAC, quyền lực cảnh sát và trách nhiệm giải trình
9Image 42GPT-5 mini 0.22 10Image 43o3 0.16 GPQAView → 4 of 10 Image 44: LLM Stats Logo A challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. Questions are Google-proof and extremely difficult, w...
Here's how the top ten models performed: Image 1: Bar chart showing "% Resolved" by "Model". Bars in descending order: Claude 4.5 Opus (high reasoning) 76.8%, Gemini 3 Flash (high reasoning) 75.8%, MiniMax M2.5 (high reasoning) 75.8%, Claude Opus 4.6 75.6%,...
METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...
2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...
93.6% GPT-5.5 92.4% GPT 5.2 91.9% Gemini 3 Pro Best in Reasoning (GPQA Diamond) Model Score --- Claude 3 Opus 95.4% Claude Opus 4.7 94.2% GPT-5.5 93.6% GPT 5.2 92.4% Gemini 3 Pro 91.9% Best in High School Math (AIME 2025) 100%96%93%89%86% 100% Gemini 3 Pro...
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 BenchLM is tracking Claude Opus 4.7, but this profile is currently excluded from the public leaderboard because it still lacks enough non-generated benchmark cov...
On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Coding SWE-bench SWE-bench Updated: 4/24/2026 Solving production software engineering tasks Key Takeaways Claude Opus 4.7 leads with a...
Coding is the clear headline. SWE-bench Verified jumps from 80.8% to 87.6%, a nearly 7-point gain that puts Opus 4.7 ahead of Gemini 3.1 Pro (80.6%). On SWE-bench Pro, the harder multi-language variant, Opus 4.7 goes from 53.4% to 64.3%, leapfrogging both G...
whatllm? whatllm.org WhatLLM.org - LLM Comparison Tool The ultimate LLM comparison tool Compare price, performance, and speed across the entire AI ecosystem. Updated daily with the latest benchmarks. Top 10 Models Ranked by Quality Index across all benchmar...
deepseek-ai/DeepSeek-V4-Pro · Add community evaluation results for GPQA, GSM8K, HLE, MMLU-PRO, SWE-BENCH PRO, SWE-BENCH VERIFIED, TERMINAL-BENCH-2.0 Image 1: Hugging Face's logoHugging Face Models Datasets Spaces Buckets new Docs Enterprise Pricing Log In S...
The claimed results: Metric Standard Attention Engram (DeepSeek V4) --- Needle-in-a-Haystack (1M tokens) 84.2% accuracy 97% accuracy Context Length Supported Varies (128K typical) 1M tokens If the 97% figure holds up under independent testing, this represen...
Category Performance PNG Embed Share Scores across all benchmark categories (0-100 scale) Category Breakdown Agentic 83.8/ 100 Weight: 22%5 benchmark s Terminal-Bench 2.0 BrowseComp OSWorld-Verified GAIA TAU-bench WebArena Coding 7 88.8/ 100 Weight: 20%6 be...
The Takeaway The V4 scorecard confirms a pattern: for pure coding, open weights have caught up (LiveCodeBench 93.5, Codeforces 3206). For long-horizon agentic work (SWE-bench Pro, Terminal-Bench 2.0), closed frontier still leads. For frontier reasoning (HLE...
… PRO, a substantially more challenging benchmark that builds … In our evaluation of widely used coding models, under a unified … Towards this end, this paper is motivated to (1) mitigate … 2025