RelatóriosPublicadohá 2 mesesLast edited mês passado24 fontes

Claude Opus 4.8 Chega Mirando Empresas: Programação com 69,2% no SWE-Bench Pro e Modo Rápido 3x Mais Barato

No SWE Bench Pro, Claude Opus 4.8 atingiu 69,2%, superando os 58,6% do GPT 5.5 e os 54,2% do Gemini 3.1 Pro [6]. Preço padrão da API mantido em US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída; modo rápido custa US$ 10/US$ 50, sendo 3x mais barato que antes [1][4].

Pesquisar e verificar fatos com Studio Global AI Veja mais páginas em alta

Conceptual illustration of Claude Opus 4.8's launch, symbolizing AI performance benchmarks and agentic coding capabilities. — What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5Anthropic launched Claude Opus 4.8 with significant improvements in agentic coding and model reliability. Image: AI-generated.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: What were the key details of Anthropic's Claude Opus 4.8 launch on May 28, 2026, including its benchmark performance against OpenAI's GPT 5.. Article summary: **Launch positioning:** Claude Opus 4.8 was described as outperforming Opus 4.7 across most major benchmarks and beating GPT-5.5 and Gemini 3.1 Pro in several categories.. Topic tags: deepresearch, general web, user generated, documentation. Reference image context from search candidates: Reference image 1: visual subject "Anthropic released Claude Opus 4.8 today, and it outperforms its predecessor across most major benchmarks while beating OpenAI’s GPT-5.5 and Google’s Gemini 3.1 Pro in several key" source context "Anthropic Just Dropped Claude Opus 4.8. - The VC Corner" Reference image 2: visual subject "Anthropic released Claude Opus 4.8 today, and it outper
openai.com

A Anthropic disponibilizou ao público o Claude Opus 4.8 em 28 de maio de 2026, posicionando-o como seu modelo mais capaz de acesso geral . Esta atualização sucede diretamente o Opus 4.7 e tem como alvos principais a programação, tarefas agênticas de longa duração e a confiabilidade para o mercado empresarial. O preço padrão não sofreu reajuste, mas o lançamento é acompanhado por um modo rápido significativamente mais barato e novas ferramentas de fluxo de trabalho .

Desempenho no Banco de Provas Contra os Rivais

A comparação de desempenho mais citada é no benchmark de codificação agente SWE-Bench Pro. Segundo os dados de avaliação da Anthropic, o Opus 4.8 alcançou uma pontuação líder de 69,2%, contra 64,3% do seu antecessor, 58,6% do GPT-5.5 da OpenAI e 54,2% do Gemini 3.1 Pro do Google .

No entanto, na suíte mais ampla de programação agente, o GPT-5.5 ainda mantém a dianteira em áreas específicas. Na avaliação de codificação em terminal agente Terminal-Bench 2.1, o GPT-5.5 marcou 78,2%, à frente dos 74,6% do Opus 4.8 e dos 70,3% do Gemini 3.1 Pro .

Os testes internos da Anthropic também mostram ganhos em tarefas de trabalho intelectual. O modelo obteve uma pontuação de 1890 na avaliação GDPval-AA para trabalho de conhecimento com valor econômico, comparado aos 1769 do GPT-5.5 e 1314 do Gemini . Em toda a suíte, a Anthropic afirma que o Opus 4.8 supera ambos os rivais em várias categorias-chave, embora não lidere em todos os testes individuais .

Honestidade e Confiabilidade Como Melhorias Técnicas Centrais

Em uma mudança de foco em relação aos puros benchmarks de inteligência bruta, a Anthropic enfatizou pesadamente as melhorias na confiabilidade do modelo. A empresa relatou que o Opus 4.8 é aproximadamente quatro vezes menos propenso do que o Opus 4.7 a permitir que falhas em seu próprio código passem despercebidas .

O feedback dos primeiros testadores destacou que o modelo é significativamente mais propenso a sinalizar incertezas e menos inclinado a fazer afirmações infundadas durante fluxos de trabalho complexos de múltiplas etapas . A empresa diretamente enquadrou a "honestidade" como uma característica principal do produto neste lançamento, afirmando que o modelo é menos propenso a apresentar informações com suporte insuficiente como fatos .

Apresentando Fluxos de Trabalho Dinâmicos e Controle de Esforço

Juntamente com o modelo base, a Anthropic lançou novos recursos voltados para o usuário, especificamente para desenvolvedores e usuários avançados .

Fluxos de Trabalho Dinâmicos: Disponível como uma prévia de pesquisa no Claude Code, esse recurso permite que o modelo planeje uma tarefa, a orquestre entre centenas de subagentes paralelos e verifique os resultados antes de reportar. Ele foi projetado para migrações massivas de código, auditoria e caça a bugs em uma única sessão .

Controle de Engajamento / Esforço Ajustável: Os usuários agora podem ditar a profundidade de raciocínio do modelo. O parâmetro de "esforço" no claude.ai e no Claude Code permite uma troca entre inteligência, custo de tokens e velocidade. A documentação recomenda usar o nível xhigh para os casos de uso mais difíceis de codificação e agênticos, e um mínimo de high para outras tarefas sensíveis à inteligência .

Estrutura de Preços da API

O preço para uso regular da API permanece estável em relação à geração anterior .

Tarifa Padrão: US$ 5 por milhão de tokens de entrada, US$ 25 por milhão de tokens de saída .
Tarifa do Modo Rápido: US$ 10 por milhão de tokens de entrada, US$ 50 por milhão de tokens de saída. Este modo opera a aproximadamente 2,5x a velocidade padrão, tornando-se cerca de 3x mais barato que o modo rápido para modelos Opus anteriores .

As taxas de cache de prompt são definidas em US$ 6,25 por milhão de tokens para gravações de cache de 5 minutos, US$ 10 por milhão de tokens para gravações de cache de 1 hora e US$ 0,50 por milhão de tokens para acertos e atualizações de cache .

O Que Este Lançamento Sinaliza Para o Cenário de IA

O lançamento do Opus 4.8 não é um puro aumento nos benchmarks brutos; é uma atualização direcionada para empresas e desenvolvedores. A história do produto se concentra na confiabilidade para agentes, no tratamento explícito de incertezas e em dar aos programadores o controle sobre as relações de custo-desempenho por meio de níveis de esforço explícitos. A história do preço permanece conservadora, sem aumento para chamadas de API padrão, enquanto a queda no preço do modo rápido torna a inferência de alta velocidade mais acessível para aplicações críticas de latência.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Pesquisar e verificar fatos com Studio Global AI

As pessoas também perguntam

Câu trả lời ngắn gọn cho "Claude Opus 4.8 Chega Mirando Empresas: Programação com 69,2% no SWE-Bench Pro e Modo Rápido 3x Mais Barato" là gì?

No SWE Bench Pro, Claude Opus 4.8 atingiu 69,2%, superando os 58,6% do GPT 5.5 e os 54,2% do Gemini 3.1 Pro [6].

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

A Anthropic destaca um modelo 4 vezes menos propenso a ignorar falhas no próprio código e novos recursos como 'Dynamic Workflows' e controle de esforço para usuários avançados [2][11].

Fontes

← Back to Trending