Já no Terminal-Bench 2.1, que testa programação em linha de comando, a pontuação foi de 74,6%. Embora atrás dos 78,2% do GPT-5.5, o avanço sobre os 66,1% do Opus 4.7 é notável . Para uso de computadores de forma agêntica, o Opus 4.8 alcança 83,4% no OSWorld-Verified, superando levemente seu predecessor (82,8%) e o GPT-5.5 (78,7%)
.
Em conhecimento geral e raciocínio multidisciplinar, o modelo também brilha. No GDPval-AA, obteve 1890 de pontuação Elo, bem à frente do GPT-5.5 (1769) e com larga vantagem sobre o Gemini (1314) . No exame "Humanity's Last Exam", atingiu 57,9% de acerto com uso de ferramentas, o melhor resultado público da Anthropic, contra 49,8% sem ferramentas
.
Um dos pilares deste lançamento é a honestidade. Nas avaliações internas da empresa, o Opus 4.8 é cerca de quatro vezes menos propenso do que o Opus 4.7 a deixar passar falhas de código em suas autoavaliações .
As taxas de comportamentos desalinhados — como engano ou cooperação com uso indevido — são substancialmente inferiores às do Opus 4.7, sendo comparáveis ao Claude Mythos Preview, modelo que a empresa considera o seu melhor em alinhamento . Para equipes que dependem da IA para revisar ou gerar código em produção, isso significa uma ferramenta que sinaliza os próprios pontos cegos, em vez de entregar código defeituoso com confiança.
A mudança mais visível para o usuário comum é o novo dial de controle de esforço, já disponível nas interfaces do claude.ai e do Cowork . O usuário pode agora escolher quanto esforço computacional o Claude dedica a uma resposta, em diferentes níveis:
xhigh nas configurações do Claude Code): Raciocínio mais aprofundado, recomendado para tarefas difíceis e fluxos de trabalho longos.No Claude Code, os limites de requisição foram ampliados para acomodar o maior consumo de tokens nos níveis de esforço mais elevados, dando ao desenvolvedor mais liberdade para calibrar a relação entre tempo de resposta, custo e profundidade de raciocínio .
Para projetos de grande escala, a Anthropic está lançando, como uma prévia de pesquisa, o "Dynamic Workflows" dentro do Claude Code para assinantes dos planos Enterprise, Team e Max .
O recurso permite que o Claude planeje uma tarefa e então crie e execute centenas de subagentes em paralelo na mesma sessão. Os resultados são verificados antes de serem reportados, tornando o sistema adequado para migrações em bases de código de centenas de milhares de linhas .
O preço padrão do Opus 4.8 permanece inalterado em relação ao seu antecessor: $5 por milhão de tokens de entrada e $25 por milhão de tokens de saída .
A grande novidade em custo está no modo rápido (fast mode). Para o Opus 4.8, ele oferece uma geração de tokens até 2,5 vezes mais veloz, custando agora $10 por milhão de tokens de entrada e $50 por milhão de saída . Uma redução drástica: é três vezes mais barato do que o modo rápido custava para os modelos Opus 4.6 e 4.7, que era de $30 para entrada e $150 para saída
. A Anthropic já sinalizou a descontinuação do modo rápido do Opus 4.6, orientando a migração para as novas versões
.
Para usar o modo rápido via API, o desenvolvedor deve configurar o parâmetro speed: "fast"claude-opus-4-8 e incluir o cabeçalho beta fast-mode-2026-02-01 . A funcionalidade abrange todo o contexto de mais de 200 mil tokens de entrada e pode ser combinada com cache de prompt e multiplicadores de residência de dados
.
O modelo já está disponível na API da Claude através do alias claude-opus-4-8, com suporte para modo rápido, cache de prompt e processamento em lote . Clientes dos planos Pro, Max, Team e Enterprise têm acesso imediato
.
Junto com o lançamento, a Anthropic deu o sinal mais claro até agora sobre seus planos para os modelos da classe Mythos. Desde abril de 2026, o poderoso Claude Mythos Preview estava restrito a cerca de 50 parceiros de segurança cibernética defensiva pelo programa "Project Glasswing" . Com o anúncio de 28 de maio, a empresa afirmou que planeja lançar esses modelos de altíssima capacidade para todos os clientes "nas próximas semanas"
. Como pano de fundo, a Anthropic também revelou uma rodada de investimento Série H de $65 bilhões, com valuation pós-investimento de $965 bilhões, indicando que o caminho comercial desses modelos está saindo do laboratório para o mercado
.
O Opus 4.8 é uma atualização incremental com três impactos práticos claros:
A recomendação mais forte para as equipes que avaliam a troca é testar o Opus 4.8 diretamente em suas próprias tarefas de programação, uso agêntico e trabalho com conhecimento — especialmente em projetos de longa duração, onde a autocorreção, a sinalização de incertezas e a orquestração de subagentes paralelos realmente podem fazer a diferença.
Comments
0 comments