No entanto, na suíte mais ampla de programação agente, o GPT-5.5 ainda mantém a dianteira em áreas específicas. Na avaliação de codificação em terminal agente Terminal-Bench 2.1, o GPT-5.5 marcou 78,2%, à frente dos 74,6% do Opus 4.8 e dos 70,3% do Gemini 3.1 Pro .
Os testes internos da Anthropic também mostram ganhos em tarefas de trabalho intelectual. O modelo obteve uma pontuação de 1890 na avaliação GDPval-AA para trabalho de conhecimento com valor econômico, comparado aos 1769 do GPT-5.5 e 1314 do Gemini . Em toda a suíte, a Anthropic afirma que o Opus 4.8 supera ambos os rivais em várias categorias-chave, embora não lidere em todos os testes individuais
.
Em uma mudança de foco em relação aos puros benchmarks de inteligência bruta, a Anthropic enfatizou pesadamente as melhorias na confiabilidade do modelo. A empresa relatou que o Opus 4.8 é aproximadamente quatro vezes menos propenso do que o Opus 4.7 a permitir que falhas em seu próprio código passem despercebidas .
O feedback dos primeiros testadores destacou que o modelo é significativamente mais propenso a sinalizar incertezas e menos inclinado a fazer afirmações infundadas durante fluxos de trabalho complexos de múltiplas etapas . A empresa diretamente enquadrou a "honestidade" como uma característica principal do produto neste lançamento, afirmando que o modelo é menos propenso a apresentar informações com suporte insuficiente como fatos
.
Juntamente com o modelo base, a Anthropic lançou novos recursos voltados para o usuário, especificamente para desenvolvedores e usuários avançados .
Fluxos de Trabalho Dinâmicos: Disponível como uma prévia de pesquisa no Claude Code, esse recurso permite que o modelo planeje uma tarefa, a orquestre entre centenas de subagentes paralelos e verifique os resultados antes de reportar. Ele foi projetado para migrações massivas de código, auditoria e caça a bugs em uma única sessão .
Controle de Engajamento / Esforço Ajustável: Os usuários agora podem ditar a profundidade de raciocínio do modelo. O parâmetro de "esforço" no claude.ai e no Claude Code permite uma troca entre inteligência, custo de tokens e velocidade. A documentação recomenda usar o nível xhigh para os casos de uso mais difíceis de codificação e agênticos, e um mínimo de high para outras tarefas sensíveis à inteligência .
As taxas de cache de prompt são definidas em US$ 6,25 por milhão de tokens para gravações de cache de 5 minutos, US$ 10 por milhão de tokens para gravações de cache de 1 hora e US$ 0,50 por milhão de tokens para acertos e atualizações de cache .
O lançamento do Opus 4.8 não é um puro aumento nos benchmarks brutos; é uma atualização direcionada para empresas e desenvolvedores. A história do produto se concentra na confiabilidade para agentes, no tratamento explícito de incertezas e em dar aos programadores o controle sobre as relações de custo-desempenho por meio de níveis de esforço explícitos. A história do preço permanece conservadora, sem aumento para chamadas de API padrão, enquanto a queda no preço do modo rápido torna a inferência de alta velocidade mais acessível para aplicações críticas de latência.
Comments
0 comments