O Opus 4.8 da Anthropic também conserva o preço do Opus 4.7 — sem aumento, apesar dos ganhos significativos nos benchmarks . Já o GPT-5.5 dobrou o preço da API em relação ao seu antecessor, o GPT-5.4. A OpenAI argumenta, porém, que os ganhos de eficiência no uso de tokens reduzem o aumento real de custo para cerca de 20%
.
Os três modelos oferecem cache de prompt, com economia de até 90% nos tokens cacheados, e modalidade de processamento em lote com 50% de desconto .
O GPT-5.5 ainda conta com um plano Pro a US$ 30/US$ 180 por milhão de tokens, voltado para demandas de nível de pesquisa . A linha Claude Opus não tem uma categoria equivalente.
Comparar modelos diretamente é complicado por causa das diferentes versões de benchmarks e protocolos de teste. Onde há pontuações no mesmo teste, o Opus 4.8 lidera sobre o GPT-5.5 exatamente nas áreas que mais interessam a quem desenvolve.
| Benchmark | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified (código) | 88,6% | 87,6% | Sem comparação direta |
| SWE-bench Pro (código com agentes) | 69,2% | 64,3% | 58,6% |
| Terminal-Bench 2.1 | 74,6% | — | — |
| Terminal-Bench 2.0 | — | 69,4% | 82,7% |
| Raciocínio multidisciplinar (com ferramentas) | 57,9% | 54,7% | Sem comparação direta |
| Raciocínio multidisciplinar (sem ferramentas) | ~62,1% | — | — |
| GPQA Diamond (ciências em nível de pós) | 93,6% | 94,2% | — |
| MMLU (conhecimento geral) | — | 91,3% | — |
| AIME 2024 (matemática de competição) | — | 99,8% | — |
| CursorBench | Maior | Linha de base | — |
| GDPval-AA (trabalho de conhecimento) | 1890 | 1753 | 1769 |
| Super-Agent (ponta a ponta) | 100% | — | Não atingiu 100% |
| Uso de computador por agentes | 83,4% | 82,8% | 78,7% |
O SWE-bench Pro é o benchmark mais citado para tarefas reais de engenharia de software, e o Opus 4.8 alcança 69,2% contra 58,6% do GPT-5.5 — uma vantagem de 10,6 pontos percentuais . O Opus 4.7 já estava à frente, com 64,3%, e o Opus 4.8 ampliou essa liderança. O anúncio da Anthropic ressalta a conclusão mais rápida de tarefas e quatro vezes menos bugs de código em comparação com modelos anteriores
.
Esse benchmark exige leitura atenta. O GPT-5.5 reporta 82,7% no Terminal-Bench 2.0 , enquanto os 74,6% do Opus 4.8 foram medidos no Terminal-Bench 2.1, uma versão mais nova
. As duas pontuações não podem ser comparadas diretamente. Além disso, o resultado de 82,7% divulgado pela OpenAI sofreu escrutínio; no mesmo dia, o ranking do proprietário do benchmark mostrava 82,0% ± 2,2
. O Opus 4.7 marcou 69,4% no Terminal-Bench 2.0
, e testes independentes com configurações diferentes já flagraram o GPT-5.5 com desempenho abaixo do GPT-5.4 nesse mesmo benchmark
.
No GDPval-AA, uma avaliação de trabalho com conhecimento, o Opus 4.8 atinge uma pontuação Elo de 1890, contra 1769 do GPT-5.5 — uma vantagem de aproximadamente 7% . O Opus 4.8 também é o primeiro modelo a alcançar 100% de conclusão no benchmark Super-Agent da Anthropic, ou seja, executou com sucesso todas as tarefas de agente ponta a ponta do conjunto de testes
. O GPT-5.5 não chegou a 100%.
No uso de computador por agentes (OSWorld-Verified), as pontuações estão mais próximas: Opus 4.8 com 83,4%, GPT-5.5 com 78,7% e Opus 4.7 com 82,8% . São avanços incrementais, de poucos pontos, não saltos geracionais.
A cobertura de benchmarks do GPT-5.5 é mais enxuta nos testes compartilhados que a Anthropic publicou com o Opus 4.8, em parte porque a OpenAI prioriza outras métricas. No GPQA Diamond (raciocínio científico de nível de pós-graduação), o Opus 4.7 atingiu 94,2% , enquanto comparações anteriores mostravam o GPT-5.4 ligeiramente à frente do Opus 4.7 em raciocínio matemático puro e em alguns testes de recuperação de conhecimento
. Ainda não há uma comparação direta de GPQA entre Opus 4.8 e GPT-5.5, embora o Opus 4.8 tenha sido reportado com 93,6%
.
A OpenAI também alega que o GPT-5.5 usa cerca de 40% menos tokens de saída por tarefa de código em relação ao GPT-5.4, o que poderia compensar, em parte, o preço mais alto por token em determinadas cargas de trabalho .
| Especificação | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| Janela de contexto | 1M tokens | 1M tokens | 1M tokens |
| Modo rápido | 2,5× mais rápido (US$ 10/US$ 50) | 2,5× mais rápido (US$ 10/US$ 50) | Indisponível |
| Data de lançamento | 28 de maio de 2026 | 16 de abril de 2026 | 23 de abril de 2026 |
| Desconto para lote | 50% | 50% | 50% (Flex) |
| Cache de prompt | Sim (até 90% de desconto) | Sim (até 90% de desconto) | Sim (90% de desconto) |
Os três modelos convergem na janela de contexto de 1 milhão de tokens, embora a Anthropic documento que a saída máxima do Opus 4.8 é de 128 mil tokens por requisição . A saída máxima do GPT-5.5 é listada como 32 mil tokens
.
O modo rápido do Claude é opcional e roda a aproximadamente 2,5 vezes a velocidade padrão. Segundo a Anthropic, o modo rápido do Opus 4.8 é três vezes mais barato que a inferência rápida das gerações anteriores do Opus . O GPT-5.5 não oferece uma categoria de velocidade premium equivalente.
Benchmarks independentes devem ser lidos com suas limitações em mente:
Escolha o Claude Opus 4.8 se: programação com agentes, tarefas de uso de computador, trabalho de conhecimento ou operações com contexto longo dominam sua carga de trabalho. Ele lidera em todos os benchmarks compartilhados em que é possível fazer comparação, e o preço é o mesmo do Opus 4.7.
Escolha o GPT-5.5 se: você está profundamente integrado ao ecossistema da OpenAI, prioriza raciocínio matemático puro ou espera que os ganhos de eficiência de tokens compensem o preço mais alto de saída nos seus padrões de prompt específicos.
Fique com o Opus 4.7 se: você busca um desempenho de ponta em programação com agentes (64,3% no SWE-bench Pro ainda está bem à frente do GPT-5.5) e não precisa dos ganhos específicos que o Opus 4.8 oferece — mas, como o preço é idêntico, há poucos motivos para não atualizar.
Para quem roda agentes com muita saída de texto ou faz análises de documentos longos, o preço 17% menor na saída e as taxas fixas de contexto longo do Claude Opus fazem diferença concreta na conta mensal da API.
Comments
0 comments