A OpenAI posicionou o GPT-5.6 Sol como uma nova fronteira em três áreas-chave: programação, biologia e cibersegurança .
O Terminal-Bench 2.1 testa fluxos de trabalho em linha de comando que exigem planejamento em várias etapas, coordenação de ferramentas e iteração . O benchmark contém 89 tarefas complexas de programação
. Os resultados incluem:
| Modelo | Pontuação |
|---|---|
| GPT-5.6 Sol Ultra | 91,9% |
| GPT-5.6 Sol (máx.) | 88,8% |
| Claude Mythos 5 | 88,0% |
| GPT-5.6 Terra | 84,3% |
| Claude Fable 5 | 84,3% |
| GPT-5.5 | 83,4% |
| GPT-5.6 Luna | 82,5% |
O GPT-5.6 Sol Ultra estabeleceu um novo estado da arte em 91,9% . A pontuação padrão do Sol de 88,8% supera o modelo de fronteira restrito da Anthropic, Claude Mythos 5, que tem 88,0%, por quase um ponto percentual inteiro
.
No GeneBench v1, um benchmark que avalia análises de genômica e biologia quantitativa de longo prazo, a OpenAI relata que o Sol alcançou resultados mais fortes do que o GPT-5.5 usando menos tokens de saída . Isso representa uma melhoria de eficiência significativa para fluxos de trabalho de pesquisa científica.
No ExploitBench, um benchmark de pesquisa em cibersegurança, o GPT-5.6 Sol quase igualou o desempenho do Mythos Preview da Anthropic usando cerca de um terço dos tokens de saída .
No ExploitGym, um benchmark construído por pesquisadores da UC Berkeley em colaboração com a OpenAI e outros laboratórios de IA de fronteira, todos os três modelos GPT-5.6 mostraram capacidades de cibersegurança aprimoradas à medida que o raciocínio aumentava .
Importante: a OpenAI afirma que o GPT-5.6 Sol não ultrapassa o limite Crítico de Cibersegurança de acordo com sua Estrutura de Preparação . Em avaliações envolvendo Chromium e Firefox, o modelo identificou bugs e primitivas de exploração — os blocos de construção de um exploit — mas não produziu autonomamente um exploit funcional de cadeia completa sob as condições testadas
. A série completa de modelos GPT-5.6 foi classificada internamente como de risco "Alto" (para capacidades de cibersegurança e armas biológicas), mas não no nível mais alto "Crítico"
.
A OpenAI afirma que o GPT-5.6 Sol é lançado com sua "pilha de segurança mais robusta até hoje" . A abordagem de segurança inclui:
Durante o preview, alguns prompts podem ser desacelerados ou bloqueados para revisão extra enquanto a OpenAI ajusta as taxas de falso positivo e falso negativo .
A implantação do GPT-5.6 é diferente de qualquer lançamento anterior da OpenAI. A pedido do governo dos EUA, a OpenAI está inicialmente limitando o acesso a um pequeno grupo de parceiros e organizações de confiança — o Axios noticiou que o preview inclui cerca de 20 empresas aprovadas — enquanto o modelo passa por revisões adicionais de segurança nacional .
O preview não é um programa de autoatendimento amplo. Durante este período, o GPT-5.6 Sol, Terra e Luna estão disponíveis apenas através da API da OpenAI e do Codex para este grupo limitado . Os modelos não estão disponíveis no ChatGPT durante o preview
. A OpenAI afirma que a disponibilidade mais ampla no ChatGPT, Codex e na API está planejada "nas próximas semanas"
.
A OpenAI declarou claramente que vê a abordagem de bloqueio governamental como uma medida temporária: "Acreditamos em acesso amplo, e este processo não deve se tornar o padrão de longo prazo" . Em um memorando interno, o CEO Sam Altman disse à equipe que o governo "aprovaria o acesso cliente por cliente durante este período de preview", com um lançamento mais amplo esperado para algumas semanas depois
.
Isso surgiu de conversas com o Escritório do Diretor Nacional de Cibersegurança e o Escritório de Política Científica e Tecnológica , refletindo uma nova estrutura de modelo de fronteira sendo testada pela administração Trump
.
| Modelo | Entrada / 1M tokens | Saída / 1M tokens |
|---|---|---|
| GPT-5.6 Sol | US$ 5,00 | US$ 30,00 |
| GPT-5.6 Terra | US$ 2,50 | US$ 15,00 |
| GPT-5.6 Luna | US$ 1,00 | US$ 6,00 |
O preço do Sol corresponde ao preço do GPT-5.5, enquanto o Terra é cerca de 2x mais barato que o GPT-5.5 . Para contexto, o Sol tem um preço mais próximo do Claude Opus 4.8 (US$ 5/US$ 25) do que do Mythos 5 restrito da Anthropic (US$ 10/US$ 50)
.
A OpenAI também anunciou que o GPT-5.6 Sol será implantado em hardware Cerebras em julho , com velocidades de inferência de até 750 tokens por segundo
.
A família GPT-5.6 marca uma mudança significativa em relação aos lançamentos anteriores da OpenAI. O empacotamento em três camadas (Sol, Terra, Luna) introduz uma marca durável que desacopla a série do modelo dos níveis de capacidade. Os resultados de benchmark — particularmente a pontuação de programação de ponta do Sol no Terminal-Bench 2.1 e seus ganhos de eficiência no ExploitBench — demonstram avanços significativos, especialmente em cibersegurança e biologia. Mas a característica mais marcante deste lançamento pode ser as restrições de acesso exigidas pelo governo, que representam um novo paradigma para a implantação de IA de fronteira.
Comments
0 comments