OpenAI ha posizionato GPT-5.6 Sol come una nuova frontiera in tre domini chiave: coding, biologia e cybersecurity .
Terminal-Bench 2.1 testa flussi di lavoro da riga di comando che richiedono pianificazione multi-step, coordinamento di strumenti e iterazione . Il benchmark include 89 compiti di programmazione complessi
. I risultati includono:
| Modello | Punteggio |
|---|---|
| GPT-5.6 Sol Ultra | 91,9% |
| GPT-5.6 Sol (max) | 88,8% |
| Claude Mythos 5 | 88,0% |
| GPT-5.6 Terra | 84,3% |
| Claude Fable 5 | 84,3% |
| GPT-5.5 | 83,4% |
| GPT-5.6 Luna | 82,5% |
GPT-5.6 Sol Ultra ha stabilito un nuovo stato dell'arte al 91,9% . Il punteggio standard di Sol, 88,8%, supera il modello di frontiera ristretto di Anthropic, Claude Mythos 5, che si ferma all'88,0%, per quasi un punto percentuale
.
Su GeneBench v1, un benchmark che valuta analisi genomiche e di biologia quantitativa a lungo termine, OpenAI riporta che Sol ha ottenuto risultati migliori di GPT-5.5 utilizzando un numero inferiore di token di output . Questo rappresenta un miglioramento significativo dell'efficienza per i flussi di lavoro di ricerca scientifica.
Su ExploitBench, un benchmark per la ricerca in cybersecurity, GPT-5.6 Sol ha quasi eguagliato le prestazioni di Mythos Preview di Anthropic utilizzando circa un terzo dei token di output .
Su ExploitGym, un benchmark sviluppato dai ricercatori dell'UC Berkeley in collaborazione con OpenAI e altri laboratori di IA di frontiera, tutti e tre i modelli GPT-5.6 hanno mostrato capacità di cybersecurity migliorate all'aumentare del ragionamento .
È importante sottolineare che OpenAI dichiara che GPT-5.6 Sol non supera la soglia critica per la cybersecurity (Cyber Critical threshold) secondo il suo Preparedness Framework . Nelle valutazioni che hanno coinvolto Chromium e Firefox, il modello ha identificato bug e primitive di sfruttamento — gli elementi costitutivi di un exploit — ma non ha prodotto autonomamente un exploit funzionale a catena completa nelle condizioni testate
. L'intera serie di modelli GPT-5.6 è stata valutata internamente come a rischio "Alto" (per capacità di cybersecurity e di armi biologiche), ma non al livello massimo "Critico"
.
OpenAI afferma che GPT-5.6 Sol viene lanciato con il suo "safety stack più robusto mai realizzato" . L'approccio alla sicurezza include:
Durante l'anteprima, alcuni prompt potrebbero essere rallentati o bloccati per una revisione aggiuntiva, mentre OpenAI ottimizza i tassi di falsi positivi e falsi negativi .
Il lancio di GPT-5.6 è diverso da qualsiasi precedente rilascio di OpenAI. Su richiesta del governo degli Stati Uniti, OpenAI sta inizialmente limitando l'accesso a un piccolo gruppo di partner e organizzazioni fidate — Axios ha riportato che l'anteprima include circa 20 aziende approvate — mentre il modello viene sottoposto a ulteriori revisioni di sicurezza nazionale .
L'anteprima non è un programma self-service su larga scala. Durante questo periodo, GPT-5.6 Sol, Terra e Luna sono disponibili solo tramite l'API di OpenAI e Codex per questo gruppo limitato . I modelli non sono disponibili in ChatGPT durante l'anteprima
. OpenAI afferma che la disponibilità più ampia in ChatGPT, Codex e l'API è prevista "nelle prossime settimane"
.
OpenAI ha dichiarato chiaramente di considerare l'approccio del controllo governativo come una misura temporanea: "Crediamo nell'accesso ampio, e questo processo non dovrebbe diventare il default a lungo termine" . In un memo interno, l'amministratore delegato Sam Altman ha detto al personale che il governo avrebbe "approvato l'accesso cliente per cliente durante questo periodo di anteprima", con l'auspicio di un rilascio più ampio tra un paio di settimane
.
Questo è emerso dai colloqui con l'Office of the National Cyber Director e l'Office of Science and Technology Policy , riflettendo un nuovo quadro per i modelli di frontiera testato dall'amministrazione Trump
.
| Modello | Input / 1M token | Output / 1M token |
|---|---|---|
| GPT-5.6 Sol | $5,00 | $30,00 |
| GPT-5.6 Terra | $2,50 | $15,00 |
| GPT-5.6 Luna | $1,00 | $6,00 |
Il prezzo di Sol corrisponde a quello di GPT-5.5, mentre Terra costa circa 2 volte meno di GPT-5.5 . Per dare un contesto, Sol ha un prezzo più vicino a Claude Opus 4.8 ($5/$25) che a Mythos 5 di Anthropic ($10/$50)
.
OpenAI ha anche annunciato che GPT-5.6 Sol sarà implementato su hardware Cerebras a luglio , con velocità di inferenza fino a 750 token al secondo
.
La famiglia GPT-5.6 segna un allontanamento significativo dai precedenti lanci di OpenAI. Il confezionamento a tre livelli (Sol, Terra, Luna) introduce un marchio duraturo che disaccoppia la serie di modelli dai livelli di capacità. I risultati dei benchmark — in particolare il punteggio all'avanguardia di Sol in coding su Terminal-Bench 2.1 e i suoi guadagni di efficienza su ExploitBench — dimostrano progressi significativi, specialmente in cybersecurity e biologia. Ma la caratteristica più distintiva di questo lancio potrebbe essere rappresentata dalle restrizioni di accesso richieste dal governo, che rappresentano un nuovo paradigma per l'implementazione dell'IA di frontiera.
Comments
0 comments