Terminal-Bench 2.1 testuje práci v příkazovém řádku, která vyžaduje vícestupňové plánování, koordinaci nástrojů a iteraci . Benchmark obsahuje 89 komplexních programátorských úloh
. Výsledky:
| Model | Skóre |
|---|---|
| GPT-5.6 Sol Ultra | 91,9 % |
| GPT-5.6 Sol (max) | 88,8 % |
| Claude Mythos 5 | 88,0 % |
| GPT-5.6 Terra | 84,3 % |
| Claude Fable 5 | 84,3 % |
| GPT-5.5 | 83,4 % |
| GPT-5.6 Luna | 82,5 % |
GPT-5.6 Sol Ultra stanovil nový absolutní rekord na 91,9 % . Běžný Sol s 88,8 % těsně překonává vyhrazený model Anthropicu, Claude Mythos 5, který dosáhl 88,0 %
.
Na GeneBench v1, benchmarku pro dlouhodobé genomické a kvantitativně-biologické analýzy, OpenAI uvádí, že Sol dosahuje lepších výsledků než GPT-5.5, a to při použití menšího počtu výstupních tokenů . To představuje výrazné zefektivnění pro vědecké výzkumné pracovní postupy.
Na ExploitBench, benchmarku pro výzkum kybernetické bezpečnosti, se GPT-5.6 Sol téměř vyrovnal výkonu modelu Mythos Preview od Anthropicu, přičemž spotřeboval zhruba třetinu výstupních tokenů .
Na ExploitGym, benchmarku vytvořeném výzkumníky z UC Berkeley ve spolupráci s OpenAI a dalšími laboratořemi, všechny tři modely GPT-5.6 vykázaly zlepšené schopnosti v kybernetické bezpečnosti s rostoucí úrovní uvažování .
Důležité je, že OpenAI tvrdí, že GPT-5.6 Sol nepřekračuje kritickou hranici kybernetické bezpečnosti (Cyber Critical) podle svého rámce připravenosti (Preparedness Framework) . Při testování v prohlížečích Chromium a Firefox model identifikoval chyby a exploitační primitivy – stavební kameny zneužití – ale za testovaných podmínek nedokázal samostatně vytvořit plnohodnotný exploit
. Celá řada GPT-5.6 byla interně hodnocena jako „High" riziko, nikoliv nejvyšší „Critical"
.
OpenAI uvádí, že GPT-5.6 Sol startuje s „dosud nejrobustnějším bezpečnostním stackem" . Bezpečnostní přístup zahrnuje:
Během náhledu může být zpracování některých dotazů zpomaleno nebo zablokováno k dodatečné kontrole, zatímco OpenAI dolaďuje poměr falešně pozitivních a falešně negativních výsledků .
Zavádění GPT-5.6 se liší od všech předchozích vydání OpenAI. Na žádost vlády USA OpenAI zpočátku omezuje přístup na malou skupinu důvěryhodných partnerů a organizací – server Axios uvedl, že náhled zahrnuje zhruba 20 schválených firem – zatímco model prochází dodatečnými kontrolami národní bezpečnosti .
Náhled není široký samoobslužný program. Během tohoto období jsou GPT-5.6 Sol, Terra a Luna k dispozici pouze přes API a Codex OpenAI této omezené skupině . Modely nejsou v náhledu k dispozici v ChatGPT
. OpenAI plánuje širší dostupnost v ChatGPT, Codexu a API „v nadcházejících týdnech"
.
OpenAI jasně prohlásila, že tento vládou řízený přístup považuje za dočasný: „Věříme v široký přístup a tento proces by se neměl stát dlouhodobým výchozím stavem." . V interním memoru generální ředitel Sam Altman sdělil zaměstnancům, že vláda bude „schvalovat přístup zákazník po zákazníkovi během tohoto náhledového období" a že širší vydání se očekává za několik týdnů
.
Tento postup vzešel z jednání s Úřadem ředitele pro národní kybernetiku (Office of the National Cyber Director) a Úřadem pro vědeckou a technologickou politiku (Office of Science and Technology Policy) a odráží nový rámec pro modely na hranici možností, který testuje administrativa Donalda Trumpa
.
| Model | Vstup / 1M tokenů | Výstup / 1M tokenů |
|---|---|---|
| GPT-5.6 Sol | 5,00 USD | 30,00 USD |
| GPT-5.6 Terra | 2,50 USD | 15,00 USD |
| GPT-5.6 Luna | 1,00 USD | 6,00 USD |
Cena Solu odpovídá ceně GPT-5.5, zatímco Terra je zhruba 2× levnější než GPT-5.5 . Pro srovnání: Sol je cenově blíže modelu Claude Opus 4.8 (5/25 USD) než vyhrazenému Mythos 5 od Anthropicu (10/50 USD)
.
OpenAI také oznámila, že GPT-5.6 Sol bude v červenci nasazen na hardwaru Cerebras s rychlostí inference až 750 tokenů za sekundu
.
Rodina GPT-5.6 představuje výrazný odklon od předchozích vydání OpenAI. Třístupňové balení (Sol, Terra, Luna) zavádí trvalé značení, které odděluje sérii modelů od výkonnostních úrovní. Výsledky benchmarků – zejména Solovo nejmodernější skóre v kódování na Terminal-Bench 2.1 a jeho efektivita na ExploitBench – ukazují smysluplný pokrok, zejména v kybernetické bezpečnosti a biologii. Ale nejvýraznějším rysem tohoto uvedení jsou pravděpodobně vládou vyžadovaná omezení přístupu, která představují nové paradigma pro nasazování špičkových modelů umělé inteligence.
Comments
0 comments