OpenAI określiło GPT-5.6 Sol jako nową granicę w trzech kluczowych dziedzinach: kodowaniu, biologii i cyberbezpieczeństwie .
Terminal-Bench 2.1 testuje przepływy pracy w wierszu poleceń, wymagające wieloetapowego planowania, koordynacji narzędzi i iteracji . Benchmark zawiera 89 złożonych zadań programistycznych
. Wyniki obejmują:
| Model | Wynik |
|---|---|
| GPT-5.6 Sol Ultra | 91,9% |
| GPT-5.6 Sol (max) | 88,8% |
| Claude Mythos 5 | 88,0% |
| GPT-5.6 Terra | 84,3% |
| Claude Fable 5 | 84,3% |
| GPT-5.5 | 83,4% |
| GPT-5.6 Luna | 82,5% |
GPT-5.6 Sol Ultra ustanowił nowy stan sztuki na poziomie 91,9% . Standardowy wynik Sola 88,8% wyprzedza model Anthropica Claude Mythos 5 (88,0%) o prawie cały punkt procentowy
.
Na GeneBench v1, benchmarku oceniającym długoterminowe analizy genomiki i biologii ilościowej, OpenAI informuje, że Sol osiągnął lepsze wyniki niż GPT-5.5, używając przy tym mniejszej liczby tokenów wyjściowych . To znacząca poprawa wydajności dla naukowych przepływów pracy.
Na ExploitBench, benchmarku badawczym cyberbezpieczeństwa, GPT-5.6 Sol prawie dorównał wydajnością Anthropic Mythos Preview, używając przy tym około jednej trzeciej tokenów wyjściowych .
Na ExploitGym, benchmarku stworzonym przez naukowców z UC Berkeley we współpracy z OpenAI i innymi laboratoriami AI, wszystkie trzy modele GPT-5.6 wykazały poprawę możliwości w zakresie cyberbezpieczeństwa wraz ze wzrostem zdolności rozumowania .
Warto podkreślić: OpenAI stwierdza, że GPT-5.6 Sol nie przekracza progu krytycznego dla cyberbezpieczeństwa (Cyber Critical) zgodnie z Preparedness Framework . W testach dotyczących Chromium i Firefoxa model identyfikował błędy i prymitywy eksploatacyjne – czyli elementy składowe exploita – ale nie wyprodukował samodzielnie w pełni funkcjonalnego exploita w testowanych warunkach
. Pełna seria modeli GPT-5.6 została wewnętrznie oceniona jako „Wysokie” ryzyko (cyberbezpieczeństwo i zdolności biobroni), ale nie osiągnęła najwyższego poziomu „Krytyczny”
.
OpenAI twierdzi, że GPT-5.6 Sol startuje z „najsolidniejszym stosem bezpieczeństwa” . Podejście do bezpieczeństwa obejmuje:
Podczas okresu zapoznawczego niektóre prompty mogą być spowalniane lub blokowane do dodatkowego przeglądu, gdy OpenAI dostraja wskaźniki fałszywie pozytywnych i fałszywie negatywnych wyników .
Wdrożenie GPT-5.6 różni się od wszystkich poprzednich premier OpenAI. Na prośbę rządu USA OpenAI początkowo ogranicza dostęp do małej grupy zaufanych partnerów i organizacji – Axios podał, że wersja zapoznawcza obejmuje około 20 zatwierdzonych firm – podczas gdy model przechodzi dodatkowe recenzje bezpieczeństwa narodowego .
Wersja zapoznawcza nie jest szerokim programem samoobsługowym. W tym okresie GPT-5.6 Sol, Terra i Luna są dostępne tylko przez API OpenAI i Codex dla tej ograniczonej grupy . Modele nie są dostępne w ChatGPT podczas wersji zapoznawczej
. OpenAI zapowiada, że szersza dostępność w ChatGPT, Codex i API planowana jest „w nadchodzących tygodniach”
.
OpenAI wyraźnie stwierdziło, że traktuje podejście z ograniczeniem rządowym jako środek tymczasowy: „Wierzymy w szeroki dostęp i ten proces nie powinien stać się długoterminową normą” . W wewnętrznym memorandum dyrektor generalny Sam Altman powiedział pracownikom, że rząd będzie „zatwierdzać dostęp klient po kliencie w tym okresie zapoznawczym”, a szersze udostępnienie spodziewane jest za kilka tygodni
.
Wynika to z rozmów z Biurem Krajowego Dyrektora ds. Cyberbezpieczeństwa (Office of the National Cyber Director) i Biurem Polityki Naukowo-Technologicznej (Office of Science and Technology Policy) , odzwierciedlając nowe ramy dla modeli granicznych testowane przez administrację Trumpa
.
| Model | Wejście / 1M tokenów | Wyjście / 1M tokenów |
|---|---|---|
| GPT-5.6 Sol | 5,00 $ | 30,00 $ |
| GPT-5.6 Terra | 2,50 $ | 15,00 $ |
| GPT-5.6 Luna | 1,00 $ | 6,00 $ |
Cena Sola jest taka sama jak cena GPT-5.5, podczas gdy Terra jest około 2 razy tańszy od GPT-5.5 . Dla porównania, Sol jest wyceniony bliżej Claude Opus 4.8 (5/25 $) niż do ograniczonego modelu Anthropic Mythos 5 (10/50 $)
.
OpenAI ogłosiło również, że GPT-5.6 Sol zostanie wdrożony na sprzęcie Cerebras w lipcu , z szybkością wnioskowania do 750 tokenów na sekundę
.
Rodzina GPT-5.6 oznacza znaczące odejście od poprzednich premier OpenAI. Trójpoziomowe opakowanie (Sol, Terra, Luna) wprowadza trwałe marki, które oddzielają serię modeli od poziomów zaawansowania. Wyniki benchmarków – szczególnie rekordowy wynik Sola w kodowaniu na Terminal-Bench 2.1 i wzrost wydajności na ExploitBench – pokazują znaczący postęp, zwłaszcza w cyberbezpieczeństwie i biologii. Ale najbardziej definiującym aspektem tej premiery mogą być wymagane przez rząd ograniczenia dostępu, które stanowią nowy paradygmat wdrażania zaawansowanych modeli AI.
Comments
0 comments