OpenAI позиціонує GPT-5.6 Sol як новий рубіж у трьох ключових сферах: кодування, біологія та кібербезпека .
Terminal-Bench 2.1 тестує робочі процеси командного рядка, які вимагають багатокрокового планування, координації інструментів та ітерацій . Бенчмарк містить 89 складних завдань із програмування
. Результати:
| Модель | Результат |
|---|---|
| GPT-5.6 Sol Ultra | 91.9% |
| GPT-5.6 Sol (макс.) | 88.8% |
| Claude Mythos 5 | 88.0% |
| GPT-5.6 Terra | 84.3% |
| Claude Fable 5 | 84.3% |
| GPT-5.5 | 83.4% |
| GPT-5.6 Luna | 82.5% |
GPT-5.6 Sol Ultra встановив новий рекорд на рівні 91,9% . Стандартний результат Sol у 88,8% майже на цілий пункт перевершує показник обмеженої фронтірної моделі Anthropic, Claude Mythos 5, який становить 88,0%
.
На GeneBench v1, бенчмарку, що оцінює довгострокові завдання з геноміки та кількісної біології, OpenAI повідомляє, що Sol досягла кращих результатів, ніж GPT-5.5, використовуючи при цьому менше вихідних токенів . Це означає значне підвищення ефективності для науково-дослідницьких робочих процесів.
На ExploitBench, еталоні для досліджень у сфері кібербезпеки, GPT-5.6 Sol майже зрівнялася з продуктивністю Mythos Preview від Anthropic, використовуючи приблизно втричі менше вихідних токенів .
На ExploitGym, бенчмарку, створеному дослідниками з Каліфорнійського університету в Берклі у співпраці з OpenAI та іншими передовими лабораторіями ШІ, усі три моделі GPT-5.6 продемонстрували покращені можливості кібербезпеки в міру збільшення рівня міркувань .
Важливо зазначити, що OpenAI стверджує, що GPT-5.6 Sol не перетинає критичний кіберпоріг згідно з її рамковою програмою готовності (Preparedness Framework) . В оцінках із залученням Chromium та Firefox модель виявила помилки та примітиви експлойтів — будівельні блоки експлойту — але не створила автономно повноцінний функціональний експлойт за протестованих умов
. Уся серія моделей GPT-5.6 всередині компанії була оцінена як «Високий» (High) ризик (для кібербезпеки та можливостей біологічної зброї), але не найвищий «Критичний» (Critical) рівень
.
OpenAI стверджує, що GPT-5.6 Sol запускається з «найпотужнішим стеком безпеки» . Підхід до безпеки включає:
Під час попереднього перегляду деякі запити можуть сповільнюватися або блокуватися для додаткової перевірки, поки OpenAI налаштовує рівень хибнопозитивних та хибнонегативних спрацьовувань .
Розгортання GPT-5.6 відрізняється від усіх попередніх релізів OpenAI. На вимогу уряду США OpenAI спочатку обмежує доступ невеликою групою довірених партнерів та організацій — за даними Axios, попередній перегляд охоплює близько 20 схвалених компаній — поки модель проходить додаткові перевірки національної безпеки .
Попередній перегляд не є широкою програмою самообслуговування. У цей період GPT-5.6 Sol, Terra та Luna доступні лише через OpenAI API та Codex для цієї обмеженої групи . Моделі недоступні в ChatGPT під час попереднього перегляду
. OpenAI планує зробити їх широко доступними в ChatGPT, Codex та API «найближчими тижнями»
.
OpenAI чітко заявила, що розглядає підхід з обмеженням доступу за участю уряду як тимчасовий захід: «Ми віримо в широкий доступ, і цей процес не повинен стати довгостроковим стандартом» . У внутрішній записці генеральний директор Сем Альтман повідомив співробітникам, що уряд «схвалюватиме доступ клієнта за клієнтом протягом цього попереднього періоду», сподіваючись на ширший реліз через кілька тижнів
.
Це стало результатом переговорів з Офісом національного кібердиректора та Офісом науково-технологічної політики , що відображає нову рамкову програму для фронтірних моделей, яка тестується адміністрацією Трампа
.
| Модель | Вхід / 1M токенів | Вихід / 1M токенів |
|---|---|---|
| GPT-5.6 Sol | $5.00 | $30.00 |
| GPT-5.6 Terra | $2.50 | $15.00 |
| GPT-5.6 Luna | $1.00 | $6.00 |
Ціна Sol збігається з ціною GPT-5.5, тоді як Terra приблизно вдвічі дешевша за GPT-5.5 . Для контексту, Sol коштує ближче до Claude Opus 4.8 ($5/$25), ніж до обмеженої Mythos 5 від Anthropic ($10/$50)
.
OpenAI також оголосила, що GPT-5.6 Sol буде розгорнуто на обладнанні Cerebras у липні зі швидкістю висновків до 750 токенів на секунду
.
Сімейство GPT-5.6 знаменує значний відхід від попередніх релізів OpenAI. Трирівневе пакування (Sol, Terra, Luna) запроваджує довговічний брендинг, який відокремлює серію моделей від рівнів можливостей. Результати бенчмарків — особливо рекордний показник Sol у кодуванні на Terminal-Bench 2.1 та її ефективність на ExploitBench — демонструють значний прогрес, особливо в кібербезпеці та біології. Але найвизначальнішою рисою цього запуску, можливо, є вимоги уряду щодо обмеження доступу, що представляє нову парадигму розгортання фронтірного ШІ.
Comments
0 comments