OpenAI memposisikan GPT-5.6 Sol sebagai garis depan baru di tiga domain utama: coding, biologi, dan keamanan siber .
Terminal-Bench 2.1 menguji alur kerja command-line yang membutuhkan perencanaan multi-langkah, koordinasi alat, dan iterasi . Tolok ukur ini memiliki 89 tugas pemrograman yang kompleks
. Hasilnya meliputi:
| Model | Skor |
|---|---|
| GPT-5.6 Sol Ultra | 91,9% |
| GPT-5.6 Sol (maks) | 88,8% |
| Claude Mythos 5 | 88,0% |
| GPT-5.6 Terra | 84,3% |
| Claude Fable 5 | 84,3% |
| GPT-5.5 | 83,4% |
| GPT-5.6 Luna | 82,5% |
GPT-5.6 Sol Ultra mencetak rekor baru (state of the art) di angka 91,9% . Skor standar Sol 88,8% mengungguli model terbatas Anthropic, Claude Mythos 5, di 88,0% hampir satu poin penuh
.
Pada GeneBench v1, sebuah tolok ukur yang mengevaluasi analisis genomik dan biologi kuantitatif jangka panjang, OpenAI melaporkan bahwa Sol mencapai hasil yang lebih kuat daripada GPT-5.5 sambil menggunakan lebih sedikit token output . Ini mewakili peningkatan efisiensi yang berarti untuk alur kerja penelitian ilmiah.
Pada ExploitBench, tolok ukur penelitian keamanan siber, GPT-5.6 Sol hampir menyamai performa Mythos Preview milik Anthropic sambil menggunakan kira-kira sepertiga token output .
Pada ExploitGym, sebuah tolok ukur yang dibangun oleh peneliti UC Berkeley bekerja sama dengan OpenAI dan laboratorium AI terdepan lainnya, ketiga model GPT-5.6 menunjukkan peningkatan kemampuan keamanan siber seiring dengan meningkatnya kemampuan penalaran .
Yang penting, OpenAI menyatakan bahwa GPT-5.6 Sol tidak melampaui ambang batas Cyber Critical berdasarkan Preparedness Framework . Dalam evaluasi yang melibatkan Chromium dan Firefox, model tersebut mengidentifikasi bug dan primitif eksploitasi — blok bangunan eksploit — tetapi tidak secara otonom menghasilkan eksploit rantai penuh yang fungsional dalam kondisi yang diuji
. Seluruh seri model GPT-5.6 secara internal dinilai berisiko "Tinggi" (High) (untuk kemampuan keamanan siber dan senjata biologis) tetapi bukan level tertinggi "Kritis" (Critical)
.
OpenAI mengatakan GPT-5.6 Sol diluncurkan dengan "tumpukan keamanan paling kokoh yang pernah ada" . Pendekatan keamanan ini meliputi:
Selama pratinjau, beberapa prompt mungkin diperlambat atau diblokir untuk peninjauan tambahan saat OpenAI menyempurnakan tingkat false-positive dan false-negative .
Peluncuran GPT-5.6 tidak seperti rilis OpenAI sebelumnya. Atas permintaan pemerintah AS, OpenAI awalnya membatasi akses ke sekelompok kecil mitra dan organisasi tepercaya — Axios melaporkan bahwa pratinjau ini mencakup sekitar 20 perusahaan yang disetujui — sementara model tersebut menjalani tinjauan keamanan nasional tambahan .
Pratinjau ini bukanlah program swalayan yang luas. Selama periode ini, GPT-5.6 Sol, Terra, dan Luna hanya tersedia melalui API dan Codex OpenAI untuk kelompok terbatas ini . Model-model tersebut tidak tersedia di ChatGPT selama pratinjau
. OpenAI mengatakan ketersediaan yang lebih luas di ChatGPT, Codex, dan API direncanakan "dalam beberapa minggu mendatang"
.
OpenAI dengan jelas menyatakan bahwa pendekatan yang dikendalikan pemerintah ini bersifat sementara: "Kami percaya pada akses yang luas, dan proses ini tidak boleh menjadi default jangka panjang" . Dalam memo internal, CEO Sam Altman memberi tahu staf bahwa pemerintah akan "menyetujui akses pelanggan per pelanggan selama periode pratinjau ini," dengan harapan rilis yang lebih luas dalam beberapa minggu kemudian
.
Hal ini muncul dari pembicaraan dengan Office of the National Cyber Director dan Office of Science and Technology Policy , yang mencerminkan kerangka kerja model baru (frontier-model framework) yang sedang diuji oleh pemerintahan Trump
.
| Model | Input per 1M token | Output per 1M token |
|---|---|---|
| GPT-5.6 Sol | $5,00 | $30,00 |
| GPT-5.6 Terra | $2,50 | $15,00 |
| GPT-5.6 Luna | $1,00 | $6,00 |
Harga Sol sama dengan harga GPT-5.5, sementara Terra kira-kira 2x lebih murah daripada GPT-5.5 . Sebagai konteks, Sol dibanderol lebih dekat ke Claude Opus 4.8 ($5/$25) daripada Mythos 5 milik Anthropic yang dibatasi ($10/$50)
.
GPT-5.6 memperkenalkan prompt caching yang lebih dapat diprediksi dengan beberapa perubahan penting :
OpenAI juga mengumumkan bahwa GPT-5.6 Sol akan diterapkan pada perangkat keras Cerebras pada bulan Juli , dengan kecepatan inferensi hingga 750 token per detik
.
Keluarga GPT-5.6 menandai perubahan signifikan dari peluncuran OpenAI sebelumnya. Kemasan tiga tingkat (Sol, Terra, Luna) memperkenalkan merek yang tahan lama yang memisahkan seri model dari tingkatan kemampuan. Hasil benchmark — terutama skor coding Sol yang menjadi yang terdepan di Terminal-Bench 2.1 dan peningkatan efisiensinya di ExploitBench — menunjukkan kemajuan yang berarti, terutama di bidang keamanan siber dan biologi. Namun, fitur yang paling menentukan dari peluncuran ini mungkin adalah pembatasan akses yang diwajibkan pemerintah, yang mewakili paradigma baru untuk penerapan AI kelas frontier.
Comments
0 comments