OpenAI meletakkan GPT-5.6 Sol sebagai sempadan baharu dalam tiga domain utama: pengekodan, biologi, dan keselamatan siber .
Terminal-Bench 2.1 menguji aliran kerja baris arahan yang memerlukan perancangan pelbagai langkah, koordinasi alat, dan lelaran . Penanda aras ini mengandungi 89 tugasan pengaturcaraan yang kompleks
. Keputusan termasuk:
| Model | Skor |
|---|---|
| GPT-5.6 Sol Ultra | 91.9% |
| GPT-5.6 Sol (maks) | 88.8% |
| Claude Mythos 5 | 88.0% |
| GPT-5.6 Terra | 84.3% |
| Claude Fable 5 | 84.3% |
| GPT-5.5 | 83.4% |
| GPT-5.6 Luna | 82.5% |
GPT-5.6 Sol Ultra menetapkan keadaan seni baharu pada 91.9% . Skor Sol standard 88.8% mengatasi Claude Mythos 5 daripada Anthropic pada 88.0% hampir satu mata penuh
.
Pada GeneBench v1, penanda aras yang menilai analisis genomik jangka panjang dan biologi kuantitatif, OpenAI melaporkan bahawa Sol mencapai keputusan yang lebih kuat daripada GPT-5.5 sambil menggunakan lebih sedikit token output . Ini mewakili peningkatan kecekapan yang bermakna untuk aliran kerja penyelidikan saintifik.
Pada ExploitBench, penanda aras penyelidikan keselamatan siber, GPT-5.6 Sol hampir menyamai prestasi Mythos Preview daripada Anthropic sambil menggunakan kira-kira satu pertiga token output .
Pada ExploitGym, penanda aras yang dibina oleh penyelidik UC Berkeley dengan kerjasama OpenAI dan makmal AI peringkat hadapan yang lain, ketiga-tiga model GPT-5.6 menunjukkan peningkatan keupayaan keselamatan siber apabila penaakulan meningkat .
Penting untuk dinyatakan, OpenAI menyatakan bahawa GPT-5.6 Sol tidak melepasi ambang Kritikal Siber (Cyber Critical) di bawah Rangka Kerja Kesiapsediaan (Preparedness Framework) . Dalam penilaian yang melibatkan Chromium dan Firefox, model tersebut mengenal pasti pepijat dan primitif eksploitasi — blok binaan eksploit — tetapi tidak menghasilkan eksploitasi rantaian penuh yang berfungsi secara autonomi di bawah keadaan yang diuji
. Keseluruhan siri model GPT-5.6 dinilai secara dalaman sebagai risiko "Tinggi" (untuk keupayaan keselamatan siber dan senjata biologi) tetapi bukan tahap "Kritikal" tertinggi
.
OpenAI mengatakan GPT-5.6 Sol dilancarkan dengan "timbunan keselamatan paling mantap setakat ini" . Pendekatan keselamatan termasuk:
Semasa pratonton, beberapa gesaan mungkin diperlahankan atau disekat untuk semakan tambahan sementara OpenAI memperhalusi kadar positif palsu dan negatif palsu .
Pelancaran GPT-5.6 tidak seperti sebarang pelancaran OpenAI sebelum ini. Atas permintaan kerajaan AS, OpenAI pada mulanya menghadkan akses kepada sekumpulan kecil rakan kongsi dan organisasi yang dipercayai — Axios melaporkan bahawa pratonton itu merangkumi kira-kira 20 syarikat yang diluluskan — sementara model tersebut menjalani semakan keselamatan negara tambahan .
Pratonton ini bukanlah program layan diri yang luas. Dalam tempoh ini, GPT-5.6 Sol, Terra, dan Luna hanya tersedia melalui OpenAI API dan Codex kepada kumpulan terhad ini . Model-model ini tidak tersedia dalam ChatGPT semasa pratonton
. OpenAI mengatakan ketersediaan yang lebih luas dalam ChatGPT, Codex, dan API dirancang "dalam beberapa minggu akan datang"
.
OpenAI menyatakan dengan jelas bahawa ia menganggap pendekatan terkawal kerajaan sebagai langkah sementara: "Kami percaya pada akses yang luas, dan proses ini tidak seharusnya menjadi lalai jangka panjang" . Dalam memo dalaman, CEO Sam Altman memberitahu kakitangan bahawa kerajaan akan "meluluskan akses pelanggan demi pelanggan semasa tempoh pratonton ini," dengan keluaran yang lebih luas diharapkan beberapa minggu kemudian
.
Ini hasil daripada perbincangan dengan Pejabat Pengarah Siber Nasional (Office of the National Cyber Director) dan Pejabat Dasar Sains dan Teknologi (Office of Science and Technology Policy) , mencerminkan rangka kerja model peringkat hadapan baharu yang sedang diuji oleh pentadbiran Trump
.
| Model | Input / 1M token | Output / 1M token |
|---|---|---|
| GPT-5.6 Sol | $5.00 | $30.00 |
| GPT-5.6 Terra | $2.50 | $15.00 |
| GPT-5.6 Luna | $1.00 | $6.00 |
Harga Sol sepadan dengan harga GPT-5.5, manakala Terra kira-kira 2x lebih murah daripada GPT-5.5 . Sebagai perbandingan, Sol berharga lebih dekat dengan Claude Opus 4.8 ($5/$25) berbanding Mythos 5 terhadap Anthropic ($10/$50)
.
OpenAI juga mengumumkan bahawa GPT-5.6 Sol akan dilaksanakan pada perkakasan Cerebras pada bulan Julai , dengan kelajuan inferens sehingga 750 token sesaat
.
Keluarga GPT-5.6 menandakan satu perubahan ketara daripada pelancaran OpenAI sebelum ini. Pembungkusan tiga tier (Sol, Terra, Luna) memperkenalkan penjenamaan tahan lama yang memisahkan siri model daripada tier kemampuan. Keputusan penanda aras — terutamanya skor pengekodan terkini Sol pada Terminal-Bench 2.1 dan keuntungan kecekapannya pada ExploitBench — menunjukkan kemajuan yang bermakna, terutamanya dalam keselamatan siber dan biologi. Tetapi ciri paling menentukan pelancaran ini mungkin adalah sekatan akses yang diperlukan kerajaan, yang mewakili paradigma baharu untuk pelaksanaan AI peringkat hadapan.
Comments
0 comments