OpenAI ने GPT-5.6 Sol को तीन प्रमुख डोमेन में एक नई फ्रंटियर के रूप में स्थापित किया: कोडिंग, बायोलॉजी और साइबर सिक्योरिटी .
Terminal-Bench 2.1 कमांड-लाइन वर्कफ़्लो का परीक्षण करता है, जिसके लिए मल्टी-स्टेप प्लानिंग, टूल कोऑर्डिनेशन और पुनरावृत्ति की आवश्यकता होती है . बेंचमार्क में 89 जटिल प्रोग्रामिंग कार्य हैं
. परिणामों में शामिल हैं:
| मॉडल | स्कोर |
|---|---|
| GPT-5.6 Sol Ultra | 91.9% |
| GPT-5.6 Sol (max) | 88.8% |
| Claude Mythos 5 | 88.0% |
| GPT-5.6 Terra | 84.3% |
| Claude Fable 5 | 84.3% |
| GPT-5.5 | 83.4% |
| GPT-5.6 Luna | 82.5% |
GPT-5.6 Sol Ultra ने 91.9% पर एक नया स्टेट ऑफ द आर्ट स्थापित किया . 88.8% का मानक Sol स्कोर, Anthropic के प्रतिबंधित फ्रंटियर मॉडल, Claude Mythos 5 (88.0%) को लगभग एक पूरे अंक से पीछे छोड़ देता है
.
GeneBench v1 पर, जो लंबी अवधि के जीनोमिक्स और मात्रात्मक जीवविज्ञान विश्लेषण कार्यों का मूल्यांकन करता है, OpenAI की रिपोर्ट है कि Sol ने कम आउटपुट टोकन का उपयोग करते हुए GPT-5.5 से अधिक मजबूत परिणाम प्राप्त किए . यह वैज्ञानिक अनुसंधान वर्कफ़्लो के लिए एक सार्थक दक्षता में सुधार का प्रतिनिधित्व करता है।
एक साइबर सिक्योरिटी रिसर्च बेंचमार्क ExploitBench पर, GPT-5.6 Sol ने लगभग एक-तिहाई आउटपुट टोकन का उपयोग करते हुए, Anthropic के Mythos Preview के प्रदर्शन को लगभग मैच किया .
ExploitGym पर, UC बर्कले के शोधकर्ताओं द्वारा OpenAI और अन्य फ्रंटियर AI लैब्स के सहयोग से बनाया गया एक बेंचमार्क, सभी तीन GPT-5.6 मॉडलों ने रीज़निंग बढ़ने के साथ साइबर सिक्योरिटी क्षमताओं में सुधार दिखाया .
महत्वपूर्ण बात यह है कि OpenAI का कहना है कि GPT-5.6 Sol अपने Preparedness Framework के तहत Cyber Critical थ्रेशोल्ड को पार नहीं करता है . Chromium और Firefox से जुड़े मूल्यांकनों में, मॉडल ने बग्स और एक्सप्लॉइटेशन प्रिमिटिव्स — एक एक्सप्लॉइट के बिल्डिंग ब्लॉक्स — की पहचान की, लेकिन परीक्षण की गई शर्तों के तहत स्वायत्त रूप से एक कार्यात्मक पूर्ण-श्रृंखला एक्सप्लॉइट का उत्पादन नहीं किया
. पूरी GPT-5.6 मॉडल श्रृंखला को आंतरिक रूप से 'High' जोखिम (साइबर सिक्योरिटी और जैव-हथियार क्षमताओं के लिए) के रूप में रेट किया गया था, न कि सबसे उच्च 'Critical' स्तर के रूप में
.
OpenAI का कहना है कि GPT-5.6 Sol अपने 'अब तक के सबसे मजबूत सुरक्षा स्टैक' के साथ लॉन्च हो रहा है . सुरक्षा दृष्टिकोण में शामिल हैं:
प्रीव्यू के दौरान, जैसे-जैसे OpenAI फ़ाल्स-पॉज़िटिव और फ़ाल्स-नेगेटिव दरों को ठीक करता है, कुछ प्रॉम्प्ट को अतिरिक्त समीक्षा के लिए धीमा या ब्लॉक किया जा सकता है .
GPT-5.6 का रोलआउट पिछले किसी भी OpenAI रिलीज़ से अलग है। अमेरिकी सरकार के अनुरोध पर, OpenAI शुरू में विश्वसनीय भागीदारों और संगठनों के एक छोटे समूह तक पहुँच को सीमित कर रहा है — Axios ने बताया कि प्रीव्यू में लगभग 20 अनुमोदित कंपनियाँ शामिल हैं — जबकि मॉडल अतिरिक्त राष्ट्रीय सुरक्षा समीक्षाओं से गुज़र रहा है .
प्रीव्यू एक व्यापक सेल्फ़-सर्विस प्रोग्राम नहीं है। इस अवधि के दौरान, GPT-5.6 Sol, Terra और Luna केवल OpenAI API और Codex के माध्यम से इस सीमित समूह के लिए उपलब्ध हैं . प्रीव्यू के दौरान मॉडल ChatGPT में उपलब्ध नहीं हैं
. OpenAI का कहना है कि आने वाले हफ़्तों में ChatGPT, Codex और API में व्यापक उपलब्धता की योजना है
.
OpenAI ने स्पष्ट रूप से कहा कि वह सरकार-गेटेड दृष्टिकोण को एक अस्थायी उपाय मानता है: 'हम व्यापक पहुंच में विश्वास करते हैं, और यह प्रक्रिया दीर्घकालिक डिफ़ॉल्ट नहीं बननी चाहिए' . एक आंतरिक मेमो में, सीईओ सैम ऑल्टमैन ने कर्मचारियों से कहा कि सरकार 'इस प्रीव्यू अवधि के दौरान ग्राहक द्वारा ग्राहक तक पहुंच को मंजूरी दे रही है', कुछ हफ़्ते बाद व्यापक रिलीज़ की उम्मीद है
.
यह Office of the National Cyber Director और Office of Science and Technology Policy के साथ बातचीत से हुआ , जो ट्रम्प प्रशासन द्वारा परीक्षण किए जा रहे एक नए फ्रंटियर-मॉडल फ्रेमवर्क को दर्शाता है
.
| मॉडल | इनपुट / 1M टोकन | आउटपुट / 1M टोकन |
|---|---|---|
| GPT-5.6 Sol | $5.00 | $30.00 |
| GPT-5.6 Terra | $2.50 | $15.00 |
| GPT-5.6 Luna | $1.00 | $6.00 |
Sol की कीमत GPT-5.5 की कीमत से मेल खाती है, जबकि Terra GPT-5.5 की तुलना में लगभग 2x सस्ता है . संदर्भ के लिए, Sol की कीमत Claude Opus 4.8 ($5/$25) की तुलना में Anthropic के प्रतिबंधित Mythos 5 ($10/$50) के ज़्यादा करीब है
.
OpenAI ने यह भी घोषणा की कि GPT-5.6 Sol को जुलाई में Cerebras हार्डवेयर पर परिनियोजित किया जाएगा , जिसकी इन्फ्रेंस स्पीड 750 टोकन प्रति सेकंड तक होगी
.
GPT-5.6 परिवार पिछले OpenAI लॉन्च से एक महत्वपूर्ण विचलन है। तीन-स्तरीय पैकेजिंग (Sol, Terra, Luna) टिकाऊ ब्रांडिंग का परिचय देती है जो मॉडल श्रृंखला को क्षमता स्तरों से अलग करती है। बेंचमार्क परिणाम — विशेष रूप से Terminal-Bench 2.1 पर Sol का स्टेट-ऑफ़-द-आर्ट कोडिंग स्कोर और ExploitBench पर इसकी दक्षता लाभ — विशेष रूप से साइबर सुरक्षा और जीव विज्ञान में सार्थक प्रगति प्रदर्शित करते हैं। लेकिन इस लॉन्च की सबसे परिभाषित विशेषता सरकार-आवश्यक पहुंच प्रतिबंध हो सकती है, जो फ्रंटियर AI परिनियोजन के लिए एक नए प्रतिमान का प्रतिनिधित्व करती है।
Comments
0 comments