وضعت OpenAI نموذج GPT-5.6 Sol كحدود جديدة في ثلاثة مجالات رئيسية: البرمجة، وعلم الأحياء، والأمن السيبراني .
يختبر Terminal-Bench 2.1 سير عمل سطر الأوامر الذي يتطلب تخطيطًا متعدد الخطوات، وتنسيقًا للأدوات، وتكرارًا . يحتوي المعيار على 89 مهمة برمجة معقدة
. النتائج تشمل:
| النموذج | النتيجة |
|---|---|
| GPT-5.6 Sol Ultra | 91.9% |
| GPT-5.6 Sol (الحد الأقصى) | 88.8% |
| Claude Mythos 5 | 88.0% |
| GPT-5.6 Terra | 84.3% |
| Claude Fable 5 | 84.3% |
| GPT-5.5 | 83.4% |
| GPT-5.6 Luna | 82.5% |
حقق GPT-5.6 Sol Ultra أفضل أداء جديد على الإطلاق بنسبة 91.9% . نتيجة Sol القياسية البالغة 88.8% تتفوق على نموذج Anthropic المقيد، Claude Mythos 5، الذي سجل 88.0% بنقطة كاملة تقريبًا
.
في GeneBench v1، وهو معيار يقيم تحليلات الجينوم وعلم الأحياء الكمي طويلة الأمد، ذكرت OpenAI أن Sol حققت نتائج أقوى من GPT-5.5 مع استخدام عدد أقل من رموز الإخراج . يمثل هذا تحسنًا كبيرًا في الكفاءة لسير العمل البحثي العلمي.
في ExploitBench، وهو معيار أبحاث للأمن السيبراني، كاد GPT-5.6 Sol أن يطابق أداء Mythos Preview من Anthropic مع استخدام حوالي ثلث رموز الإخراج فقط .
في ExploitGym، وهو معيار طوره باحثون من جامعة كاليفورنيا في بيركلي بالتعاون مع OpenAI ومختبرات رائدة أخرى، أظهرت جميع نماذج GPT-5.6 الثلاثة قدرات أمن سيبراني محسنة مع زيادة القدرة على الاستدلال .
من المهم أن OpenAI ذكرت أن GPT-5.6 Sol لا يتجاوز عتبة Cyber Critical بموجب إطار الاستعداد الخاص بها . في التقييمات التي شملت متصفحي Chromium و Firefox، حدد النموذج الأخطاء وأوليات الاستغلال - اللبنات الأساسية للاستغلال - لكنه لم ينتج بشكل مستقل استغلالًا وظيفيًا كامل السلسلة في ظل الظروف التي تم اختبارها
. تم تقييم سلسلة نماذج GPT-5.6 الكاملة داخليًا على أنها عالية المخاطر (لقدرات الأمن السيبراني والأسلحة البيولوجية) ولكن ليس المستوى الأعلى "الحاسم"
.
أثناء المعاينة، قد يتم إبطاء أو حظر بعض المطالبات لمراجعة إضافية أثناء قيام OpenAI بضبط معدلات الإيجابيات والسلبيات الكاذبة .
يختلف طرح GPT-5.6 عن أي إصدار سابق لـ OpenAI. بناءً على طلب الحكومة الأمريكية، تقوم OpenAI في البداية بتقييد الوصول إلى مجموعة صغيرة من الشركاء والمنظمات الموثوقة - ذكرت Axios أن المعاينة تشمل حوالي 20 شركة معتمدة - بينما يخضع النموذج لمراجعات أمنية وطنية إضافية .
المعاينة ليست برنامج خدمة ذاتية واسع النطاق. خلال هذه الفترة، تتوفر نماذج GPT-5.6 Sol وTerra وLuna فقط من خلال OpenAI API و Codex لهذه المجموعة المحدودة . النماذج غير متاحة في ChatGPT أثناء المعاينة
. تخطط OpenAI لتوفيرها على نطاق أوسع في ChatGPT وCodex وAPI "في الأسابيع القادمة"
.
ذكرت OpenAI بوضوح أنها تعتبر النهج المقيد من الحكومة إجراءً مؤقتًا: "نحن نؤمن بالوصول الواسع، ولا ينبغي أن تصبح هذه العملية الوضع الافتراضي على المدى الطويل" . في مذكرة داخلية، أخبر الرئيس التنفيذي سام ألتمان الموظفين أن الحكومة ستوافق على الوصول عميلاً بعميل خلال فترة المعاينة هذه، على أن يأتي الإصدار الأوسع بعد أسبوعين
.
جاء ذلك نتيجة محادثات مع مكتب المدير الوطني للأمن السيبراني ومكتب سياسات العلوم والتكنولوجيا ، مما يعكس إطارًا جديدًا للنموذج الرائد يتم اختباره من قبل إدارة ترامب
.
| النموذج | الإدخال / 1 مليون رمز | الإخراج / 1 مليون رمز |
|---|---|---|
| GPT-5.6 Sol | $5.00 | $30.00 |
| GPT-5.6 Terra | $2.50 | $15.00 |
| GPT-5.6 Luna | $1.00 | $6.00 |
تطابق تسعيرة Sol تسعيرة GPT-5.5، بينما Terra أرخص بحوالي مرتين من GPT-5.5 . للسياق، سعر Sol أقرب إلى Claude Opus 4.8 ($5/$25) منه إلى Mythos 5 المقيد من Anthropic ($10/$50)
.
أعلنت OpenAI أيضًا أنه سيتم نشر GPT-5.6 Sol على أجهزة Cerebras في يوليو ، بسرعات استدلال تصل إلى 750 رمزًا في الثانية
.
تمثل عائلة GPT-5.6 انحرافًا كبيرًا عن إصدارات OpenAI السابقة. يُدخل التجميع ثلاثي المستويات (Sol وTerra وLuna) علامة تجارية دائمة تفصل سلسلة النموذج عن مستويات القدرات. تُظهر نتائج المعايير - وخاصة درجة Sol الرائدة على مستوى العالم في Terminal-Bench 2.1 ومكاسب الكفاءة في ExploitBench - تقدمًا كبيرًا، خاصة في الأمن السيبراني وعلم الأحياء. لكن السمة الأكثر تحديدًا لهذا الإطلاق قد تكون قيود الوصول التي تطلبها الحكومة، والتي تمثل نموذجًا جديدًا لنشر الذكاء الاصطناعي الرائد.
Comments
0 comments