Terminal-Bench 2.1 בודק זרימות עבודה בשורת הפקודה הדורשות תכנון רב-שלבי, תיאום כלים ואיטרציה . המדד כולל 89 משימות תכנות מורכבות
. התוצאות כוללות:
| מודל | ציון |
|---|---|
| GPT-5.6 Sol Ultra | 91.9% |
| GPT-5.6 Sol (max) | 88.8% |
| Claude Mythos 5 | 88.0% |
| GPT-5.6 Terra | 84.3% |
| Claude Fable 5 | 84.3% |
| GPT-5.5 | 83.4% |
| GPT-5.6 Luna | 82.5% |
GPT-5.6 Sol Ultra קבע שיא חדש עם 91.9% . הציון הסטנדרטי של Sol, 88.8%, גובר על מודל הקצה המוגבל של Anthropic, Claude Mythos 5, שעומד על 88.0%, בכמעט נקודה שלמה
.
ב-GeneBench v1, מדד להערכת משימות ארוכות טווח בגנומיקה וביולוגיה כמותית, OpenAI מדווחת כי Sol השיגה תוצאות חזקות יותר מ-GPT-5.5 תוך שימוש בפחות טוקני פלט . זהו שיפור משמעותי ביעילות עבור זרימות עבודה מחקריות מדעיות.
ב-ExploitBench, מדד מחקרי לאבטחת סייבר, GPT-5.6 Sol כמעט השוותה לביצועי Mythos Preview של Anthropic תוך שימוש בכ-שליש מטוקני הפלט .
ב-ExploitGym, מדד שנבנה על ידי חוקרי UC Berkeley בשיתוף עם OpenAI ומעבדות AI מובילות אחרות, כל שלושת דגמי GPT-5.6 הראו יכולות אבטחת סייבר משופרות ככל שהחשיבה (reasoning) גברה .
חשוב לציין, OpenAI מצהירה כי GPT-5.6 Sol אינה חוצה את סף ה-Cyber Critical במסגרת ה-Preparedness Framework שלה . בהערכות שכללו את Chromium ו-Firefox, המודל זיהה באגים ורכיבי ניצול (exploitation primitives) — אבני הבניין של ניצול — אך לא הפיק באופן אוטונומי ניצול שרשרת מלא (functional full-chain exploit) בתנאים שנבדקו
. סדרת GPT-5.6 המלאה דורגה פנימית כ"High" בסיכון (ליכולות אבטחת סייבר ונשק ביולוגי), אך לא ברמה הגבוהה ביותר, "Critical"
.
במהלך התצוגה המקדימה (preview), ייתכן שחלק מההנחיות יואטו או ייחסמו לבדיקה נוספת בזמן ש-OpenAI מכווננת את שיעורי החיובי השגוי והשלילי השגוי .
ההפצה של GPT-5.6 שונה מכל הפצה קודמת של OpenAI. לבקשת ממשלת ארה"ב, OpenAI מגבילה תחילה את הגישה לקבוצה קטנה של שותפים מהימנים וארגונים — Axios דיווחה כי התצוגה המקדימה כוללת כ-20 חברות מאושרות — בעוד המודל עובר בדיקות ביטחון לאומי נוספות .
התצוגה המקדימה אינה תוכנית שירות עצמי רחבה. במהלך תקופה זו, GPT-5.6 Sol, Terra ו-Luna זמינים רק דרך OpenAI API ו-Codex לקבוצה מוגבלת זו . המודלים אינם זמינים ב-ChatGPT במהלך התצוגה המקדימה
. OpenAI אומרת שזמינות רחבה יותר ב-ChatGPT, Codex וה-API מתוכננת "בשבועות הקרובים"
.
OpenAI הצהירה בבירור כי היא רואה בגישה המרוסנת על ידי הממשלה אמצעי זמני: "אנו מאמינים בגישה רחבה, ותהליך זה לא צריך להפוך לברירת המחדל לטווח הארוך" . במזכר פנימי, המנכ"ל סם אלטמן אמר לצוות כי הממשלה "תאשר גישה ללקוח אחר לקוח במהלך תקופת התצוגה המקדימה הזו", תוך תקווה לשחרור רחב יותר בעוד מספר שבועות
.
זה בא בעקבות שיחות עם משרד הממונה הלאומי על הסייבר (Office of the National Cyber Director) ומשרד מדיניות המדע והטכנולוגיה (Office of Science and Technology Policy) , תוך שיקוף של מסגרת חדשה למודלי קצה הנבחנת על ידי ממשל טראמפ
.
| מודל | קלט / 1M טוקנים | פלט / 1M טוקנים |
|---|---|---|
| GPT-5.6 Sol | $5.00 | $30.00 |
| GPT-5.6 Terra | $2.50 | $15.00 |
| GPT-5.6 Luna | $1.00 | $6.00 |
התמחור של Sol תואם את התמחור של GPT-5.5, בעוד Terra זול בערך פי 2 מ-GPT-5.5 . להקשר, Sol מתומחרת קרוב יותר ל-Claude Opus 4.8 ($5/$25) מאשר ל-Mythos 5 המוגבל של Anthropic ($10/$50)
.
OpenAI גם הודיעה כי GPT-5.6 Sol ייפרס על חומרת Cerebras ביולי , עם מהירויות הסקה של עד 750 טוקנים לשנייה
.
משפחת GPT-5.6 מסמנת סטייה משמעותית מהשקות קודמות של OpenAI. האריזה בשלוש שכבות (Sol, Terra, Luna) מציגה מיתוג עמיד המנתק את סדרת המודלים מדרגות היכולת. תוצאות המבחנים – במיוחד ציון שיא הקידוד של Sol ב-Terminal-Bench 2.1 ויעילותו ב-ExploitBench – מדגימות התקדמות משמעותית, במיוחד באבטחת סייבר וביולוגיה. אך המאפיין המגדיר ביותר של השקה זו עשוי להיות הגבלות הגישה שנדרשו על ידי הממשלה, המייצגות פרדיגמה חדשה לפריסת AI מתקדם.
Comments
0 comments