הערכות בקהילה מצביעות על חלון השקה אפשרי בין 15 ביוני ל-5 ביולי 2026, אך לוח זמנים זה הוא אקסטרפולציה טהורה מהתצפיות ביומנים ואין לו גיבוי רשמי . לא צפו נתוני תמחור, יעילות טוקנים או יכולות מולטי-מודאליות מאושרות עבור ה-GPT‑5.6 ההיפותטי; הציפייה לשיפור בעלות-תועלת ויצירת טקסט-ועוד-תמונה היא היקש מהמסלול של משפחת 5.x, ולא מפרט מתועד
.
שורה תחתונה: GPT‑5.6 הוא הדלפה אמינה, לא מוצר. התעשייה עוקבת אחר התנהגות המערכת, אבל OpenAI לא פרסמה תאריך השקה או גיליון מפרט טכני .
הביטוי "Mythos Benchmark" מופיע במספר הקשרים נפרדים, מה שעלול ליצור בלבול:
הדלפת מודל Claude Mythos של אנתרופיק (26 במרץ 2026): תקלה במערכת ניהול התוכן של אנתרופיק חשפה בטעות כ-3,000 מסמכים פנימיים, כולל טיוטת פוסט על מודל מהדור הבא בשם קוד "Capybara" ובשם רשמי Claude Mythos . מדדים פנימיים שהודלפו הראו ש-Mythos השיג 93.9% ב-SWE‑bench Verified ו-77.8% ב-SWE‑bench Pro, כשהוא מוביל כל מדד קידוד מרכזי באותה תקופה
. ב-7 באפריל 2026, אנתרופיק הכריזה רשמית על Claude Mythos Preview – אך במקביל הצהירה שהציבור אינו יכול להשתמש בו
. המודל סומן גם כבעל יכולות סייבר יוצאות דופן, כולל מציאת באג בן 27 שנים ב-OpenBSD
.
מדד אבטחה של אוניברסיטת קרנגי מלון (מאי 2026): חוקרי CMU יצרו הערכה נפרדת הבוחנת האם מודלי בינה מלאכותית יכולים לפתח באופן אוטונומי ניצולים אמיתיים לדפדפן המכוונים למנוע V8 של גוגל. גם Claude Mythos וגם GPT‑5.5 הוכיחו יכולת לגלות ולהפוך פרצות אבטחה אמיתיות לנשק ללא התערבות אנושית, כאשר Mythos עלה בביצועיו על GPT‑5.5 בפער משמעותי, אך עלות ההפעלה שלו הייתה גבוהה פי שנים-עשר בערך .
מדד הפגיעויות Mythos של SecureAI (ינואר 2026): סוויטת מדדים ממוקדת סייבר המכסה CVEs מ-2023–2026, המיועדת להעריך גלאי פגיעויות בינה מלאכותית, ומשתמשת במודלים גדולים כמו Llama‑3.1‑405B כקווי בסיס .
כאשר מישהו מזכיר את "הדלפת מדד Mythos", הוא בדרך כלל מתייחס להדלפת המודל של אנתרופיק. המדדים של CMU ו-SecureAI הם מאמצים נפרדים החולקים את התווית "Mythos" באופן מקרי בלבד.
ב-2 ביוני 2026, באירוע "Intelligence at Work" שלה, הכריזה OpenAI על הרחבה מבנית של Codex מסוכן קידוד ממוקד מפתחים לפלטפורמת עבודה ארגונית רחבה יותר . שלושת עמודי התווך המאושרים של ההכרזה הם:
OpenAI גם אישרה ש-Codex חצה את רף 5 מיליון המשתמשים הפעילים השבועיים . ההרחבה מייצגת מהלך אסטרטגי ברור ללכוד עובדי ידע שאינם מפתחים בתוך הארגון, כיוון שמספר ניתוחים עצמאיים זיהו אותו כציר תחרות ישיר מול כלים שהתמקדו קודם לכן כמעט אך ורק בצוותי הנדסה
.
בכנס Build השנתי שלה בסן פרנסיסקו ב-2 ביוני 2026, הציגה מיקרוסופט משפחה של שבעה מודלי בינה מלאכותית פנימיים תחת המותג המאוחד MAI (Microsoft AI), לצד חומרה חדשה .
גולת הכותרת היא MAI‑Thinking‑1, מודל ההסקה הראשון של החברה:
ששת המודלים האחרים משלימים אקו-סיסטם מולטי-מודאלי:
הכרזות החומרה כללו את Surface RTX Spark Dev Box, מחשב פיתוח AI קומפקטי המסוגל להגיע עד פטה-פלופ אחד של חישוב AI עם 128 ג'יגה-בייט של זיכרון מאוחד, המיועד להריץ מודלים של עד 120 מיליארד פרמטרים באופן מקומי . מיקרוסופט גם הציגה את השבב הקוונטי Majorana 2, המסמן האצה של שאיפות החומרה שלה מעבר לחישוב AI קלאסי
.
משפחת שבעת מודלי ה-MAI מתפרשת באופן נרחב כמהלך להפחתת התלות במודלים של OpenAI, תוך מתן חלופות פנימיות ללקוחות ארגוניים המגיעות עם רישוי מסחרי נקי .
"Vibe coding" – הפרקטיקה של יצירת אפליקציות שלמות באמצעות הנחיות שיחה במקום כתיבת תחביר – הולידה דור חדש של מדדים המנסים למדוד יכולת פול-סטאק ולא משימות קידוד מבודדות:
שלוש הפלטפורמות חולקות את המטרה להעביר את הערכת קידוד ה-AI מעבר למדדי שיעור הצלחה כמו SWE‑bench, אל עבר מדדים הוליסטיים של שמישות, מהירות, עלות ואבטחה.
ב-2 ביוני 2026, Nous Research שחררה את Hermes Desktop כתצוגה מקדימה ציבורית, מצורף ל-Hermes Agent v0.15.2 ומופץ תחת רישיון MIT עבור macOS 12+, Windows 10/11 ו-Linux .
עד כה, Hermes היה נגיש רק דרך ממשק שורת פקודה או שערי הודעות. יישומון שולחן העבודה הוא ממשק גרפי טבעי החולק את אותו ליבת סוכן, מפתחות API, סשנים, מיומנויות וזיכרון כמו ה-CLI, כך שמדובר במשטח חלופי ולא בפיצול .
Nous Research מתארת את Hermes כ"סוכן המשתפר מעצמו, לא טייס משנה לקידוד" . הסוכן צמח מהשקה לכ-180,000 כוכבים ב-GitHub תוך כשלושה חודשים, מה שהופך אותו לאחד מפרויקטי הסוכנים בקוד פתוח הצומחים ביותר באקו-סיסטם
.
עליבאבא השיקה את Qwen 3.7 Plus בסביבות 1–2 ביוני 2026. זהו מודל סוכן מולטי-מודאלי המעבד טקסט, תמונות ווידאו באמצעות אימון early-fusion, עם חלון הקשר של מיליון טוקנים .
התמחור נקבע על כשישית מהעלות לטוקן של מודל הטקסט-בלבד של עליבאבא Qwen 3.7 Max, מה שהופך אותו לאחד מהסוכנים המולטי-מודאליים במחיר האגרסיבי ביותר בשוק . במדדי ביצועי סוכנים, Qwen 3.7 Plus מנצח את Claude Opus 4.6 ב-Terminal‑Bench 2.0 ומסוגל לזיהוי/אוטומציה של ממשק משתמש, יצירת קוד מתמונות ומענה על שאלות ויזואליות
.
Claude Code הוא כלי הקידוד הסוכני של אנתרופיק שעובד ישירות בטרמינל, מריץ פקודות מעטפת ועורך קבצים על מחשב המפתח. פקודת /fork יוצרת סשן חדש המסתעף מסשן קיים, המאוחסן תחת commands/branch/, ומאפשרת תהליך עבודה שבו מפתחים יכולים לחקור כיוון שונה מבלי לאבד את ההקשר מהסשן המקורי .
Claude Code הפך לאחד מכלי הפיתוח ל-AI הנפוצים ביותר, כאשר אזכור אחד בחבילת npm צבר למעלה מ-1,100 כוכבים ו-1,900 forks ביום אחד .
למספר פריטים בשאילתה המקורית אין אישור ישיר ממקורות נכון לתחילת יוני 2026:
הנושאים הדומיננטיים של השבוע הראשון של יוני 2026 הם כלי עבודה ארגוניים (תוספי Codex ו-Sites), משפחות מודלים פנימיות (מערך ה-MAI של מיקרוסופט, Qwen של עליבאבא), בשלות סוכני קוד פתוח (Hermes Desktop), ודור המשך מתקרב שעדיין אינו ציבורי (GPT‑5.6, Claude Mythos). התעשייה נעה מהר – אבל ההבחנה בין מוצרים מאושרים לשמועות לא מאושרות חדה יותר ממה שהכותרות מרמזות לעיתים קרובות.
Comments
0 comments