В ентузіастів є припущення, що анонс може відбутися в період між 15 червня та 5 липня 2026 року, але це лише екстраполяція на основі логів . Жодних конкретних цифр щодо вартості, ефективності токенів чи підтверджених мультимодальних можливостей (як-от генерація тексту та зображень одночасно) наразі немає. Очікування кращої економічності та продуктивності — це лише прогноз, заснований на розвитку попередніх моделей сімейства 5.x
.
Суть: GPT‑5.6 — це правдоподібний витік, а не готовий продукт. Індустрія спостерігає за поведінкою бекенду, але OpenAI не публікувала ані дати запуску, ані технічних специфікацій .
Термін «Mythos Benchmark» може ввести в оману, адже він стосується одразу кількох різних явищ:
Витік моделі Claude Mythos від Anthropic (26 березня 2026 року): Через помилку в конфігурації системи управління контентом Anthropic випадково відкрила доступ до близько 3000 внутрішніх документів. Серед них була чернетка посту про модель нового покоління під кодовою назвою «Capybara», офіційно — Claude Mythos . Витік внутрішніх бенчмарків показав, що Mythos досягає 93,9% на SWE‑bench Verified та 77,8% на SWE‑bench Pro, випереджаючи всіх конкурентів
. 7 квітня 2026 року Anthropic офіційно анонсувала Claude Mythos Preview, але водночас заявила, що загальний доступ до моделі закритий
. Також було зазначено, що модель має виняткові здібності у сфері кібербезпеки, зокрема знайшла 27-річну помилку в OpenBSD
.
Бенчмарк безпеки від Університету Карнегі-Меллон (травень 2026 року): Дослідники створили окреме випробування, яке перевіряє здатність ШІ-моделей автономно створювати реальні експлойти для браузерів на рушії Google V8. І Claude Mythos, і GPT‑5.5 виявилися здатними знаходити та використовувати справжні вразливості без участі людини, причому Mythos значно перевершила GPT‑5.5, хоч і коштувала приблизно в дванадцять разів дорожче в роботі .
Бенчмарк вразливостей SecureAI Mythos (січень 2026 року): Це набір тестів на основі CVE за 2023–2026 роки для оцінки детекторів вразливостей на базі ШІ, який використовує моделі рівня Llama‑3.1‑405B як базовий стандарт .
Коли ви чуєте про «злив Mythos Benchmark», майже напевно йдеться про витік моделі від Anthropic. Бенчмарки від CMU та SecureAI лише випадково мають схожу назву.
2 червня 2026 року на заході «Intelligence at Work» OpenAI оголосила про структурне розширення Codex — з помічника для кодингу до повноцінної робочої платформи для підприємств . Ось три підтверджені ключові нововведення:
Також OpenAI підтвердила, що кількість щотижневих активних користувачів Codex перетнула позначку в 5 мільйонів . Це розширення напряму націлене на нефахових працівників розумової праці всередині компаній і є прямим конкурентом інструментам, які раніше орієнтувалися виключно на інженерів
.
«Vibe coding» — підхід, коли застосунок генерується через опис завдання природною мовою, без написання коду вручну, — породив нове покоління бенчмарків. Вони намагаються оцінити не просто вміння писати функції, а здатність створити повноцінний, працюючий продукт:
Усі три платформи намагаються вийти за рамки сухих відсотків виконання тестів, зосереджуючись на практичній користі, швидкості та безпеці.
2 червня 2026 року Nous Research випустила публічну попередню версію Hermes Desktop. Застосунок постачається разом із Hermes Agent v0.15.2, розповсюджується за ліцензією MIT і доступний на macOS 12+, Windows 10/11 та Linux .
Досі Hermes існував лише як інструмент командного рядка або чат-бот. Тепер це повноцінний графічний інтерфейс, який використовує те саме ядро, ключі API, сесії, навички та пам’ять, що й CLI. Тобто це альтернативний спосіб взаємодії, а не нова версія .
Самі творці називають Hermes «самовдосконалюваним агентом, а не помічником для кодингу» . Менш ніж за три місяці проєкт зібрав близько 180 000 зірок на GitHub, що робить його одним із найдинамічніших відкритих агентів у світі
.
На своїй щорічній конференції Build у Сан-Франциско 2 червня 2026 року Microsoft представила сім власних моделей ШІ під єдиним брендом MAI (Microsoft AI) та нове обладнання .
Центральний елемент — це MAI‑Thinking‑1, перша модель логічного мислення від Microsoft:
Разом із нею були представлені ще шість моделей, що утворюють повноцінну мультимодальну екосистему: для генерації зображень, транскрибування, синтезу мовлення та кодингу .
Серед заліза виділяється Surface RTX Spark Dev Box — компактний десктоп для ШІ-розробників із продуктивністю до одного петафлопса та 128 ГБ уніфікованої пам’яті, здатний запускати моделі до 120 мільярдів параметрів локально . Також було анонсовано квантовий чип Majorana 2
.
Експерти сходяться на думці, що цей запуск — стратегічний крок для зменшення залежності від моделей OpenAI та пропозиція бізнесу власних рішень із прозорим ліцензуванням .
Alibaba теж не залишилася осторонь, запустивши 1–2 червня модель Qwen 3.7 Plus. Це мультимодальний агент, що обробляє текст, зображення та відео, з контекстним вікном в 1 млн токенів . Її ціна — приблизно одна шоста від вартості текстової Qwen 3.7 Max, що робить її одним із найбільш агресивно оцінених мультимодальних рішень на ринку
. За продуктивністю вона перевершує Claude Opus 4.6 на бенчмарку Terminal‑Bench 2.0
.
Anthropic тим часом продовжує розвивати свій термінальний інструмент Claude Code. Його ключова особливість — команда /fork, яка дозволяє створити «відгалуження» сесії, щоб досліджувати новий напрямок, не втрачаючи контексту оригінальної роботи .
Попри насиченість новин, деякі пункти залишаються без підтвердження:
Головні теми першого тижня червня 2026 року — це експансія ШІ в корпоративний сектор (плагіни Codex, Codex Sites), створення власних сімейств моделей (Microsoft MAI, Alibaba Qwen), зрілість відкритих агентів (Hermes Desktop) і відчуття того, що наступне покоління вже на порозі, хоч поки й не для всіх (GPT‑5.6, Claude Mythos). Ринок рухається швидко, але межа між доведеним фактом і непідтвердженою чуткою зараз тонша, ніж будь-коли.
Comments
0 comments