Превью‑модели Alibaba Qwen3.7 заняли 13‑е место по текстовым задачам и 16‑е по задачам компьютерного зрения на платформе LM Arena, став самыми высоко оценёнными китайскими моделями на момент публикации.
Независимые тесты показывают, что Claude Mythos заметно усиливает возможности AI в кибербезопасности — особенно при поиске уязвимостей и выполнении сложных цепочек атак.
Grok 3 был выпущен в феврале 2025 года, а не 12 мая 2026 года; к весне 2026‑го модель уже считалась устаревающей.
Главная интрига ERNIE 5.1 — не размер модели, а заявленная эффективность: Baidu говорит о ведущей производительности в своём масштабе при примерно 6% затрат на предобучение сопоставимых моделей.
GPT 5.5 Cyber, по открытым сообщениям, — закрытый preview OpenAI для проверенных киберзащитников, а не массовая модель ChatGPT/API; она более permissive для задач ИБ, но не описана как резкий скачок сверх GP...
Официальных данных о выпуске или подтверждённом тестировании gemini 3.2 flash пока нет: документы Google подтверждают Gemini 3 Flash и ряд 3.1 preview моделей, а не Gemini 3.2 Flash.[1][3][4]
DeepSeek V4 действительно вышла в виде предварительного релиза 24 апреля 2026 года, но источники не подтверждают, что она «разоблачила» или запустила релиз GPT 5.6 [2][15].
Claude Opus 4.7 лучше всего подтвержден публичными данными для coding и агентных задач: Vals AI дает ему 82,00% в SWE bench, а Anthropic сообщает 0,715 во внутреннем research agent benchmark [17][16].
В двух прямых публичных сравнениях GPT Image 2 немного впереди Nano Banana Pro: 10/10 против 9/10 промптов в AI Video Bootcamp и 19/25 против 18/25 баллов у Pixazo, но выборка слишком мала для окончательного...
Доказательств, что DeepSeek V4 публично «раскрыла» GPT 5.6, в приведённых источниках нет: надёжная хронология строится вокруг GPT 5.5, вышедшей 23 апреля 2026 года, и DeepSeek V4 Preview менее чем сутки спус...
Единого чемпиона по программированию здесь нет: Claude Opus 4.6 даёт самый сильный сигнал в SWE Bench Verified — около 79–81%, GPT 5.3 Codex выглядит лучше в cited Terminal Bench 2.0 среди моделей OpenAI, а...
DeepSeek V4 preview действительно был представлен: TechCrunch и Fortune писали о V4 Flash и V4 Pro 24 апреля 2026 года.