Также модель показывает сильные результаты в задачах интеллектуальной работы. В тесте GDPval она сравнима или превосходит профессионалов примерно в 84,9% случаев.
Это делает GPT‑5.5 особенно сильной в автономных агентных системах и сложных рабочих процессах.
Модель Claude Opus 4.7 от Anthropic широко считается одной из лучших для задач разработки программного обеспечения.
Ключевые результаты:
Тест SWE‑bench считается одним из самых реалистичных для оценки AI‑разработчиков: модель должна исправить настоящие ошибки в проектах с GitHub.
Результат 87,6% на SWE‑bench Verified означает, что модель успешно решает подавляющее большинство задач из набора проверенных багов.
Хотя в агентных рабочих процессах она уступает GPT‑5.5, в программировании Claude Opus 4.7 остаётся одним из сильнейших инструментов.
Gemini 3.5 Flash от Google занимает особое место среди моделей. Она ориентирована не только на максимальную мощность, но и на высокую скорость и низкую задержку.
Заявленные показатели:
По данным Google, модель способна генерировать ответы примерно в четыре раза быстрее, чем многие другие модели того же класса.
Главное преимущество Gemini 3.5 Flash — соотношение скорости и качества: она показывает результаты, близкие к флагманским моделям, но при гораздо меньшей задержке.
DeepSeek V4 привлекла большое внимание, потому что это одна из самых мощных моделей с открытыми весами.
Семейство включает две версии:
В максимальном режиме рассуждения V4‑Pro демонстрирует:
Однако независимая оценка программы CAISI Национального института стандартов и технологий США (NIST) показала, что возможности модели отстают от переднего края примерно на восемь месяцев.
Модель Grok 4.3 от компании xAI стала серьёзным обновлением по сравнению с предыдущими версиями.
Некоторые показатели:
Наиболее заметное улучшение — рост более чем на 300 Elo в тесте GDPval‑AA по сравнению с предыдущей версией Grok.
Тем не менее независимые анализы обычно ставят Grok 4.3 ниже последних моделей OpenAI и Anthropic по совокупной мощности.
Если объединить доступные результаты, можно выделить условные специализации моделей:
Но такие выводы стоит воспринимать как направление, а не окончательный рейтинг.
Современные сравнения AI‑моделей осложняются несколькими факторами:
Поэтому реальная расстановка сил часто становится яснее лишь спустя месяцы независимого тестирования.
На данный момент ни одна модель не доминирует во всех категориях.
По мере появления независимых тестов и более унифицированных методик оценки картина на рынке AI‑моделей, вероятно, будет ещё не раз меняться.
Comments
0 comments