Gemini 3.1 Pro показал 77,1% — это один из лучших результатов на тесте, который измеряет способность решать принципиально новые проблемы, не поддающиеся заучиванию .
Claude Sonnet набрал 9,8 из 10 в тесте из 125 задач, оценивающем качество и «человечность» ответов. Эта модель ощущается как самая приятная в общем общении и написании текстов .
Разрыв между флагманскими моделями (GPT-5, Claude Opus 4.x, Gemini 3.x, Grok 4) сейчас невелик — часто всего несколько процентных пунктов . Отчёт Стэнфорда об ИИ за 2026 год показал, что результаты 15 лучших моделей разделяет не более 3 процентных пунктов на каждом бенчмарке
.
«Точность» сильно зависит от задачи: лучшая модель для программирования не является лучшей для рассуждений, и самая точная модель по бенчмаркам может не подойти для вашего конкретного рабочего процесса. Правильный выбор полностью определяется вашей основной задачей .
Comments
0 comments