| 80.2 |
| Разница в рамках погрешности. Все три модели — топ-уровень. |
| SWE-Bench Pro (сложнее) | 60.6 | 55.4 | 58.6 | Более реалистичные задачи. Здесь лидируют Qwen и Kimi. |
| SWE-Bench Multilingual | 78.3 | — | 76.7 | Работа с кодом на разных языках. |
| Terminal-Bench 2.0 | 69.7 | 67.9 | 66.7 | Работа в настоящем терминале, лучший результат у Qwen. |
| LiveCodeBench | — | 93.5 | 89.6 | Бенчмарк, где DeepSeek просто уничтожает конкурентов. |
| Рейтинг Codeforces | — | 3206 | — | Этот рейтинг сравним с уровнем очень сильного программиста. |
| MCP-Mark (агенты) | 60.8 | — | — | Специфичный, но важный тест для ИИ-агентов. |
Вывод по кодингу: DeepSeek V4 Pro Max — абсолютный чемпион в "чистом" программировании и решении алгоритмических задач. Qwen3.7-Max и Kimi K2.6 берут верх в более комплексных и приближенных к реальности задачах на программную инженерию (SWE-Bench Pro), где нужно править баги в больших проектах.
Здесь модели показывают, насколько хорошо они "думают" и что знают.
Вывод по мышлению: Qwen3.7-Max — лучший математик и универсал. Kimi K2.6 показывает фантастические результаты, когда ей разрешают пользоваться поиском и другими инструментами, превосходя всех в агентских задачах, требующих нескольких шагов.
Сравнивать модели без оглядки на цену бессмысленно. Вот стоимость использования через API за 1 миллион токенов (условно, ~600 страниц текста).
Важное примечание о ценах DeepSeek: DeepSeek проводил акцию со скидкой 75% до 31 мая 2026 года, снизив цены до $0.87 за выходные токены. Важно уточнять на официальном сайте, стала ли эта скидка постоянной
. В таблице выше указана цена с учетом возможной скидки. Без нее стандартная цена Pro-версии — $1.74 за вход и $3.48 за выход.
Ценовой итог: DeepSeek V4 Pro — чемпион по дешевизне и открытости, идеален для тех, у кого много задач и кто хочет запускать модель на своем сервере. Kimi K2.6 — золотая середина, но с важным ограничением: контекстное окно в 4 раза меньше, чем у конкурентов. Qwen3.7-Max — самый дорогой и без возможности самостоятельного хостинга, но его высокая производительность может оправдывать эти затраты.
Прежде чем делать окончательный выбор, стоит ознакомиться с выводами экспертов. В мае 2026 года Национальный институт стандартов и технологий США (NIST) в рамках программы CAISI опубликовал отчет о независимой оценке DeepSeek V4 Pro . Вывод оказался неожиданным: согласно их закрытым тестам, реальная производительность DeepSeek V4 Pro находится примерно на уровне GPT-5 от OpenAI, выпущенной еще в августе 2025 года. Это значительно скромнее, чем позиционирует модель сам разработчик, сравнивая ее с более новыми Claude Opus 4.6 и GPT-5.4
. Это стоит иметь в виду, особенно если вы планируете использовать DeepSeek для критически важных задач.
Comments
0 comments