| SWE-Bench Pro | 60.6 | 55.4 | 58.6 |
| SWE-Bench Multilingual | 78.3 | — | 76.7 |
| Terminal-Bench 2.0-Terminus | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) | — | 93.5 | 89.6 |
| Codeforces Rating | — | 3206 | — |
| SciCode | 53.5 | — | — |
Примітка щодо цін DeepSeek: Запуск моделі супроводжувався постійним 75% зниженням ціни. Отже, у таблиці вказана фінальна ціна з урахуванням цієї знижки, яка стала постійною, а не стандартний тариф до акції. Стандартні тарифи становили б $1.74/$3.48
.
Усі три моделі демонструють виняткову майстерність у вирішенні реальних проблем з кодом. На головному бенчмарку SWE-Bench Verified вони йдуть майже врівень (80.2–80.6). Однак спеціалізація у кожного своя:
Тут розрив між моделями найбільш відчутний:
У травні 2026 року Національний інститут стандартів і технологій США (NIST) опублікував незалежну оцінку (CAISI), згідно з якою самозвіти DeepSeek V4 Pro завищують його реальні можливості. За внутрішніми тестами NIST, модель показала продуктивність, близьку до GPT-5 (серпень 2025 року), а не до новіших Claude Opus 4.6 чи GPT-5.4, як стверджувала сама компанія. Це не стосується Qwen3.7-Max чи Kimi K2.6, які окремо не оцінювалися .
Comments
0 comments