| 80,2 |
| SWE-Bench Pro | 60,6 | 55,4 | 58,6 |
| SWE-Bench Multilingual | 78,3 | — | 76,7 |
| Terminal-Bench 2.0 | 69,7 | 67,9 | 66,7 |
| LiveCodeBench (Pass@1) | — | 93,5 | 89,6 |
| Codeforces Rating | — | 3206 | — |
| SciCode | 53,5 | — | — |
Uwaga dotycząca cen DeepSeek: Firma DeepSeek ogłosiła w maju 2026 roku, że 75-procentowa obniżka cen z okresu promocyjnego staje się stałą ofertą. Tym samym stawki 0,435 USD za wejście (cache miss) i 0,87 USD za wyjście obowiązują na stałe. To najniższe ceny wśród flagowych modeli
.
Każdy z modeli ma swój unikalny profil. Oto praktyczne wskazówki, który model wybrać do konkretnych zadań:
DeepSeek V4 Pro Max to absolutny lider, jeśli priorytetem jest czysta moc kodowania. Wynik 93,5% w LiveCodeBench i ranking Codeforces na poziomie 3206 to najwyższe odnotowane osiągi w tej kategorii . Jest przy tym bezkonkurencyjnie tani (0,87 USD za wyjście) i oferuje otwarte wagi, co pozwala na samodzielny hosting. Idealny wybór dla zespołów optymalizujących koszty przy intensywnym generowaniu kodu.
Qwen3.7 Max stawia na inteligencję agentową i rozumowanie. Jego wyniki w Terminal-Bench 2.0 (69,7) i SWE-Bench Pro (60,6) są najwyższe w tym zestawieniu. Doskonale radzi sobie także w matematyce (GPQA Diamond 92,4%, HMMT 97,1%) . Jego ogromny kontekst 1 miliona tokenów jest atutem przy analizie długich dokumentów. Minusem jest wysoka cena – 7,50 USD za milion tokenów wyjściowych, choć Alibaba oferuje zniżki do 90% przy wykorzystaniu cache'owania
.
Kimi K2.6 to specjalista od zadań wymagających interakcji z narzędziami i wyszukiwania. Prowadzi w HLE z narzędziami (54,0) – teście mierzącym zdolność do odpowiadania na pytania wymagające użycia zewnętrznych zasobów – oraz w DeepSearchQA (92,5 F1), co czyni go najlepszym wyborem do budowy zaawansowanych agentów badawczych . Jego ograniczeniem jest mniejsze okno kontekstowe (256K tokenów) i cena wyjściowa 4,00 USD
. Otwarte wagi to mocny argument dla zespołów chcących samodzielnie wdrażać model.
Należy odnotować, że w maju 2026 roku amerykański instytut NIST (konkretnie jego jednostka CAISI) opublikował wyniki niezależnej ewaluacji DeepSeek V4 Pro. Testy na niepublicznych benchmarkach wykazały, że rzeczywiste możliwości modelu są bliższe archiwalnemu GPT-5 (z sierpnia 2025) niż deklarowanemu przez producenta poziomowi Claude Opus 4.6 . Wyniki Qwen i Kimi nie były weryfikowane w tym samym badaniu, dlatego nie wiemy, czy podobna rozbieżność dotyczy również ich.
Comments
0 comments