| 80,2 |
| SWE-Bench Pro | 60,6 | 55,4 | 58,6 |
| SWE-Bench Multilingual | 78,3 | — | 76,7 |
| Terminal-Bench 2.0 | 69,7 | 67,9 | 66,7 |
| LiveCodeBench (Pass@1) | — | 93,5 | 89,6 |
| Codeforces Rating | — | 3206 | — |
| SciCode | 53,5 | — | — |
| MCP-Mark | 60,8 | — | — |
Zde se měří schopnosti modelů v matematice, pokročilé logice, vysokoškolské vědě a řešení extrémně obtížných problémů.
Cena je pro vývojáře zásadním faktorem. Následující tabulka ukazuje standardní ceny. DeepSeek po ukončení zaváděcí akce zlevnil své Pro modely trvale o 75 % .
V hlavním testu SWE-Bench Verified jsou všechny tři modely vyrovnané v rozmezí 1,4 procentního bodu (80,2–80,6). Rozdíly se objeví až v náročnějších testech. Qwen3.7 Max exceluje v testech odolnosti (Terminal-Bench 2.0) a extrémně obtížném programování (SWE-Bench Pro), kde je jasným lídrem. Naopak DeepSeek V4 Pro Max absolutně dominuje v soutěžním kódování – jeho skóre v LiveCodeBench (93,5) a rating na Codeforces (3206) jsou nejvyšší ze všech testovaných modelů . Kimi K2.6 pak kraluje v úlohách, kde je klíčové využití externích nástrojů, jako je HLE s nástroji (54,0)
.
Qwen3.7 Max je matematický přeborník. S 97,1 % na HMMT 2026 a 92,4 % v GPQA Diamond je těžké ho překonat . DeepSeek za ním mírně zaostává. Kimi K2.6 naopak ukazuje svou sílu jinde – exceluje v úlohách, kde je potřeba prohledávat a syntetizovat informace (DeepSearchQA se skóre F1 92,5) nebo kombinovat uvažování s nástroji (vede s 54,0 v HLE s nástroji)
.
Zde je vítěz naprosto jasný. DeepSeek V4 Pro je zdaleka nejlevnější – jeho výstup stojí $0,87 za milion tokenů a navíc jako jediný nabízí otevřené váhy pro vlastní provoz . Qwen3.7 Max je prémiová volba – za $7,50 za výstupní milion tokenů je nejdražší, což odpovídá jeho špičkovým výkonům
. Kimi K2.6 je zlatou střední cestou za $4,00 za výstup, ale má výrazně menší kontextové okno (256K vs. 1M tokenů), což omezuje objem dat, se kterým dokáže najednou pracovat
.
Je důležité brát některá čísla s rezervou. Americký Národní institut pro standardy a technologie (NIST) ve svém hodnocení z května 2026 zjistil, že výkon DeepSeek V4 Pro v některých vlastních reportovaných testech je lepší, než jaký model vykazuje v nezávislých, neveřejných zkouškách. Podle NIST se model spíše blíží úrovni GPT-5 (srpen 2025) než novějšímu Claude Opus 4.6
. To se týká pouze DeepSeeku; Qwen a Kimi nebyly ve stejné zprávě testovány.
Comments
0 comments