| 80.2 |
| SWE-Bench Pro | 60.6 | 55.4 | 58.6 |
| SWE-Bench Multilingue | 78.3 | — | 76.7 |
| Terminal-Bench 2.0-Terminus | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) | — | 93.5 | 89.6 |
| Rating Codeforces | — | 3206 | — |
| SciCode | 53.5 | — | — |
| NL2Repo | 47.2 | — | — |
| MCP-Mark | 60.8 | — | — |
Nota sui prezzi di DeepSeek: DeepSeek aveva una promozione di lancio del 75% fino al 31 maggio 2026, portando il costo a $0.435/$0.87 per input/output. Dopo la promozione, le tariffe standard sono $1.74/$3.48
. I prezzi promozionali sono stati resi permanenti, quindi la tabella sopra riflette il costo standard attuale di DeepSeek V4 Pro.
1. La battaglia del coding è serratissima. Su SWE-Bench Verified, i tre modelli sono separati da appena 0.4 punti percentuali. Se il tuo focus è la programmazione avanzata, la scelta dipende dalle sfumature:
2. Il ragionamento premia Qwen. Qwen3.7-Max si aggiudica le gare di matematica (HMMT 97.1%) e il ragionamento scientifico (GPQA Diamond 92.4%) . DeepSeek V4 è una valida alternativa, mentre Kimi K2.6 preferisce scenari multi-step piuttosto che la matematica pura.
3. DeepSeek stravince sul prezzo, Kimi K2.6 è un'ottima via di mezzo. Con $0.87 per milione di token in output (e un prezzo irrisorio di $0.0036 per i cache hit), DeepSeek V4 Pro è di gran lunga l'opzione più economica, per di più con pesi aperti per l'auto-hosting . Qwen3.7-Max è il più costoso ($7.50/output), ma offre sconti per batch e caching. Kimi K2.6 si posiziona nel mezzo ($4.00/output), ma limita la finestra di contesto a 256K token contro il milione degli altri due
.
4. Un caveat importante: la valutazione del NIST. A maggio 2026, il CAISI (NIST) ha pubblicato una valutazione indipendente la quale indica che i benchmark autodichiarati di DeepSeek V4 Pro sopravvalutano le sue reali capacità. Secondo il NIST, le prestazioni di DeepSeek sarebbero più vicine a GPT-5 (agosto 2025) che a modelli più recenti come Claude Opus 4.6 . Questa discrepanza non si applica né a Qwen3.7-Max né a Kimi K2.6, non direttamente testati nello stesso report. Un fattore cruciale da considerare quando si valuta il rapporto prezzo/prestazioni di DeepSeek.
Comments
0 comments