| SWE-Bench Pro | 60.6 | 55.4 | 58.6 |
| SWE-Bench Multilingual | 78.3 | — | 76.7 |
| Terminal-Bench 2.0-Terminus | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) | — | 93.5 | 89.6 |
| Codeforces Rating | — | 3206 | — |
| SciCode | 53.5 | — | — |
| NL2Repo | 47.2 | — | — |
| MCP-Mark | 60.8 | — | — |
Catatan untuk harga DeepSeek: DeepSeek menerapkan promosi peluncuran diskon 75% hingga 31 Mei 2026, menjadikan harga Pro hanya $0.435/$0.87 untuk input/output. Harga standar pasca-promo adalah $1.74/$3.48
. Tabel di atas menggunakan harga pasca-promo standar. Per Juni 2026, DeepSeek telah menjadikan potongan harga 75% ini permanen
.
Benchmark coding & agentic — Ketiga model ini sangat dekat di SWE-Bench Verified (kisaran: 80.2–80.6). Qwen3.7-Max memimpin di Terminal-Bench 2.0 (69.7) dan SWE-Pro (60.6), sementara DeepSeek V4 Pro Max mendominasi LiveCodeBench (93.5) dan Codeforces (rating 3206) — skor benchmark coding mentah terkuat dari semua model yang diuji . Kimi K2.6 memuncaki SWE-Bench Pro (58.6) dan menjadi yang terdepan dalam evaluasi berbantuan alat (HLE dengan alat di 54.0)
.
Penalaran — Qwen3.7-Max meraih skor tertinggi pada kompetisi matematika (HMMT 97.1%, GPQA Diamond 92.4%) . DeepSeek sedikit tertinggal di HMMT (95.2%) dan HLE (37.7%)
. Kimi K2.6 memimpin di HLE-dengan-alat (54.0) dan DeepSearchQA (F1 92.5), yang berarti unggul dalam skenario pencarian dan penggunaan alat multi-langkah, bukan matematika murni
.
Harga & nilai — DeepSeek V4 Pro adalah yang termurah dengan selisih lebar di $0.87/output (pasca-promo) dengan model terbuka untuk hosting mandiri . Qwen3.7-Max adalah yang termahal di $7.50/output, meskipun Alibaba menawarkan diskon batch dan cache
. Kimi K2.6 berada di antaranya dengan $4.00/output tetapi hanya menawarkan konteks 256K, dibandingkan 1M untuk dua model lainnya
.
Catatan krusial (evaluasi NIST CAISI): Sebuah evaluasi oleh NIST CAISI pada Mei 2026 menemukan bahwa benchmark yang dilaporkan sendiri oleh DeepSeek V4 Pro terlalu melebih-lebihkan kemampuannya, menunjukkan bahwa kemampuannya mungkin lebih mendekati GPT-5 (Agustus 2025) daripada Claude Opus 4.6 . Hal ini tidak berlaku untuk Qwen3.7-Max atau Kimi K2.6, karena skor mereka tidak dievaluasi langsung oleh CAISI dalam laporan yang sama.
Comments
0 comments