| 80.2 |
| SWE-Bench Pro | 60.6 | 55.4 | 58.6 |
| SWE-Bench Multilingual | 78.3 | — | 76.7 |
| Terminal-Bench 2.0-Terminus | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) | — | 93.5 | 89.6 |
| Codeforces Rating | — | 3206 | — |
| SciCode | 53.5 | — | — |
Wat valt op? Op de cruciale SWE-Bench Verified-test ontlopen ze elkaar nauwelijks. Qwen3.7-Max pakt de leiding op de zwaardere SWE-Bench Pro en Terminal-Bench. DeepSeek V4 Pro Max is echter de onbetwiste koning van het ruwe programmeren, met een absolute topscore op LiveCodeBench en een Codeforces-rating die alles overtreft. Kimi K2.6 is een sterke middenmoter die net onder de top presteert.
Naast code draait het om zuiver logisch redeneren, wiskunde en het beantwoorden van complexe vragen.
Wat valt op? Qwen3.7-Max is de uitblinker in pure wiskundige redeneringen (HMMT, GPQA Diamond). De algehele intelligentiescore op de AA Index bevestigt dit. Kimi K2.6 excelleert echter in een ander domein: het gebruik van externe tools. Het model is de absolute leider op de 'Humanity's Last Exam' wanneer het tools mag gebruiken, en scoort veruit het best op DeepSearchQA. Deze test meet hoe goed een model informatie opzoekt en synthetiseert – een essentiële skill voor echte AI-agents.
De beste prestaties zijn mooi, maar wat kost het om ze te gebruiken in je eigen project? Hier is de realiteit, in USD per 1 miljoen tokens.
💡 Let op DeepSeek-prijzen: DeepSeek voerde een permanente prijsverlaging van 75% door
. Hierdoor zijn de gangbare prijzen de lage $0.435 voor input en $0.87 voor output. De standaardtarieven van $1.74/$3.48 staan vermeld, maar zijn in de praktijk voor de meeste gebruikers niet meer relevant.
Wat valt op? DeepSeek V4 Pro is met afstand de budgetkampioen. Het is absurd veel goedkoper dan Qwen3.7-Max en biedt tegelijkertijd de mogelijkheid om het model zelf te hosten dankzij open gewichten . Qwen3.7-Max is het duurst, maar biedt als voordeel een extreem groot contextvenster en forse kortingen op gecachte input
. Kimi K2.6 zit er qua prijs tussenin, maar zijn contextvenster van 256K tokens is een stuk kleiner
.
Voor de beste pure codeerkracht: Je keuze is DeepSeek V4 Pro Max. De score op LiveCodeBench (93.5%) en de Codeforces-rating (3206) zijn ongeëvenaard . Het is ook nog eens spotgoedkoop, zowel via de API als om zelf te draaien.
Voor de slimste allrounder: Qwen3.7-Max voert de lijsten aan in wiskunde en redeneren. Het is het best presterende Chinese model op de AA Intelligence Index en blinkt uit in agentische programmeertaken zoals SWE-Bench Pro en Terminal-Bench . Je betaalt er wel een premium voor.
Voor de beste AI-agent met toolgebruik: Kimi K2.6 Thinking is jouw model. Het leidt op HLE met tools (54.0) en DeepSearchQA (92.5 F1). Het is ontworpen om complexe, meerstaps workflows te doorlopen en informatie uit externe bronnen te halen .
Voor de beste prijs-kwaliteitverhouding: Ondanks de nuances is DeepSeek V4 Pro de klare winnaar. Zijn prijzen van minder dan $1 per miljoen output tokens, gecombineerd met topklasse prestaties, laten de concurrentie ver achter zich.
🚨 Belangrijke kanttekening (NIST CAISI-evaluatie): Uit een onafhankelijk rapport van het Amerikaanse NIST uit mei 2026 bleek dat de door DeepSeek zelf gerapporteerde benchmarks de mogelijkheden van het model overschatten. In niet-openbare tests van de Amerikaanse overheid presteerde DeepSeek V4 Pro meer op het niveau van GPT-5 (augustus 2025) dan op het niveau van de nieuwste Claude- of GPT-modellen . Houd daar rekening mee bij de interpretatie van de zelfgerapporteerde scores.
Comments
0 comments