| 80,2 |
| SWE-Bench Pro | 60,6 | 55,4 | 58,6 |
| SWE-Bench Flersproget | 78,3 | — | 76,7 |
| Terminal-Bench 2.0-Terminus | 69,7 | 67,9 | 66,7 |
| LiveCodeBench (Pass@1) | — | 93,5 | 89,6 |
| Codeforces Rating | — | 3206 | — |
| SciCode | 53,5 | — | — |
| MCP-Mark | 60,8 | — | — |
Priserne er opgivet i amerikanske dollars per en million tokens og viser omkostningerne for både input (det, du sender til modellen) og output (det, modellen genererer).
Bemærkning til DeepSeeks pris: DeepSeek meldte i maj 2026 ud, at deres 75 % rabat på V4 Pro-modellen er gjort permanent. Det betyder, at standardprisen fremover er $0,435/$0,87 for input/output, selvom den oprindelige listepris lød på $1,74/$3,48
. Vi har valgt at vise den permanente, lave pris. Dette gør DeepSeek V4 Pro til den suverænt billigste model i dette felt.
Kodning og agent-opgaver — De tre modeller ligger ekstremt tæt, når det handler om klassisk fejlfinding i kodebaser (SWE-Bench Verified: 80,2–80,6). Men hvis du skal bruge en model til autonome opgaver over mange timer, er Qwen3.7-Max bedst til terminalbaserede opgaver (Terminal-Bench 2.0: 69,7) og de svære softwareudfordringer (SWE-Pro: 60,6). Hvis ren, konkurrencepræget kodning er dit mål, er DeepSeek V4 Pro Max klart førende (LiveCodeBench 93,5 og Codeforces 3206) . Kimi K2.6 er til gengæld kongen af "agentisk" arbejde, dvs. opgaver hvor modellen selv finder værktøjer og data på nettet, hvilket giver den føringen på den krævende HLE-test
.
Ræsonnement — Skal du bruge ren matematik og videnskabelig ræsonnering, er Qwen3.7-Max din bedste ven (HMMT 97,1%, GPQA Diamond 92,4%) . DeepSeek V4 Pro Max er en smule svagere her, men stadig stærk
. Kimi K2.6 er speciel: Den er ikke førende i teoretisk matematik, men når den får lov at bruge værktøjer, slår den alle på kompleks, flertrins research (DeepSearchQA 92,5 F1)
.
Pris og værdi for pengene — Her ændrede DeepSeek spillet i maj 2026 ved at gøre sin 75% rabat permanent. Med en output-pris på kun $0,87 og åbne vægte, som du selv kan hoste, er den prismæssigt uslåelig . Qwen3.7-Max er den dyreste til output ($7,50), men tilbyder til gengæld en generøs kontekstvindue og lave cache-priser, hvilket gør den attraktiv til lange samtaler eller agent-workflows
. Kimi K2.6 placerer sig i midten output ($4,00), men har et mindre kontekstvindue, hvilket kan være en begrænsning til meget store opgaver
.
Vigtigt forbehold (NIST/CAISI-evaluering): I maj 2026 offentliggjorde det amerikanske institut NIST en uafhængig test, der antydede, at DeepSeek V4 Pro's selvrapporterede præstationer overvurderer dens reelle evner. Ifølge NIST svarer dens reelle niveau snarere til GPT-5 (fra august 2025) end til de nyere modeller, DeepSeek selv sammenligner sig med . Det er værd at huske, hvis dine opgaver kræver absolut topydelse.
Comments
0 comments