| SWE-Bench Pro | 60.6 | 55.4 | 58.6 |
| SWE-Bench Multilingual | 78.3 | — | 76.7 |
| Terminal-Bench 2.0-Terminus | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) | — | 93.5 | 89.6 |
| Codeforces Rating | — | 3206 | — |
| SciCode | 53.5 | — | — |
Not om DeepSeeks prissättning: DeepSeek gjorde sin 75-procentiga lanseringsrabatt permanent från och med den 31 maj 2026. Priset ligger därefter fast på $0.435/$0.87 för indata respektive utdata. Det ordinarie listpriset (före permanent rabatt) var $1.74/$3.48
.
Kodning & agentbeteende – De tre modellerna är nästan identiska på det viktiga SWE-Bench Verified (80.2–80.6), vilket mäter verklig felsökning i kodbaser. Qwen3.7 Max tar täten på Terminal-Bench 2.0 (69.7) och SWE-Pro (60.6) – båda viktiga för långa, autonoma agentuppgifter. DeepSeek V4 Pro Max är ohotad etta i ren kodprestanda: LiveCodeBench 93.5 och Codeforces 3206 är de högsta som uppmätts hittills . Kimi K2.6 leder på SWE-Bench Pro (58.6) och när externa verktyg kopplas in (HLE med verktyg 54.0) – där är den bäst i klassen.
Resonemang & problemlösning – Qwen3.7 Max toppar matematiktävlingar (HMMT 97.1 %) och avancerad vetenskaplig slutledning (GPQA Diamond 92.4 %), vilket gör den till ett starkt val för forskning och teknisk analys . DeepSeek V4 Pro Max är något svagare på HMMT (95.2 %) och HLE (37.7 %). Kimi K2.6 är specialist på informationssökning och flerstegsverktyg: 92.5 i F1 på DeepSearchQA och 54.0 på HLE med verktyg – högre än både GPT-5.4 och Claude Opus 4.6
.
Prisvärdhet – DeepSeek V4 Pro är prismässigt ohotad med $0.87 per miljon utdatatokens (permanent rabatterat) och har öppna vikter, vilket innebär att du kan köra den själv utan API-avgifter . Qwen3.7 Max är dyrast med $7.50 per miljon utdatatokens, men Alibaba erbjuder 90 % rabatt vid cachad indata och volymrabatter för storskalig drift
. Kimi K2.6 lägger sig mitt emellan med $4.00 per miljon utdatatokens, men har ett mindre kontextfönster (256K jämfört med 1M)
.
Viktig brasklapp (NIST CAISI-utvärdering): En oberoende utvärdering av NIST i maj 2026 fann att DeepSeek V4 Pros självrapporterade riktmärken överskattar modellens faktiska förmåga jämfört med icke-offentliga tester. Enligt CAISI presterar den mer i nivå med GPT-5 (augusti 2025) än med Claude Opus 4.6 . Samma utvärdering omfattar inte Qwen3.7 Max eller Kimi K2.6, så deras officiella siffror ska tolkas försiktigt tills oberoende tester publiceras.
Comments
0 comments