| SWE-Bench Pro | 60,6 % | 55,4 % | 58,6 % |
| SWE-Bench Multilingual | 78,3 % | — | 76,7 % |
| Terminal-Bench 2.0-Terminus | 69,7 % | 67,9 % | 66,7 % |
| LiveCodeBench (Pass@1) | — | 93,5 % | 89,6 % |
| Codeforces Rating | — | 3206 | — |
| SciCode | 53,5 % | — | — |
| NL2Repo | 47,2 % | — | — |
| MCP-Mark | 60,8 % | — | — |
Hinweis zur DeepSeek-Preisgestaltung: DeepSeek führte eine 75-%-Einführungsaktion bis zum 31. Mai 2026 durch, wodurch der Pro-Preis auf 0,435 $/0,87 $ (Input/Output) sank. Diese Aktion wurde inzwischen dauerhaft übernommen
. Die Tabelle zeigt die dauerhaft gültigen Preise.
Coding & Agenten-Benchmarks — Die drei Modelle sind beim SWE-Bench Verified extrem dicht beieinander (Spanne: 80,2–80,6 %). Qwen3.7-Max führt beim Terminal-Bench 2.0 (69,7) und SWE-Pro (60,6), während DeepSeek V4 Pro Max den LiveCodeBench (93,5) und die Codeforces-Wertung (3206) dominiert – die stärksten reinen Coding-Benchmark-Ergebnisse aller getesteten Modelle . Kimi K2.6 führt bei tool-gestützten Bewertungen (HLE mit Tools: 54,0) und DeepSearchQA (92,5 F1), glänzt also besonders bei mehrstufigen Aufgaben mit externen Hilfsmitteln
.
Logisches Denken — Qwen3.7-Max erreicht die höchsten Punktzahlen bei Mathematik-Wettbewerben (HMMT 97,1 %, GPQA Diamond 92,4 %) . DeepSeek liegt beim HMMT (95,2 %) und HLE (37,7 %) leicht dahinter
. Kimi K2.6 führt bei HLE mit Tools (54,0) und DeepSearchQA (92,5 F1), ist also stärker in suchgestützten und Tool-Szenarien als in reiner Mathematik
.
Preis-Leistungs-Verhältnis — DeepSeek V4 Pro ist mit 0,87 $ pro 1 Mio. Ausgabe-Tokens mit Abstand am günstigsten und bietet zudem offene Gewichte für das Self-Hosting . Qwen3.7-Max ist mit 7,50 $/Mio. Ausgabe-Tokens das teuerste Modell, obwohl Alibaba Batch- und Cache-Rabatte anbietet
. Kimi K2.6 liegt mit 4,00 $/Mio. Ausgabe-Tokens im Mittelfeld, bietet aber nur ein Kontextfenster von 256k Tokens im Vergleich zu 1 Mio. bei den anderen beiden
.
Wichtiger Vorbehalt (NIST CAISI-Evaluierung): Eine Evaluierung des NIST CAISI vom Mai 2026 ergab, dass die selbstberichteten Benchmarks von DeepSeek V4 Pro seine tatsächlichen Fähigkeiten überschätzen. Die unabhängigen Tests deuten darauf hin, dass die Leistung eher mit GPT-5 (August 2025) als mit Claude Opus 4.6 vergleichbar ist . Dies betrifft nicht Qwen3.7-Max oder Kimi K2.6, deren Ergebnisse nicht im selben Bericht bewertet wurden.
Comments
0 comments