| 80.2 |
| SWE-Bench Pro (Vaativampi versio) | 60.6 | 55.4 | 58.6 |
| SWE-Bench Multilingual (Monikielinen koodaus) | 78.3 | — | 76.7 |
| Terminal-Bench 2.0-Terminus (Pääteympäristö) | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) (Kilpailullinen koodaus) | — | 93.5 | 89.6 |
| Codeforces Rating (Ohjelmointikilpailut) | — | 3206 | — |
| SciCode (Tieteellinen koodaus) | 53.5 | — | — |
| NL2Repo (Luonnollinen kieli koodiksi) | 47.2 | — | — |
| MCP-Mark (Agenttiyhteensopivuus) | 60.8 | — | — |
Mallien kustannukset eroavat dramaattisesti. Hinnat ovat virallisilta API-alustoilta. Huomioi erityisesti DeepSeekin pysyvä, massiivinen alennus, joka muutti markkinaa.
Huomautus DeepSeekin hinnoittelusta: DeepSeek muutti 75 % lanseerausalennuksensa pysyväksi toukokuun 2026 lopussa. Hinta on nyt pysyvästi $1.74/$3.48 syöte/tuotos, ja siitä saa edelleen päivittäisen volyymiperusteisen alennuksen joillain alustoilla.
. Taulukon hinnat ovat pysyvät listahinnat. Monet palveluntarjoajat, kuten OpenRouter, tarjoavat malleja pienellä katteella.
Kolme mallia ovat hämmästyttävän lähellä toisiaan SWE-Bench Verified -testissä (80.2–80.6 pistettä). Ero tulee vastaan, kun katsotaan tarkemmin:
Toukokuussa 2026 julkaistu Yhdysvaltain NIST-viraston CAISI-arviointi paljasti, että DeepSeek V4 Pron itsensä ilmoittamat benchmark-tulokset antavat sen kyvyistä todellista ruusuisemman kuvan. NIST:n omissa ei-julkisissa testeissä malli suoriutui pikemminkin kuin elokuun 2025 GPT-5, eikä kuin maaliskuun 2026 Claude Opus 4.6, kuten DeepSeek antoi ymmärtää. Tämä koskee vain DeepSeekiä — Qwen3.7-Maxia ja Kimi K2.6:ta ei arvioitu samassa raportissa. Tämä havainto korostaa riippumattomien, kolmannen osapuolen testien kriittistä merkitystä.
Comments
0 comments