| 80.6 |
| 80.2 |
| SWE-Bench Pro | 60.6 | 55.4 | 58.6 |
| SWE-Bench Multilingual | 78.3 | — | 76.7 |
| Terminal-Bench 2.0-Terminus | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) | — | 93.5 | 89.6 |
| Codeforces Rating | — | 3206 | — |
| SciCode | 53.5 | — | — |
| NL2Repo | 47.2 | — | — |
| MCP-Mark | 60.8 | — | — |
หมายเหตุ: HLE (Humanity's Last Exam) คือข้อสอบสุดหินที่ออกแบบโดยผู้เชี่ยวชาญเพื่อวัดขีดจำกัดของ AI โดย Kimi K2.6 ได้คะแนนสูงถึง 54.0 เมื่อใช้ร่วมกับเครื่องมือ (Tools) ซึ่งถือว่าสูงที่สุดในกลุ่มนี้
หมายเหตุราคา DeepSeek: เดิม DeepSeek มีโปรโมชันลด 75% ถึง 31 พ.ค. 2026 ทำให้ราคา V4 Pro เหลือ $0.435/$0.87 input/output ต่อมา DeepSeek ได้ประกาศให้ราคานี้เป็นราคาถาวร
ตารางด้านบนจึงแสดงราคาล่าสุดที่เป็นราคามาตรฐาน
สามโมเดลนี้มีคะแนน SWE-Bench Verified ที่สูสีกันมาก (80.2–80.6) ซึ่งหมายความว่าในการแก้บั๊กจากโลกจริง (Real-world bug fixing) ความสามารถแทบไม่ต่างกัน
การประเมินโดย NIST CAISI: ในเดือนพฤษภาคม 2026 หน่วยงานรัฐบาลสหรัฐฯ (NIST CAISI) ได้เผยแพร่การประเมิน DeepSeek V4 Pro และพบว่า ผล Benchmark ที่ DeepSeek รายงานเองนั้นสูงเกินจริง เมื่อเทียบกับผลการทดสอบอิสระ โดยระบุว่าความสามารถจริงน่าจะเทียบเท่ากับ GPT-5 (สิงหาคม 2025) ไม่ใช่ Claude Opus 4.6 ตามที่ DeepSeek กล่าวอ้าง ข้อสังเกตนี้ใช้เฉพาะกับ DeepSeek V4 Pro ไม่รวม Qwen3.7-Max หรือ Kimi K2.6 ซึ่ง NIST ไม่ได้ประเมินในรายงานเดียวกัน
Comments
0 comments