| 284B total parameters / 13B active parameters |
| หน้าต่างบริบท | สูงสุด 1M token | สูงสุด 1M token |
| บทบาทผลิตภัณฑ์ | โมเดลที่ใหญ่ที่สุดในตระกูล V4 | ออกแบบมาสำหรับงานที่ต้องการความเร็วและประสิทธิภาพสูงกว่า |
| ชื่อโมเดลใน API | deepseek-v4-pro | deepseek-v4-flash |
หน้าโมเดลและราคาของ DeepSeek ยังระบุว่าโมเดลทั้งสองมีความยาวเอาต์พุตสูงสุด 384K และรองรับความสามารถอย่าง Json Output และ Tool Calls เมื่อมองรวมกัน สเปกเหล่านี้บอกว่าโจทย์ของ V4 ไม่ใช่แค่เพิ่มจำนวนพารามิเตอร์หรือขยายคอนเท็กซ์ให้ใหญ่ขึ้น แต่คือการแยก “รุ่นเน้นความสามารถ” และ “รุ่นเน้นประสิทธิภาพ” ออกมาเป็นผลิตภัณฑ์ที่เรียกใช้งานได้จริง
เอกสารจาก API易 และ HyperAI ระบุว่า V4-Pro และ V4-Flash เป็นโมเดลแบบ Mixture-of-Experts หรือ MoE ในภาษาง่าย ๆ MoE คือแนวคิดที่มี “กลุ่มผู้เชี่ยวชาญ” หลายชุดอยู่ในโมเดล แต่ตอนประมวลผลหนึ่งครั้งจะเรียกใช้เพียงบางส่วน ไม่ได้ใช้พารามิเตอร์ทั้งหมดพร้อมกัน ดังนั้น total parameters จึงสะท้อนขนาดของคลังผู้เชี่ยวชาญ ส่วน active parameters คือส่วนที่ถูกใช้จริงในการอนุมานครั้งหนึ่ง ๆ
ข้อดีคือความจุของโมเดลกับปริมาณคำนวณต่อคำตอบไม่จำเป็นต้องผูกกันแบบหนึ่งต่อหนึ่งอีกต่อไป แต่ต้นทุนก็ย้ายไปอยู่ที่ระบบเสิร์ฟโมเดล เช่น การเลือกเส้นทางไปยัง expert, expert parallelism, การสื่อสารข้ามอุปกรณ์ และการบาลานซ์โหลด ทีม SGLang / Miles ระบุหลังการเปิดตัวว่าได้รองรับทั้ง inference และ RL training สำหรับ V4 แล้ว และระบบของตนปรับให้เข้ากับ hybrid sparse-attention, mHC และ FP4 expert weights ซึ่งสะท้อนว่าความยากไม่ได้อยู่แค่ในไฟล์โมเดล แต่อยู่ลึกถึง serving/training stack ด้วย
เอกสารนักพัฒนาของ NVIDIA วางตำแหน่ง V4-Pro และ V4-Flash ว่าเป็นโมเดลสำหรับ million-token context inference ที่มีประสิทธิภาพ โดยยกตัวอย่างงานอย่างการเขียนโค้ดด้วยคอนเท็กซ์ยาว การวิเคราะห์เอกสาร การค้นคืนข้อมูล และเวิร์กโฟลว์แบบ agentic AI เอกสาร DeepSeek API ก็ระบุคอนเท็กซ์ของทั้งสองรุ่นไว้ที่ 1M
สำหรับผู้ใช้ 1M token ช่วยลดการหั่นเอกสารเป็นชิ้นเล็ก ๆ ลดการต่อชิ้นข้อมูลผิดจังหวะ และลดโอกาสที่ระบบ RAG หรือ retrieval จะพลาดบริบทสำคัญ แต่สำหรับฝั่งบริการ ความยาวระดับนี้ขยายแรงกดดันต่อ attention computation, context/KV cache, หน่วยความจำ, แบนด์วิดท์ และการจัดตาราง throughput อย่างชัดเจน ดังนั้นการประเมิน V4 ไม่ควรดูแค่ตัวเลขหน้าต่างบริบท แต่ควรทดสอบกับ repository โค้ดจริง เอกสารยาวจริง ระบบ RAG และ agent toolchain จริง พร้อมวัด latency, ค่าใช้จ่าย, ความเสถียรของการอ้างอิงข้อมูลไกล ๆ และพฤติกรรมของ Tool Calls
ข้อมูลสาธารณะเกี่ยวกับกลไก long context ของ V4 ใช้คำไม่เหมือนกันทั้งหมด API易 ระบุว่า 1M context ของ V4 อาศัย Hybrid Attention และ DSA sparse attention ขณะที่ HyperAI สรุปว่า hybrid attention ผสาน Compressed Sparse Attention หรือ CSA กับ Heavily Compressed Attention หรือ HCA และกล่าวถึง mHC
ฝั่ง SGLang / Miles ระบุว่าชุดโอเพนซอร์สของตนปรับให้รองรับ hybrid sparse-attention, mHC และ FP4 expert weights
การอ่านที่ปลอดภัยคือ ข้อมูลจากหลายแหล่งชี้ไปในทิศทางเดียวกันว่า V4 ใช้แนวทาง “attention แบบ sparse/ compressed/ hybrid + การปรับแต่งชั้นบริการ” เพื่อทำให้คอนเท็กซ์ยาวใช้งานได้จริง แต่รายละเอียดของแต่ละโมดูล ชื่อเรียกที่แน่นอน และผลลัพธ์เชิงปริมาณ ไม่ควรสรุปจากบทสรุปชั้นรองหรือวิดีโอเพียงอย่างเดียว หากต้องใช้ตัดสินใจเชิงระบบ ควรกลับไปตรวจ Model Card และ Technical Report ที่ DeepSeek ระบุไว้ใน Transparency Center
Change log ของ DeepSeek ระบุว่า API รองรับ V4-Pro และ V4-Flash แล้ว โดยเรียกได้ผ่านทั้ง OpenAI ChatCompletions interface และ Anthropic interface การเข้าถึงโมเดลใหม่ไม่ต้องเปลี่ยน base_url แต่ต้องเปลี่ยนค่า model เป็น deepseek-v4-pro หรือ deepseek-v4-flash เอกสารเริ่มต้นใช้งาน API ระบุ base URL เป็น
https://api.deepseek.com สำหรับรูปแบบ OpenAI และ https://api.deepseek.com/anthropic สำหรับรูปแบบ Anthropic
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropicชื่อโมเดลเก่ามีกำหนดชัดเจนเช่นกัน: deepseek-chat และ deepseek-reasoner จะถูกเลิกใช้ในวันที่ 24 กรกฎาคม 2026 ระหว่างช่วงเปลี่ยนผ่าน ชื่อทั้งสองจะชี้ไปยัง deepseek-v4-flash ในโหมดไม่คิดและโหมดคิดตามลำดับ สำหรับแอปที่ใช้งานอยู่แล้ว งานเร่งด่วนคือเปลี่ยนชื่อโมเดล เลือกระหว่าง Pro กับ Flash ให้ตรงกับงาน และทำ regression test เรื่อง long context, Tool Calls, ความยาวเอาต์พุต และต้นทุน
ข้อแรกคือคำกล่าวเรื่องประสิทธิภาพนำหน้า ประกาศภาษาจีนของ DeepSeek ระบุว่า V4-Pro ทำได้ระดับนำในจีนและกลุ่มโอเพนซอร์สด้าน Agent, world knowledge และ reasoning พร้อมเทียบประสบการณ์กับโมเดลปิดบางรุ่น ส่วน API易 ก็ยกคะแนน benchmark เช่น SWE-Verified ข้อมูลเหล่านี้ใช้เป็นจุดตั้งต้นได้ แต่ผลลัพธ์จริงยังควรยืนยันด้วย prompt, ข้อจำกัดด้านต้นทุน และงานเฉพาะของแต่ละทีม
ข้อที่สองคือรายละเอียดกลไกภายใน คำอย่าง Hybrid Attention, DSA, CSA, HCA, mHC และ FP4 expert weights ปรากฏในแหล่งข้อมูลคนละระดับกัน และชื่อเรียกยังไม่เป็นชุดเดียวกันทั้งหมด นอกเหนือจากรายงานเทคนิคทางการ จึงไม่ควรถือว่าทุกคำเป็นข้อเท็จจริงเชิง implementation ที่ตรวจสอบครบแล้ว
ข้อที่สามคือ 1M context ไม่ได้แปลว่าทุกคำขอที่อัดเต็มหน้าต่างจะ latency ต่ำและต้นทุนต่ำโดยอัตโนมัติ เอกสารทางการและเอกสารจาก ecosystem ยืนยันสเปกและการเรียกใช้ได้ แต่ประสบการณ์จริงยังขึ้นกับความยาวเอกสาร อัตรา cache hit จำนวนคำขอพร้อมกัน toolchain ที่ต่ออยู่ และเกณฑ์วัดผลของคุณเอง
จุดที่ทำให้ DeepSeek V4 น่าสนใจในเชิงวิศวกรรมคือการประกอบหลายชิ้นเข้าด้วยกัน: V4-Pro ที่ 1.6T/49B active, V4-Flash ที่ 284B/13B active, หน้าต่างบริบทสูงสุด 1M token และ API ที่เข้ากันได้กับรูปแบบ OpenAI/Anthropic อยู่ในสายผลิตภัณฑ์เดียวที่เรียกใช้งานได้
สำหรับนักพัฒนา งานที่คุ้มกว่าการท่องสเปกคือทดสอบ end-to-end กับเอกสารยาว โค้ดเบส ระบบ RAG และ workflow แบบ Agent ของตัวเอง แล้ววางแผนย้ายชื่อโมเดลเก่าให้เสร็จก่อนวันที่ 24 กรกฎาคม 2026
Comments
0 comments