อย่ามอง DeepSeek V4 ว่าเป็นเพียง “โมเดลที่ใส่คอนเท็กซ์ได้ 1 ล้านโทเคน” เท่านั้น ภาพที่แม่นกว่าคือ DeepSeek กำลังปล่อยทั้งตระกูลโมเดลและชั้นบริการไปพร้อมกัน: มี V4-Pro และ V4-Flash, ระบุทั้งพารามิเตอร์รวมและพารามิเตอร์ที่ถูกใช้งานจริง, รองรับหน้าต่างบริบทระดับ 1M token และเปิดให้เรียกผ่าน API ที่เข้ากันได้กับรูปแบบของ OpenAI และ Anthropic [18][
20]
Transparency Center ของ DeepSeek ระบุวันเปิดตัว V4.0 DeepSeek-V4 เป็นวันที่ 24 เมษายน 2026 พร้อมลิงก์ Model Card และ Technical Report ส่วนประกาศทางการระบุว่า DeepSeek-V4 Preview เปิดใช้งานแล้วและเปิดซอร์สควบคู่กัน [22][
14][
15]
สเปกที่ยืนยันแล้ว: Pro เน้นเพดานความสามารถ, Flash เน้นประสิทธิภาพ
| รายการ | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| ขนาดที่เปิดเผย | 1.6T total parameters / 49B active parameters [ | 284B total parameters / 13B active parameters [ |
| หน้าต่างบริบท | สูงสุด 1M token [ | สูงสุด 1M token [ |
| บทบาทผลิตภัณฑ์ | โมเดลที่ใหญ่ที่สุดในตระกูล V4 [ | ออกแบบมาสำหรับงานที่ต้องการความเร็วและประสิทธิภาพสูงกว่า [ |
| ชื่อโมเดลใน API | deepseek-v4-pro [ | deepseek-v4-flash [ |
หน้าโมเดลและราคาของ DeepSeek ยังระบุว่าโมเดลทั้งสองมีความยาวเอาต์พุตสูงสุด 384K และรองรับความสามารถอย่าง Json Output และ Tool Calls [17] เมื่อมองรวมกัน สเปกเหล่านี้บอกว่าโจทย์ของ V4 ไม่ใช่แค่เพิ่มจำนวนพารามิเตอร์หรือขยายคอนเท็กซ์ให้ใหญ่ขึ้น แต่คือการแยก “รุ่นเน้นความสามารถ” และ “รุ่นเน้นประสิทธิภาพ” ออกมาเป็นผลิตภัณฑ์ที่เรียกใช้งานได้จริง
MoE สำคัญอย่างไร: ขนาดโมเดลกับต้นทุนต่อคำตอบเริ่มแยกจากกัน
เอกสารจาก API易 และ HyperAI ระบุว่า V4-Pro และ V4-Flash เป็นโมเดลแบบ Mixture-of-Experts หรือ MoE [2][
4] ในภาษาง่าย ๆ MoE คือแนวคิดที่มี “กลุ่มผู้เชี่ยวชาญ” หลายชุดอยู่ในโมเดล แต่ตอนประมวลผลหนึ่งครั้งจะเรียกใช้เพียงบางส่วน ไม่ได้ใช้พารามิเตอร์ทั้งหมดพร้อมกัน ดังนั้น total parameters จึงสะท้อนขนาดของคลังผู้เชี่ยวชาญ ส่วน active parameters คือส่วนที่ถูกใช้จริงในการอนุมานครั้งหนึ่ง ๆ [
1][
2][
4][
14]
ข้อดีคือความจุของโมเดลกับปริมาณคำนวณต่อคำตอบไม่จำเป็นต้องผูกกันแบบหนึ่งต่อหนึ่งอีกต่อไป แต่ต้นทุนก็ย้ายไปอยู่ที่ระบบเสิร์ฟโมเดล เช่น การเลือกเส้นทางไปยัง expert, expert parallelism, การสื่อสารข้ามอุปกรณ์ และการบาลานซ์โหลด ทีม SGLang / Miles ระบุหลังการเปิดตัวว่าได้รองรับทั้ง inference และ RL training สำหรับ V4 แล้ว และระบบของตนปรับให้เข้ากับ hybrid sparse-attention, mHC และ FP4 expert weights ซึ่งสะท้อนว่าความยากไม่ได้อยู่แค่ในไฟล์โมเดล แต่อยู่ลึกถึง serving/training stack ด้วย [5]
1M token context: ผู้ใช้ได้ความสะดวก แต่เซิร์ฟเวอร์รับภาระหนัก
เอกสารนักพัฒนาของ NVIDIA วางตำแหน่ง V4-Pro และ V4-Flash ว่าเป็นโมเดลสำหรับ million-token context inference ที่มีประสิทธิภาพ โดยยกตัวอย่างงานอย่างการเขียนโค้ดด้วยคอนเท็กซ์ยาว การวิเคราะห์เอกสาร การค้นคืนข้อมูล และเวิร์กโฟลว์แบบ agentic AI [1] เอกสาร DeepSeek API ก็ระบุคอนเท็กซ์ของทั้งสองรุ่นไว้ที่ 1M [
17]
สำหรับผู้ใช้ 1M token ช่วยลดการหั่นเอกสารเป็นชิ้นเล็ก ๆ ลดการต่อชิ้นข้อมูลผิดจังหวะ และลดโอกาสที่ระบบ RAG หรือ retrieval จะพลาดบริบทสำคัญ แต่สำหรับฝั่งบริการ ความยาวระดับนี้ขยายแรงกดดันต่อ attention computation, context/KV cache, หน่วยความจำ, แบนด์วิดท์ และการจัดตาราง throughput อย่างชัดเจน ดังนั้นการประเมิน V4 ไม่ควรดูแค่ตัวเลขหน้าต่างบริบท แต่ควรทดสอบกับ repository โค้ดจริง เอกสารยาวจริง ระบบ RAG และ agent toolchain จริง พร้อมวัด latency, ค่าใช้จ่าย, ความเสถียรของการอ้างอิงข้อมูลไกล ๆ และพฤติกรรมของ Tool Calls [1][
17]
สถาปัตยกรรม attention: ทิศทางชัด แต่ชื่อเทคนิคต้องอ่านอย่างระวัง
ข้อมูลสาธารณะเกี่ยวกับกลไก long context ของ V4 ใช้คำไม่เหมือนกันทั้งหมด API易 ระบุว่า 1M context ของ V4 อาศัย Hybrid Attention และ DSA sparse attention [2] ขณะที่ HyperAI สรุปว่า hybrid attention ผสาน Compressed Sparse Attention หรือ CSA กับ Heavily Compressed Attention หรือ HCA และกล่าวถึง mHC [
4] ฝั่ง SGLang / Miles ระบุว่าชุดโอเพนซอร์สของตนปรับให้รองรับ hybrid sparse-attention, mHC และ FP4 expert weights [
5]
การอ่านที่ปลอดภัยคือ ข้อมูลจากหลายแหล่งชี้ไปในทิศทางเดียวกันว่า V4 ใช้แนวทาง “attention แบบ sparse/ compressed/ hybrid + การปรับแต่งชั้นบริการ” เพื่อทำให้คอนเท็กซ์ยาวใช้งานได้จริง แต่รายละเอียดของแต่ละโมดูล ชื่อเรียกที่แน่นอน และผลลัพธ์เชิงปริมาณ ไม่ควรสรุปจากบทสรุปชั้นรองหรือวิดีโอเพียงอย่างเดียว หากต้องใช้ตัดสินใจเชิงระบบ ควรกลับไปตรวจ Model Card และ Technical Report ที่ DeepSeek ระบุไว้ใน Transparency Center [22]
API: ลดต้นทุนการย้ายระบบไว้ตั้งแต่ระดับผลิตภัณฑ์
Change log ของ DeepSeek ระบุว่า API รองรับ V4-Pro และ V4-Flash แล้ว โดยเรียกได้ผ่านทั้ง OpenAI ChatCompletions interface และ Anthropic interface การเข้าถึงโมเดลใหม่ไม่ต้องเปลี่ยน base_url แต่ต้องเปลี่ยนค่า model เป็น deepseek-v4-pro หรือ deepseek-v4-flash [18][
19] เอกสารเริ่มต้นใช้งาน API ระบุ base URL เป็น
https://api.deepseek.com สำหรับรูปแบบ OpenAI และ https://api.deepseek.com/anthropic สำหรับรูปแบบ Anthropic [20][
21]
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropicชื่อโมเดลเก่ามีกำหนดชัดเจนเช่นกัน: deepseek-chat และ deepseek-reasoner จะถูกเลิกใช้ในวันที่ 24 กรกฎาคม 2026 ระหว่างช่วงเปลี่ยนผ่าน ชื่อทั้งสองจะชี้ไปยัง deepseek-v4-flash ในโหมดไม่คิดและโหมดคิดตามลำดับ [18][
19][
21] สำหรับแอปที่ใช้งานอยู่แล้ว งานเร่งด่วนคือเปลี่ยนชื่อโมเดล เลือกระหว่าง Pro กับ Flash ให้ตรงกับงาน และทำ regression test เรื่อง long context, Tool Calls, ความยาวเอาต์พุต และต้นทุน [
17][
18]
ประเด็นที่ยังต้องพิสูจน์ด้วยงานจริง
ข้อแรกคือคำกล่าวเรื่องประสิทธิภาพนำหน้า ประกาศภาษาจีนของ DeepSeek ระบุว่า V4-Pro ทำได้ระดับนำในจีนและกลุ่มโอเพนซอร์สด้าน Agent, world knowledge และ reasoning พร้อมเทียบประสบการณ์กับโมเดลปิดบางรุ่น ส่วน API易 ก็ยกคะแนน benchmark เช่น SWE-Verified [15][
2] ข้อมูลเหล่านี้ใช้เป็นจุดตั้งต้นได้ แต่ผลลัพธ์จริงยังควรยืนยันด้วย prompt, ข้อจำกัดด้านต้นทุน และงานเฉพาะของแต่ละทีม
ข้อที่สองคือรายละเอียดกลไกภายใน คำอย่าง Hybrid Attention, DSA, CSA, HCA, mHC และ FP4 expert weights ปรากฏในแหล่งข้อมูลคนละระดับกัน และชื่อเรียกยังไม่เป็นชุดเดียวกันทั้งหมด [2][
4][
5] นอกเหนือจากรายงานเทคนิคทางการ จึงไม่ควรถือว่าทุกคำเป็นข้อเท็จจริงเชิง implementation ที่ตรวจสอบครบแล้ว [
22]
ข้อที่สามคือ 1M context ไม่ได้แปลว่าทุกคำขอที่อัดเต็มหน้าต่างจะ latency ต่ำและต้นทุนต่ำโดยอัตโนมัติ เอกสารทางการและเอกสารจาก ecosystem ยืนยันสเปกและการเรียกใช้ได้ แต่ประสบการณ์จริงยังขึ้นกับความยาวเอกสาร อัตรา cache hit จำนวนคำขอพร้อมกัน toolchain ที่ต่ออยู่ และเกณฑ์วัดผลของคุณเอง [1][
17][
18]
สรุปสำหรับทีมพัฒนา
จุดที่ทำให้ DeepSeek V4 น่าสนใจในเชิงวิศวกรรมคือการประกอบหลายชิ้นเข้าด้วยกัน: V4-Pro ที่ 1.6T/49B active, V4-Flash ที่ 284B/13B active, หน้าต่างบริบทสูงสุด 1M token และ API ที่เข้ากันได้กับรูปแบบ OpenAI/Anthropic อยู่ในสายผลิตภัณฑ์เดียวที่เรียกใช้งานได้ [1][
14][
17][
18]
สำหรับนักพัฒนา งานที่คุ้มกว่าการท่องสเปกคือทดสอบ end-to-end กับเอกสารยาว โค้ดเบส ระบบ RAG และ workflow แบบ Agent ของตัวเอง แล้ววางแผนย้ายชื่อโมเดลเก่าให้เสร็จก่อนวันที่ 24 กรกฎาคม 2026 [18][
21]




