اختزال DeepSeek V4 في عبارة «نموذج بسياق مليون توكن» يضيّع جزءًا مهمًا من القصة. الأقرب أنه إطلاق مركّب يجمع بين نموذجين هما V4-Pro وV4-Flash، وأرقام معلنة للمعاملات الكلية والنشطة، ونافذة سياق تصل إلى مليون توكن، وواجهات API متوافقة مع أسلوبي OpenAI وAnthropic.[18][
20]
مركز الشفافية لدى DeepSeek يضع إصدار V4.0 DeepSeek-V4 في 24 أبريل/نيسان 2026، مع روابط إلى Model Card وTechnical Report؛ كما تقول الإعلانات الرسمية إن نسخة DeepSeek-V4 Preview أصبحت متاحة ومفتوحة المصدر بالتزامن مع الإطلاق.[22][
14][
15]
المواصفات المؤكدة: Pro للسقف الأعلى وFlash للكفاءة
| البند | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| الحجم المعلن | 1.6 تريليون معامل كلي / 49 مليار معامل نشط [ | 284 مليار معامل كلي / 13 مليار معامل نشط [ |
| نافذة السياق | حتى 1M توكن [ | حتى 1M توكن [ |
| تموضع المنتج | أكبر نموذج في عائلة V4 [ | موجه لأحمال عمل أسرع وأكثر كفاءة [ |
| اسم النموذج في API | deepseek-v4-pro [ | deepseek-v4-flash [ |
صفحة النماذج والأسعار في DeepSeek تضيف أن الحد الأقصى لطول الإخراج في النموذجين هو 384K، مع دعم ميزات مثل Json Output وTool Calls.[17] هذه التفاصيل مهمة لأنها تقول إن DeepSeek لا تبيع «رقم سياق» فقط، بل تحاول تحويل طبقتين من الأداء — طبقة قدرة وطبقة كفاءة — إلى منتج قابل للاستدعاء مباشرة.
لماذا تهم MoE؟ السعة لا تعني أن كل الحسابات تعمل في كل طلب
تصف مواد API Yi وHyperAI نموذجي V4-Pro وV4-Flash بأنهما من فئة Mixture-of-Experts، أو «مزيج الخبراء» اختصارًا MoE.[2][
4] في هذا النوع من البنى، يشير رقم المعاملات الكلية إلى سعة «مجموعة الخبراء»، بينما يعبّر رقم المعاملات النشطة عن الجزء الذي يشارك فعليًا في حسابات استدلال معيّنة. لذلك تؤكد مواصفات V4 على الرقمين معًا: total parameters وactive parameters.[
1][
2][
4][
14]
الفائدة الهندسية هنا أن سعة النموذج وتكلفة الاستدلال في الطلب الواحد لا تبقيان مربوطتين بالكامل. لكن الثمن يظهر في الخادم: توجيه الطلب إلى الخبراء، تشغيل الخبراء بالتوازي، الاتصالات بين العتاد، وموازنة الأحمال. بعد إطلاق V4، قالت فرق SGLang وMiles إنها وفرت دعمًا للاستدلال وتدريب RL، وذكرت أن منصتها تكيّفت مع hybrid sparse-attention وmHC وFP4 expert weights، ما يوضح أن التعقيد لم يعد في النموذج وحده بل في طبقة التشغيل والتدريب أيضًا.[5]
سياق 1M توكن: العبء الحقيقي يظهر في التشغيل
مواد NVIDIA للمطورين تضع V4-Pro وV4-Flash في خانة النماذج المصممة لاستدلال فعال بسياق يصل إلى مليون توكن، وتذكر أمثلة مثل البرمجة بسياق طويل، تحليل الوثائق، الاسترجاع، وتدفقات عمل الذكاء الاصطناعي الوكيلي Agentic AI.[1] كما تسجل وثائق DeepSeek API أن طول السياق في النموذجين هو 1M.[
17]
للمستخدم، القيمة المباشرة لنافذة بهذا الحجم هي تقليل الحاجة إلى تقطيع الملفات، وترقيع المقاطع، وخطر ضياع أجزاء مهمة أثناء الاسترجاع. أما للخادم، فالمليون توكن يضخم ضغط حسابات الانتباه، وذاكرة السياق المؤقتة، واستهلاك الذاكرة الرسومية وعرض النطاق، وجدولة الإنتاجية. لذلك لا يكفي الحكم على V4 من رقم النافذة وحده؛ الاختبار الجاد يجب أن يتم على مستودعات كود، ووثائق طويلة، وأنظمة RAG، وسلاسل أدوات Agent، مع قياس التأخير والتكلفة وثبات الإحالات البعيدة وجودة استدعاء الأدوات.[1][
17]
بنية الانتباه: الاتجاه واضح، لكن المصطلحات تحتاج حذرًا
حول كفاءة السياق الطويل، لا تستخدم المواد العامة المصطلحات نفسها دائمًا. API Yi تقول إن سياق V4 البالغ 1M يعتمد على Hybrid Attention وDSA sparse attention.[2] ملخص HyperAI يتحدث عن hybrid attention يجمع بين Compressed Sparse Attention أو CSA وHeavily Compressed Attention أو HCA، ويذكر كذلك mHC.[
4] أما SGLang وMiles فيقولان إن حزمتهما المفتوحة تكيّفت مع hybrid sparse-attention وmHC وFP4 expert weights.[
5]
القراءة الأكثر أمانًا: مواد منظومة V4 تشير عمومًا إلى مسار «انتباه متفرق/مضغوط/هجين + تحسينات في طبقة الخدمة». لكن أسماء الوحدات، وتفاصيل التنفيذ، وحجم الأثر الفعلي لا ينبغي تثبيتها اعتمادًا على ملخصات ثانوية أو مقاطع فيديو فقط. المرجع الأفضل للتدقيق هو Model Card وTechnical Report المدرجان في مركز الشفافية لدى DeepSeek.[22]
تطبيق API: تقليل كلفة الانتقال جزء من التصميم
يوضح سجل تحديثات DeepSeek أن API بات يدعم V4-Pro وV4-Flash عبر واجهة OpenAI ChatCompletions وواجهة Anthropic؛ وعند الوصول إلى النموذجين الجديدين يبقى base_url كما هو، ويكفي تغيير قيمة model إلى deepseek-v4-pro أو deepseek-v4-flash.[18][
19] وتعرض وثائق أول استدعاء رسمي عناوين الأساس:
https://api.deepseek.com لصيغة OpenAI، وhttps://api.deepseek.com/anthropic لصيغة Anthropic.[20][
21]
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropicهناك أيضًا موعد واضح لأسماء النماذج القديمة: deepseek-chat وdeepseek-reasoner سيجري إيقافهما في 24 يوليو/تموز 2026؛ وخلال الفترة الانتقالية يشيران على التوالي إلى الوضع غير التفكيري والوضع التفكيري في deepseek-v4-flash.[18][
19][
21] بالنسبة إلى التطبيقات القائمة، الأولوية العملية هي تبديل اسم النموذج، حسم الاختيار بين Pro وFlash، ثم إجراء اختبارات رجعية للسياق الطويل، واستدعاء الأدوات، وطول الإخراج، والتكلفة.[
17][
18]
ما الذي يحتاج تحققًا مستقلًا؟
أولًا، يجب التعامل بحذر مع ادعاءات التفوق في الأداء. الصفحة الصينية الرسمية تقول إن V4-Pro بلغ موقعًا متقدمًا محليًا وفي مجال النماذج المفتوحة في قدرات Agent والمعرفة العامة والاستدلال، وتعرض مقارنات تجربة مع بعض النماذج المغلقة؛ كما تسرد API Yi نتائج benchmark مثل SWE-Verified.[15][
2] هذه مفيدة بوصفها ادعاءات من الجهة الناشرة والمنظومة المحيطة، لكنها لا تغني عن إعادة الاختبار في مهام فعلية، وبقيود تكلفة، وموجهات مختلفة.
ثانيًا، تفاصيل الآليات الداخلية ينبغي قراءتها على طبقات. مصطلحات Hybrid Attention وDSA وCSA وHCA وmHC وFP4 expert weights ظهرت في مواد عامة مختلفة، لكن مستوى المصدر والتسمية ليسا موحدين دائمًا.[2][
4][
5] خارج التقرير التقني الرسمي، من غير الحكيم التعامل مع كل مصطلح كحقيقة تنفيذية مكتملة التحقق.[
22]
ثالثًا، سياق 1M لا يعني تلقائيًا أن كل طلب يملأ النافذة سيكون منخفض التأخير أو منخفض التكلفة. ما تؤكده المواد الرسمية ومواد المنظومة هو اتجاه المواصفات وإمكانية الاستدعاء؛ أما الأداء الفعلي فيعتمد على طول مستنداتك، ومعدل إصابة الكاش، والتزامن، وسلسلة الأدوات، ومعايير القياس التي تستخدمها.[1][
17][
18]
الخلاصة العملية
الهندسة اللافتة في DeepSeek V4 ليست رقمًا منفردًا، بل تجميع عدة قرارات في خط منتج واحد: V4-Pro بـ1.6T معامل كلي و49B نشط، وV4-Flash بـ284B معامل كلي و13B نشط، وسياق يصل إلى 1M توكن، وAPI متوافق مع OpenAI وAnthropic.[1][
14][
17][
18] للمطورين، الإجراء الأهم الآن ليس تكرار عبارات التسويق، بل اختبار النموذج على وثائقهم الطويلة ومستودعاتهم وأنظمة RAG وتدفقات Agent الخاصة بهم، مع إكمال ترحيل أسماء النماذج القديمة قبل 24 يوليو/تموز 2026.[
18][
21]




