studioglobal
الأكثر رواجًا في الاكتشاف
التقاريرمنشور12 المصادر

DeepSeek V4: قراءة هندسية في سياق 1M وMoE وخطوات ترحيل API

قوة DeepSeek V4 ليست في رقم واحد فقط: V4 Pro يأتي بـ1.6T معامل كلي و49B معامل نشط، وV4 Flash بـ284B معامل كلي و13B معامل نشط، وكلاهما يدعم سياقًا يصل إلى 1M توكن.[1][14][17] للمطورين، خطوة الترحيل الأولى واضحة: استخدام deepseek v4 pro أو deepseek v4 flash، مع الانتباه إلى أن اسمي deepseek chat وdeepseek reasoner سيُ...

12K0
DeepSeek V4 工程架构示意图,包含 1M 上下文、MoE 专家路由和 API 服务化元素
DeepSeek V4 工程解析:1M 上下文背后的 MoE 与 API 落地AI 生成的 DeepSeek V4 工程示意图,表现百万 token 上下文、MoE 专家路由与 API 服务化。
موجّه الذكاء الاصطناعي

Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 工程解析:1M 上下文背后的 MoE 与 API 落地. Article summary: DeepSeek V4 的核心是系统工程组合:2026 04 24 发布的 V4 Pro(1.6T/49B active)与 V4 Flash(284B/13B active)都面向 1M token 上下文;可靠事实是规格和 API 已公开,性能领先幅度与部分内部机制仍需独立验证。. Topic tags: ai, deepseek, llm, mixture of experts, long context. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek-V4 深夜炸场:1M 上下文、384K 输出、双模型,API 定价直接卷到底. 2026年4月24日,DeepSeek 官方公众号深夜推送了一篇文章——**DeepSeek-V4 预览版正式上线**。. | | **DeepSeek-V4-Flash** | **DeepSeek-V4-Pro** |. | 上下文长度 | **1M" source context "DeepSeek-V4 深夜炸场:1M 上下文、384K 输出、双模型,API 定价直接卷到底 - iTech - 博客园" Reference image 2: visual subject "# DeepSeek-V4 深夜炸场:1M 上下文、384K 输出、双模型,API 定价直接卷到底. 2026年4月24日,DeepSeek 官方公众号深夜推送了一篇文章——**DeepSeek-V4 预览版正式上线**。. | | **DeepSeek-V4-Flash** | **DeepSeek-V4-Pro** |. | 上下文长度 | **1M" sour

openai.com

اختزال DeepSeek V4 في عبارة «نموذج بسياق مليون توكن» يضيّع جزءًا مهمًا من القصة. الأقرب أنه إطلاق مركّب يجمع بين نموذجين هما V4-Pro وV4-Flash، وأرقام معلنة للمعاملات الكلية والنشطة، ونافذة سياق تصل إلى مليون توكن، وواجهات API متوافقة مع أسلوبي OpenAI وAnthropic.[18][20]

مركز الشفافية لدى DeepSeek يضع إصدار V4.0 DeepSeek-V4 في 24 أبريل/نيسان 2026، مع روابط إلى Model Card وTechnical Report؛ كما تقول الإعلانات الرسمية إن نسخة DeepSeek-V4 Preview أصبحت متاحة ومفتوحة المصدر بالتزامن مع الإطلاق.[22][14][15]

المواصفات المؤكدة: Pro للسقف الأعلى وFlash للكفاءة

البندDeepSeek-V4-ProDeepSeek-V4-Flash
الحجم المعلن1.6 تريليون معامل كلي / 49 مليار معامل نشط [1][14]284 مليار معامل كلي / 13 مليار معامل نشط [1][14]
نافذة السياقحتى 1M توكن [1][17]حتى 1M توكن [1][17]
تموضع المنتجأكبر نموذج في عائلة V4 [1]موجه لأحمال عمل أسرع وأكثر كفاءة [1]
اسم النموذج في APIdeepseek-v4-pro [18][20]deepseek-v4-flash [18][20]

صفحة النماذج والأسعار في DeepSeek تضيف أن الحد الأقصى لطول الإخراج في النموذجين هو 384K، مع دعم ميزات مثل Json Output وTool Calls.[17] هذه التفاصيل مهمة لأنها تقول إن DeepSeek لا تبيع «رقم سياق» فقط، بل تحاول تحويل طبقتين من الأداء — طبقة قدرة وطبقة كفاءة — إلى منتج قابل للاستدعاء مباشرة.

لماذا تهم MoE؟ السعة لا تعني أن كل الحسابات تعمل في كل طلب

تصف مواد API Yi وHyperAI نموذجي V4-Pro وV4-Flash بأنهما من فئة Mixture-of-Experts، أو «مزيج الخبراء» اختصارًا MoE.[2][4] في هذا النوع من البنى، يشير رقم المعاملات الكلية إلى سعة «مجموعة الخبراء»، بينما يعبّر رقم المعاملات النشطة عن الجزء الذي يشارك فعليًا في حسابات استدلال معيّنة. لذلك تؤكد مواصفات V4 على الرقمين معًا: total parameters وactive parameters.[1][2][4][14]

الفائدة الهندسية هنا أن سعة النموذج وتكلفة الاستدلال في الطلب الواحد لا تبقيان مربوطتين بالكامل. لكن الثمن يظهر في الخادم: توجيه الطلب إلى الخبراء، تشغيل الخبراء بالتوازي، الاتصالات بين العتاد، وموازنة الأحمال. بعد إطلاق V4، قالت فرق SGLang وMiles إنها وفرت دعمًا للاستدلال وتدريب RL، وذكرت أن منصتها تكيّفت مع hybrid sparse-attention وmHC وFP4 expert weights، ما يوضح أن التعقيد لم يعد في النموذج وحده بل في طبقة التشغيل والتدريب أيضًا.[5]

سياق 1M توكن: العبء الحقيقي يظهر في التشغيل

مواد NVIDIA للمطورين تضع V4-Pro وV4-Flash في خانة النماذج المصممة لاستدلال فعال بسياق يصل إلى مليون توكن، وتذكر أمثلة مثل البرمجة بسياق طويل، تحليل الوثائق، الاسترجاع، وتدفقات عمل الذكاء الاصطناعي الوكيلي Agentic AI.[1] كما تسجل وثائق DeepSeek API أن طول السياق في النموذجين هو 1M.[17]

للمستخدم، القيمة المباشرة لنافذة بهذا الحجم هي تقليل الحاجة إلى تقطيع الملفات، وترقيع المقاطع، وخطر ضياع أجزاء مهمة أثناء الاسترجاع. أما للخادم، فالمليون توكن يضخم ضغط حسابات الانتباه، وذاكرة السياق المؤقتة، واستهلاك الذاكرة الرسومية وعرض النطاق، وجدولة الإنتاجية. لذلك لا يكفي الحكم على V4 من رقم النافذة وحده؛ الاختبار الجاد يجب أن يتم على مستودعات كود، ووثائق طويلة، وأنظمة RAG، وسلاسل أدوات Agent، مع قياس التأخير والتكلفة وثبات الإحالات البعيدة وجودة استدعاء الأدوات.[1][17]

بنية الانتباه: الاتجاه واضح، لكن المصطلحات تحتاج حذرًا

حول كفاءة السياق الطويل، لا تستخدم المواد العامة المصطلحات نفسها دائمًا. API Yi تقول إن سياق V4 البالغ 1M يعتمد على Hybrid Attention وDSA sparse attention.[2] ملخص HyperAI يتحدث عن hybrid attention يجمع بين Compressed Sparse Attention أو CSA وHeavily Compressed Attention أو HCA، ويذكر كذلك mHC.[4] أما SGLang وMiles فيقولان إن حزمتهما المفتوحة تكيّفت مع hybrid sparse-attention وmHC وFP4 expert weights.[5]

القراءة الأكثر أمانًا: مواد منظومة V4 تشير عمومًا إلى مسار «انتباه متفرق/مضغوط/هجين + تحسينات في طبقة الخدمة». لكن أسماء الوحدات، وتفاصيل التنفيذ، وحجم الأثر الفعلي لا ينبغي تثبيتها اعتمادًا على ملخصات ثانوية أو مقاطع فيديو فقط. المرجع الأفضل للتدقيق هو Model Card وTechnical Report المدرجان في مركز الشفافية لدى DeepSeek.[22]

تطبيق API: تقليل كلفة الانتقال جزء من التصميم

يوضح سجل تحديثات DeepSeek أن API بات يدعم V4-Pro وV4-Flash عبر واجهة OpenAI ChatCompletions وواجهة Anthropic؛ وعند الوصول إلى النموذجين الجديدين يبقى base_url كما هو، ويكفي تغيير قيمة model إلى deepseek-v4-pro أو deepseek-v4-flash.[18][19] وتعرض وثائق أول استدعاء رسمي عناوين الأساس: https://api.deepseek.com لصيغة OpenAI، وhttps://api.deepseek.com/anthropic لصيغة Anthropic.[20][21]

text
model: deepseek-v4-pro
model: deepseek-v4-flash

OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropic

هناك أيضًا موعد واضح لأسماء النماذج القديمة: deepseek-chat وdeepseek-reasoner سيجري إيقافهما في 24 يوليو/تموز 2026؛ وخلال الفترة الانتقالية يشيران على التوالي إلى الوضع غير التفكيري والوضع التفكيري في deepseek-v4-flash.[18][19][21] بالنسبة إلى التطبيقات القائمة، الأولوية العملية هي تبديل اسم النموذج، حسم الاختيار بين Pro وFlash، ثم إجراء اختبارات رجعية للسياق الطويل، واستدعاء الأدوات، وطول الإخراج، والتكلفة.[17][18]

ما الذي يحتاج تحققًا مستقلًا؟

أولًا، يجب التعامل بحذر مع ادعاءات التفوق في الأداء. الصفحة الصينية الرسمية تقول إن V4-Pro بلغ موقعًا متقدمًا محليًا وفي مجال النماذج المفتوحة في قدرات Agent والمعرفة العامة والاستدلال، وتعرض مقارنات تجربة مع بعض النماذج المغلقة؛ كما تسرد API Yi نتائج benchmark مثل SWE-Verified.[15][2] هذه مفيدة بوصفها ادعاءات من الجهة الناشرة والمنظومة المحيطة، لكنها لا تغني عن إعادة الاختبار في مهام فعلية، وبقيود تكلفة، وموجهات مختلفة.

ثانيًا، تفاصيل الآليات الداخلية ينبغي قراءتها على طبقات. مصطلحات Hybrid Attention وDSA وCSA وHCA وmHC وFP4 expert weights ظهرت في مواد عامة مختلفة، لكن مستوى المصدر والتسمية ليسا موحدين دائمًا.[2][4][5] خارج التقرير التقني الرسمي، من غير الحكيم التعامل مع كل مصطلح كحقيقة تنفيذية مكتملة التحقق.[22]

ثالثًا، سياق 1M لا يعني تلقائيًا أن كل طلب يملأ النافذة سيكون منخفض التأخير أو منخفض التكلفة. ما تؤكده المواد الرسمية ومواد المنظومة هو اتجاه المواصفات وإمكانية الاستدعاء؛ أما الأداء الفعلي فيعتمد على طول مستنداتك، ومعدل إصابة الكاش، والتزامن، وسلسلة الأدوات، ومعايير القياس التي تستخدمها.[1][17][18]

الخلاصة العملية

الهندسة اللافتة في DeepSeek V4 ليست رقمًا منفردًا، بل تجميع عدة قرارات في خط منتج واحد: V4-Pro بـ1.6T معامل كلي و49B نشط، وV4-Flash بـ284B معامل كلي و13B نشط، وسياق يصل إلى 1M توكن، وAPI متوافق مع OpenAI وAnthropic.[1][14][17][18] للمطورين، الإجراء الأهم الآن ليس تكرار عبارات التسويق، بل اختبار النموذج على وثائقهم الطويلة ومستودعاتهم وأنظمة RAG وتدفقات Agent الخاصة بهم، مع إكمال ترحيل أسماء النماذج القديمة قبل 24 يوليو/تموز 2026.[18][21]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ابحث وتحقق من الحقائق مع Studio Global AI

الوجبات السريعة الرئيسية

  • قوة DeepSeek V4 ليست في رقم واحد فقط: V4 Pro يأتي بـ1.6T معامل كلي و49B معامل نشط، وV4 Flash بـ284B معامل كلي و13B معامل نشط، وكلاهما يدعم سياقًا يصل إلى 1M توكن.[1][14][17]
  • للمطورين، خطوة الترحيل الأولى واضحة: استخدام deepseek v4 pro أو deepseek v4 flash، مع الانتباه إلى أن اسمي deepseek chat وdeepseek reasoner سيُوقفان في 24 يوليو/تموز 2026.[18][19][21]
  • اختبار V4 لا ينبغي أن يتوقف عند ملء نافذة المليون توكن؛ الأهم هو قياس التأخير، التكلفة، ثبات الاسترجاع، واستدعاء الأدوات في مستودعات كود ووثائق طويلة وسلاسل RAG وAgent حقيقية.

يسأل الناس أيضا

ما هي الإجابة المختصرة على "DeepSeek V4: قراءة هندسية في سياق 1M وMoE وخطوات ترحيل API"؟

قوة DeepSeek V4 ليست في رقم واحد فقط: V4 Pro يأتي بـ1.6T معامل كلي و49B معامل نشط، وV4 Flash بـ284B معامل كلي و13B معامل نشط، وكلاهما يدعم سياقًا يصل إلى 1M توكن.[1][14][17]

ما هي النقاط الأساسية التي يجب التحقق منها أولاً؟

قوة DeepSeek V4 ليست في رقم واحد فقط: V4 Pro يأتي بـ1.6T معامل كلي و49B معامل نشط، وV4 Flash بـ284B معامل كلي و13B معامل نشط، وكلاهما يدعم سياقًا يصل إلى 1M توكن.[1][14][17] للمطورين، خطوة الترحيل الأولى واضحة: استخدام deepseek v4 pro أو deepseek v4 flash، مع الانتباه إلى أن اسمي deepseek chat وdeepseek reasoner سيُوقفان في 24 يوليو/تموز 2026.[18][19][21]

ماذا يجب أن أفعل بعد ذلك في الممارسة العملية؟

اختبار V4 لا ينبغي أن يتوقف عند ملء نافذة المليون توكن؛ الأهم هو قياس التأخير، التكلفة، ثبات الاسترجاع، واستدعاء الأدوات في مستودعات كود ووثائق طويلة وسلاسل RAG وAgent حقيقية.

ما هو الموضوع ذو الصلة الذي يجب أن أستكشفه بعد ذلك؟

تابع مع "Claude Opus 4.7 ضد GPT-5.5 وDeepSeek V4 وKimi K2.6: من يتصدر اختبارات أداء 2026؟" لزاوية أخرى واستشهادات إضافية.

فتح الصفحة ذات الصلة

ما الذي يجب أن أقارنه بهذا؟

تحقق من هذه الإجابة مقابل "أخشاب Northwest وSoutheast: لماذا تكون الإجابة larger; larger؟".

فتح الصفحة ذات الصلة

مواصلة البحث الخاص بك

محادثة بحثية

أنت

سؤال بحثي

研究「The insane engineering of Deepseek V4」

Studio Global AI26 المصادر

إجابة مستشهد بها

我把「The insane engineering of Deepseek V4」理解为:围绕 DeepSeek V4 的工程设计做一份可核查的研究摘要。结论是:V4 的“疯狂工程”主要不在单一算法,而在把超大 MoE、百万 token 上下文、稀疏/混合注意力、低活跃参数推理和服务栈适配组合到一起;但目前很多性能和架构细节仍主要来自官方或生态方材料,独立评测证据还不充分。

Key findings

  • DeepSeek-V4 预览版已上线,官方称其支持 1M 超长上下文,并分为 V4-Pro 与 V4-Flash 两个版本。[7]

  • V4-Pro 的公开规格是 1.6T 总参数、49B 激活参数;V4-Flash 的公开规格是 284B 总参数、13B 激活参数。[2][5]

  • 这说明 V4 继续采用稀疏激活的 MoE 思路:模型总容量很大,但每个 token 只激活一小部分参数,从而把“模型容量”和“推理成本”部分解耦。[2][5]

  • 百万 token 上下文是 V4 最核心的工程卖点之一,因为长上下文推理的瓶颈通常会集中在注意力计算、KV cache 存储、显存带宽和跨设备通信上。[2][7]

  • 第三方 API 文档称 V4 的 1M 上下文依赖 Hybrid Attention 与 DSA sparse attention,但这一点应视为生态方说明,而不是完整技术论文级证据。[3]

  • DeepSeek 官方 API 文档显示,V4-Pro 与 V4-Flash 可通过 OpenAI Chat Completions 接口和 Anthropic 兼容接口调用,模型名分别为 deepseek-v4-prodeepseek-v4-flash[12][16]

  • 官方更新日志称旧模型名 deepseek-chatdeepseek-reasoner 将在 2026-07-24 后停止使用,并在过渡期分别指向新的 V4 系列模型。[12]

  • NVIDIA 的开发者材料把 V4 定位为面向高效百万 token 上下文推理的模型,并提到可在 Blackwell 与 GPU 加速端点上构建应用。[2]

  • SGLang / LMSYS 生态方称其在发布日提供了 DeepSeek-V4 的推理与 RL 训练支持,这说明 V4 的工程影响不只是模型本身,还包括开源 serving / training stack 的适配。[11]

为什么说它“工程量很大”

  • 参数规模与激活规模的差异很大:V4-Pro 是 1.6T 总参数但每次只激活 49B 参数,这要求路由、专家并行、负载均衡和通信调度都足够稳定,否则 MoE 的理论效率会被系统开销吃掉。[2][5]

  • 1M 上下文会显著放大 KV cache 与注意力计算压力,因此如果没有稀疏注意力、分层缓存、分页 KV 或类似机制,推理成本会很难控制。[2][3]

  • V4-Flash 的 284B 总参数 / 13B 激活参数定位明显偏向低成本、高吞吐服务,而 V4-Pro 则偏向能力上限,这是一种“同架构、多成本档位”的产品工程策略。[2][5]

  • API 层同时兼容 OpenAI 与 Anthropic 格式,降低了迁移成本;这类兼容性本身不是模型创新,但对实际采用率很关键。[12][16]

  • Day-0 生态支持意味着模型权重、推理 kernel、调度器、并行策略和训练/强化学习工具链需要快速协同适配,这通常比单纯发布权重更复杂。[11]

Evidence notes

  • 最强证据来自 DeepSeek 官方 API/公告页面和 NVIDIA 开发者材料;这些来源能支持模型名称、参数规模、上下文长度和 API 支持等事实。[2][5][7][12]

  • 关于 Hybrid Attention、DSA sparse attention 等具体架构细节,目前我找到的强证据主要来自生态方或聚合文档,不等同于完整官方技术报告或同行评审论文。[3]

  • 学术搜索没有找到明确的 DeepSeek-V4 专门技术报告;只找到与长上下文、混合架构相关的相邻研究,因此不能用它来严格证明 V4 的内部实现。[1]

Limitations / uncertainty

  • Insufficient evidence:目前没有足够独立证据确认 V4 在所有公开 benchmark 上“比肩顶级闭源模型”的具体幅度。

  • Insufficient evidence:没有足够证据验证视频或文章中可能提到的所有内部工程细节,例如训练成本、具体 GPU 数量、完整数据配方、路由算法细节或真实线上延迟。

  • Insufficient evidence:若有人声称 V4 使用某些未被官方技术报告明确确认的专有机制,应先视为未经充分验证的说法。

Summary

DeepSeek V4 的核心看点是:用 MoE 把总容量做到万亿级,同时把每 token 激活参数压到几十 B;再用百万 token 上下文、稀疏/混合注意力和工程化 serving stack,把超长上下文模型做成可调用的 API 产品。[2][5][7][12] 这确实是复杂系统工程,但目前应把“规格与可用性”视为较可靠事实,把“性能领先幅度与内部实现细节”视为仍需独立验证的部分。

المصادر

  • [1] Build with DeepSeek V4 Using NVIDIA Blackwell and GPU ...developer.nvidia.com

    DeepSeek just launched its fourth generation of flagship models with DeepSeek-V4-Pro and DeepSeek-V4-Flash, both targeted at enabling highly efficient million-token context inference. DeepSeek-V4-Pro is the largest model in the family, with 1.6T total param...

  • [2] DeepSeek V4-Pro / V4-Flash Launch: 1M Context + Open ... - API易docs.apiyi.com

    - Two models launched : deepseek-v4-pro (1.6T total / 49B active) and deepseek-v4-flash (284B total / 13B active), both MoE - 1M context : Full 1,000,000-token context across the family, powered by a new Hybrid Attention architecture + DSA sparse attention...

  • [4] HyperAIbeta.hyper.ai

    We present a preview version of DeepSeek-V4 series, including two strong Mixture-of-Experts (MoE) language models — DeepSeek-V4-Pro with 1.6T parameters (49B activated) and DeepSeek-V4-Flash with 284B parameters (13B activated) — both supporting a context l...

  • [5] DeepSeek-V4 on Day 0: From Fast Inference to Verified RL with ...lmsys.org

    - HiSparse: Turbocharging Sparse Attention with Hierarchical Memory ... The SGLang and Miles TeamApril 25, 2026 We are thrilled to announce Day-0 support for DeepSeek-V4 across both inference and RL training. SGLang and Miles form the first open-source stac...

  • [14] Dedicated Optimizations For...api-docs.deepseek.com

    DeepSeek V4 Preview Release 🚀 DeepSeek-V4 Preview is officially live & open-sourced! Welcome to the era of cost-effective 1M context length. 🔹 DeepSeek-V4-Pro: 1.6T total / 49B active params. Performance rivaling the world's top closed-source models. 🔹 D...

  • [15] DeepSeek-V4 预览版:迈入百万上下文普惠时代api-docs.deepseek.com

    DeepSeek-V4 预览版:迈入百万上下文普惠时代 今天,我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。 DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本: 即日起登录官网 chat.deepseek.com 或官方App,即可与最新的 DeepSeek-V4 对话,探索 1M 超长上下文记忆的全新体验。API 服务已同步更新,通过修改 model name 为 deepseek-v4-pr...

  • [17] 模型& 价格 - DeepSeek API Docsapi-docs.deepseek.com

    模型细节 ​ 模型 模型 deepseek-v4-flash^(1)^ deepseek-v4-pro -- -- -- -- BASE URL (OpenAI 格式) BASE URL (OpenAI 格式) BASE URL (Anthropic 格式) BASE URL (Anthropic 格式) 模型版本 模型版本 DeepSeek-V4-Flash DeepSeek-V4-Pro 思考模式 思考模式 支持非思考与思考模式(默认) 切换方式详见思考模式 支持非思考与思考模式(默认) 切换方式详见思考...

  • [18] 更新日志 - DeepSeek API Docsapi-docs.deepseek.com

    时间: 2026-04-24​ DeepSeek-V4​ DeepSeek API 已支持 V4-Pro 与 V4-Flash,支持 OpenAI ChatCompletions 接口与 Anthropic 接口。访问新模型时,base url 不变, model 参数需要改为 或 旧有的 API 接口的两个模型名 与 将于三个月后(2026-07-24)停止使用。当前阶段内,这两个模型名分别 指向 的非思考模式与思考模式。 ... 我们非正式部署了 DeepSeek-V3.2-Speciale 的 API...

  • [19] Change Log | DeepSeek API Docsapi-docs.deepseek.com

    Date: 2026-04-24​ DeepSeek-V4​ The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the base url remains unchanged, and the model parameter should b...

  • [20] DeepSeek API Docs: Your First API Callapi-docs.deepseek.com

    Your First API Call The DeepSeek API uses an API format compatible with OpenAI/Anthropic. By modifying the configuration, you can use the OpenAI/Anthropic SDK or softwares compatible with the OpenAI/Anthropic API to access the DeepSeek API. PARAM VALUE -- -...

  • [21] 首次调用APIapi-docs.deepseek.com

    DeepSeek API 使用与 OpenAI/Anthropic 兼容的 API 格式,通过修改配置,您可以使用 OpenAI/Anthropic SDK 来访问 DeepSeek API,或使用与 OpenAI/Anthropic API 兼容的软件。 PARAM VALUE -- -- base url (OpenAI) base url (Anthropic) api key apply for an API key model (将于 2026/07/24 弃用) (将于 2026/07/24 弃用...

  • [22] Transparency Center - DeepSeekdeepseek.com

    Learn about DeepSeek's published models Model Principles and Training Methodology View Details V4.0DeepSeek-V4New Release Date April 24, 2026 Model CardTechnical ReportV3.2DeepSeek-V3.2 Release Date December 1, 2025 Model CardTechnical Report