تكمن نقطة الاختلاف الجوهرية عن التصاميم التقليدية في الخيارات المعمارية للنموذج. بدلاً من Transformer التقليدي الكثيف، يستخدم Ultra بنية خليط خبراء كامن هجين (LatentMoE) تدمج طبقات من نماذج فضاء الحالة Mamba-2 مع طبقات خليط الخبراء وعدد قليل من طبقات الانتباه (Attention) القياسية .
يعالج هذا التصميم مباشرة أكبر عائقين يواجهان مهام الوكلاء طويلة الأمد: استهلاك الذاكرة وسرعة الاستدلال. تتوسع نماذج فضاء الحالة مثل Mamba-2 خطيًا مع طول التسلسل، بدلاً من التوسع التربيعي كما في آليات الانتباه. بدمجها مع توجيه MoE - حيث يُنشَّط جزء بسيط فقط من إجمالي المعاملات لكل رمز - حققت إنفيديا نموذجًا يحافظ على دقة من الطراز الأول مع سرعة تشغيل تفوق المنافسين من نفس المستوى بشكل كبير .
تضم البنية أيضًا تقنية التنبؤ متعدد الرموز (Multi-Token Prediction - MTP)، حيث يتنبأ النموذج بعدة رموز مستقبلية دفعة واحدة أثناء التوليد، مما يزيد الإنتاجية دون الحاجة لنموذج مسودة منفصل .
نافذة السياق البالغة مليون رمز هي خيار متعمد آخر. في تطبيقات الوكلاء، يجب أن يحافظ النموذج على الحالة عبر عشرات أو مئات من استدعاءات الأدوات، وأن يُبقي تاريخًا طويلًا من التخطيط في الذاكرة، ويحلل مستودعات أكواد ضخمة. النوافذ الأصغر تُجبر الوكلاء على الاقتطاع أو التلخيص، مما يؤدي لفقدان معلومات حاسمة. بينما يسمح حد المليون رمز باستمرار حالة الوكيل وسجلاته وخططه بالكامل طوال الجلسات الممتدة .
على مؤشر Artificial Analysis Intelligence Index - وهو معيار مركب لقياس قدرات النموذج - يسجل Nemotron 3 Ultra 48 نقطة، ليكون بذلك النموذج مفتوح الوزن الأعلى تصنيفًا من أي مطور أمريكي . يضعه هذا الرقم متقدمًا على Llama 3.1 405B و Mixtral 8x22B، مع بقائه خلف أفضل النماذج الصينية المفتوحة في القدرة الكلية
.
لكن الرقم الأهم قد يكون معدل الإنتاجية. وفقًا للتقرير التقني من إنفيديا، يحقق Nemotron 3 Ultra ما يصل إلى 6 أضعاف سرعة استدلال أعلى مقارنة بأحدث النماذج اللغوية المفتوحة الكبيرة، مع الحفاظ على دقة متكافئة . عند استخدام صيغة NVFP4 الكمومية على منصة Blackwell من إنفيديا، يصل النموذج إلى سرعة استدلال أسرع بـ 5 مرات ويُقلل التكلفة الإجمالية لمهام الوكلاء المعقدة بنسبة تصل إلى 30%
.
تظهر مقارنات الإنتاجية من التقرير التقني تفوقه على GLM-5.1-754B بـ 5.9 أضعاف، وعلى Kimi-K2.6-1T بـ 4.8 أضعاف، وعلى Qwen-3.5-397B بـ 1.6 ضعفًا، كل ذلك ضمن إعداد 8,000 رمز إدخال و 64,000 رمز إخراج .
لكن قصة المعايير ليست هيمنة كاملة. في اختبارات فردية مثل MMLU، HumanEval، و GSM8K، يتفوق النموذج على Llama 3.1 405B و Mixtral 8x22B، لكن بيانات المصادر تظهر نتائج مختلطة مقابل نماذج مثل GPT-4o في بعض المقاييس . التقرير التقني نفسه يصوغ الميزة على أنها تتعلق بـ "حدود الإنتاجية مقابل الدقة"، لا قيادة الدقة الخام وحدها
.
أصدرت إنفيديا أوزان النموذج على منصة Hugging Face بصيغتين: نسخة NVFP4 الكمومية (NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) لأقصى سرعة على عتاد Blackwell، ونسخة BF16 كاملة للبيئات التي تحتاج أعلى دقة . الأوزان مفتوحة تحت ترخيص OpenMDW من مؤسسة لينكس، والتزمت إنفيديا بإصدار وصفات التدريب ومجموعات البيانات حيثما كان ذلك مرخصًا
.
متطلبات العتاد، مع ذلك، كبيرة. الحد الأدنى لنشر النموذج هو 4 وحدات GB200، أو 4 وحدات B200، أو 4 وحدات GB300، أو 4 وحدات B300، أو 8 وحدات H100 . للمطورين الراغبين في التجريب محليًا، تتوفر نسخ GGUF مُكمّمة عبر Unsloth، حيث يأخذ خيار 1-بت الديناميكي حوالي 189 جيجابايت من مساحة القرص
.
النشر السحابي مُبسّط من خلال التوفر الفوري على Amazon SageMaker JumpStart، الذي يوفر نشرًا بنقرة واحدة للشركات العاملة على بنية AWS التحتية .
Nemotron 3 Ultra ليس إعلانًا لمنتج منعزل. إنه القطعة الأكثر ظهورًا في خطة استراتيجية أوسع لإنفيديا لتصبح المزوّد الافتراضي للبنية التحتية لوكلاء الذكاء الاصطناعي. تقع مكونات هذه الخطة ضمن ثلاث فئات.
أُعلن في GTC 2026 في مارس، تحالف Nemotron هو مجموعة تعاونية من مختبرات وشركات الذكاء الاصطناعي تبني نماذج مفتوحة من الطراز الأول على بنية DGX Cloud التحتية من إنفيديا. يشمل الأعضاء Cursor، Mistral AI، Perplexity، وعشرات آخرين. في Computex، أضافت إنفيديا H Company، NAVER Cloud، Nous Research، و Prime Intellect كأعضاء جدد .
الغرض من التحالف هو تجميع الخبرات والبيانات والقدرة الحاسوبية لتطوير نماذج مفتوحة رائدة، مع تركيز محدد على بناء أفضل حزام أدوات (Agent Harness) لهذه النماذج وتوفير إمكانية مراقبة شاملة لسلوك الوكلاء . يحصل الشركاء في التحالف على وصول مبكر لإصدارات Nemotron الجديدة قبل العامة وتكامل مفضّل مع بنية الوكلاء التحتية من إنفيديا
.
في حدث GTC نفسه، كشفت إنفيديا عن ما تسميه Nvidia Agent Toolkit، وهو حزمة مفتوحة المصدر تهدف لطي تعقيدات نشر الوكلاء المستقلين في مسار واحد مُحسّن لإنفيديا. يشمل الحزمة NemoClaw (نسخة إنفيديا المُحصّنة من وقت تشغيل OpenClaw المستقل)، OpenShell للتنفيذ الآمن، مكتبات CUDA-X المحملة مسبقًا بمهارات الوكلاء مثل التحسين والاسترجاع، وعائلة نماذج Nemotron نفسها .
بنية هذه الحزمة لافتة: إنها لا تهتم بإطار العمل (Framework-Agnostic)، مما يعني أن الشركات تستطيع استخدامها مع LangChain، CrewAI، AutoGen، أو أي طبقة تنسيق خاصة بها. الرهان هو أنه بجعل الحزمة مفيدة فعلاً ومفتوحة المصدر، تضمن إنفيديا أنه عند نشر الشركات لأساطيل الوكلاء، ستكون وحدات Nvidia GPUs هي الخيار الافتراضي تحتها .
التزم أكثر من 150 شريكًا مؤسسًا ببناء وكلاء ذكاء اصطناعي على بنية إنفيديا التحتية، بما فيهم منصات برمجيات عملاقة مثل CrowdStrike، Palantir، Adobe، Salesforce، SAP، ServiceNow، و Siemens . في مارس 2026، أعلنت LangChain - التي تجاوزت أطر عملها المليار تحميل - عن منصة متكاملة لوكلاء الذكاء الاصطناعي المؤسسيين مبنية مباشرة على نماذج Nemotron و Agent Toolkit من إنفيديا، مع انضمام LangChain نفسها لتحالف Nemotron
.
عمق هذه التكاملات مهم. منصة LangSmith لهندسة الوكلاء من LangChain مع بنية إنفيديا التحتية يخلقان مسارًا شاملاً يغطي التطوير، النشر، المراقبة، والتدقيق. بالنسبة للشركات الملتزمة بأي من المزودين، تقلل هذه الشراكة احتكاك بناء أنظمة وكلاء إنتاجية .
تضع إنفيديا Nemotron 3 Ultra صراحةً كنموذج أمريكي هو الأعلى ذكاءً بين الموديلات مفتوحة الوزن، ولهذا التوصيف أهميته. سيطرت على واجهة النماذج المفتوحة في الأشهر الأخيرة نماذج صينية من DeepSeek و Qwen وغيرهما. Nemotron 3 Ultra هو رد إنفيديا - ليس بالضرورة بالتغلب على النماذج الصينية في الدرجات الخام، بل بالتحسين لنوع حمل العمل المحدد (الوكلاء طويلو الأمد) والعتاد المحدد (وحدات Blackwell مع NVFP4) الذي سيستخدمه عملاء المؤسسات فعلاً .
يدعم النموذج التحكم في ميزانية التفكير أثناء الاستدلال، مما يعني أن المستخدمين يمكنهم المقايضة بين السرعة وعمق التفكير اعتمادًا على المهمة . هذه القابلية للتكوين مهمة لأنظمة الوكلاء حيث تتطلب المهام الفرعية مستويات مختلفة من الجهد المعرفي - قد تحتاج خطوة تخطيط لتفكير عميق، بينما تحتاج خطوة استدعاء أداة للسرعة.
يمتد دعم اللغات ليشمل الإنجليزية، الفرنسية، الإسبانية، الإيطالية، الألمانية، اليابانية، الكورية، البرتغالية، والصينية، مما يجعله قابلاً للنشر في المؤسسات متعددة الجنسيات .
لا يتعلق Nemotron 3 Ultra أساسًا بتسجيل أرقام قياسية في المعايير. بل يتعلق بتأسيس البنية التحتية الافتراضية لوكلاء الذكاء الاصطناعي المؤسسي. عبر جعل نموذج على نطاق حدودي مفتوح المصدر يعمل بأسرع شكل على عتاد إنفيديا الخاص، وبناء حزمة أدوات مفتوحة المصدر تبسط النشر، وتجميع تحالف من مختبرات الذكاء الاصطناعي وبائعي البرمجيات المؤسسية الملتزمين بهذه الحزمة، تقوم إنفيديا بنفس الرهان الذي قامت به مع CUDA: امتلاك تجربة المطور يعني امتلاك السوق في النهاية.
يقدم النموذج تقدمًا تقنيًا ذا معنى - خصوصًا في الإنتاجية وطول السياق - مما يجعله مناسبًا حقًا لأعباء عمل الوكلاء التي بدأت الشركات في نشرها. لكن الاستراتيجية تتعلق أيضًا بتثبيت البنية التحتية للاستدلال لتلك الأعباء. بالنسبة للشركات التي تقيّم منصات الوكلاء في منتصف 2026، فإن حزمة إنفيديا هي الآن الخيار مفتوح المصدر الأكثر اكتمالاً المتاح.
Comments
0 comments