यहां “प्री-ट्रेनिंग” शब्द अहम है। आसान भाषा में, यह वह शुरुआती बड़ी ट्रेनिंग होती है जिसमें मॉडल भाषा, पैटर्न, ज्ञान-संबंध और सामान्य क्षमताओं की बुनियाद सीखता है। Baidu का 6% दावा इसी प्री-ट्रेनिंग लागत से जुड़ा है; उपलब्ध सामग्री यह साबित नहीं करती कि यह कुल विकास लागत, पोस्ट-ट्रेनिंग लागत, डिप्लॉयमेंट लागत, इन्फरेंस लागत, हार्डवेयर दक्षता या ग्राहक कीमतों को भी कवर करता है ।
Baidu के ब्लॉग के अनुसार ERNIE 5.1 में एजेंट, रीजनिंग और क्रिएटिव क्षमताओं में अपग्रेड दिए गए हैं, जिनके पीछे disaggregated fully-asynchronous reinforcement learning और scaled agentic post-training जैसे तरीके बताए गए हैं । उसी ब्लॉग में यह भी कहा गया है कि मॉडल ने Arena Search Arena पर चीन में पहला स्थान हासिल किया
।
एआई मॉडल की होड़ अक्सर बड़े पैमाने की भाषा में समझाई जाती है: ज्यादा पैरामीटर, ज्यादा डेटा, ज्यादा कंप्यूट। ERNIE 5.1 इस सोच में एक मोड़ दिखाता है। Baidu का दावा है कि मॉडल की बुनियादी क्षमता को बचाते हुए मॉडल का आकार घटाया जा सकता है और पूरी लागत वाली नई प्री-ट्रेनिंग से बचा जा सकता है ।
अगर यह तरीका व्यवहार में मजबूत साबित होता है, तो प्रतिस्पर्धा का केंद्र सिर्फ “किसके पास सबसे बड़ा मॉडल है” से हटकर “कौन बेहतर लागत-प्रदर्शन संतुलन बना सकता है” पर आ सकता है। यानी फायदा उस लैब को मिलेगा जो मौजूदा फाउंडेशन को बेहतर तरीके से दोबारा इस्तेमाल करे, छोटे लेकिन प्रभावी मॉडल-कॉन्फिगरेशन चुने, सक्रिय गणना घटाए और पोस्ट-ट्रेनिंग से मॉडल के व्यवहार को निखारे ।
Baidu की दक्षता-कहानी चार हिस्सों में समझी जा सकती है।
रिलीज के अनुसार ERNIE 5.1, ERNIE 5.0 की प्री-ट्रेनिंग नींव को अपनाता है । यही लागत वाले दावे की धुरी है। मतलब, Baidu इसे ऐसे मॉडल के रूप में पेश कर रहा है जो पहले से बने फाउंडेशन से निकला है, न कि पूरी तरह अलग और पूरी कीमत वाली नई प्री-ट्रेनिंग परियोजना के रूप में।
Baidu कहता है कि ERNIE 5.1 ने कुल पैरामीटर लगभग एक-तिहाई और सक्रिय पैरामीटर लगभग आधे कर दिए । कुल पैरामीटर पूरे मॉडल का आकार बताते हैं, जबकि सक्रिय पैरामीटर वे हिस्से हैं जो किसी खास गणना के समय इस्तेमाल होते हैं। दोनों घटाना इसलिए अहम है, क्योंकि इससे बात सिर्फ “मॉडल छोटा है” तक सीमित नहीं रहती; यह गणना और लागत-दक्षता से भी जुड़ती है।
ERNIE 5.0 की तकनीकी रिपोर्ट में “elastic training” तरीका बताया गया है, जिसमें एक ही प्री-ट्रेनिंग रन से अलग-अलग क्षमता और दक्षता वाले कई मॉडल तैयार किए जा सकते हैं । रिपोर्ट के अनुसार इसमें अलग-अलग depth, width और routing sparsity वाले sub-models को गतिशील रूप से sample किया जाता है, और छोटे sub-models पूर्ण मॉडल से ज्ञान लेकर बाद की post-training stages में इस्तेमाल हो सकते हैं
।
ERNIE 5.1 के संदर्भ में यह इसलिए मायने रखता है क्योंकि Baidu का दावा सिर्फ “और बड़ा मॉडल ट्रेन किया गया” नहीं है। संकेत यह है कि पहले एक लचीला फाउंडेशन बनाया गया, फिर उससे अधिक दक्ष कॉन्फिगरेशन निकाले गए ।
Baidu का कहना है कि ERNIE 5.1 में agent, reasoning और creative क्षमताओं को सुधारने के लिए disaggregated fully-asynchronous reinforcement learning और scaled agentic post-training का इस्तेमाल किया गया । यानी कंपनी की बात सिर्फ मॉडल को छोटा करने तक सीमित नहीं है; वह यह भी कह रही है कि अंतिम क्षमता-प्रोफाइल बनाने में पोस्ट-ट्रेनिंग की भूमिका रही
।
सबसे बड़ा सवाल सत्यापन का है। उपलब्ध सार्वजनिक सामग्री में ट्रेनिंग बजट, हार्डवेयर सेटअप, डेटा मिश्रण, ट्रेनिंग अवधि, accelerator utilization, पोस्ट-ट्रेनिंग लागत या “comparable models” की सटीक सूची जैसी जानकारी पूरी तरह नहीं दी गई है, जिसके आधार पर 6% वाले दावे को स्वतंत्र रूप से परखा जा सके ।
इसका मतलब यह नहीं कि दावा महत्वहीन है। इसका मतलब सिर्फ इतना है कि इसे अभी स्वतंत्र रूप से ऑडिट किए गए उद्योग-बेंचमार्क की तरह नहीं पढ़ना चाहिए। सबसे मजबूत, स्रोत-समर्थित निष्कर्ष यह है कि Baidu कह रहा है: ERNIE 5.1 ने अपने मॉडल-स्केल पर अग्रणी बुनियादी प्रदर्शन बनाए रखते हुए inheritance, compression, elastic training के विचारों और post-training के जरिए पैरामीटर और प्री-ट्रेनिंग लागत घटाई ।
ERNIE 5.1 इसलिए महत्वपूर्ण है क्योंकि यह Baidu की एआई प्रगति को कच्चे आकार की बजाय लागत-प्रदर्शन के चश्मे से पेश करता है। Baidu के मुताबिक मॉडल ERNIE 5.0 की नींव अपनाता है, कुल और सक्रिय पैरामीटर कम करता है, और तुलनीय मॉडलों की प्री-ट्रेनिंग लागत के लगभग 6% में अपने स्केल पर अग्रणी बुनियादी प्रदर्शन हासिल करता है ।
फिर भी, 6% का दावा अभी अंतिम शब्द नहीं है। जब तक Baidu या स्वतंत्र मूल्यांकनकर्ता तुलना के आधार, हार्डवेयर, डेटा और लागत-गणना की ज्यादा स्पष्ट जानकारी नहीं देते, ERNIE 5.1 को एक गंभीर और दिलचस्प दक्षता-दावा माना जाना चाहिए—पूरी तरह प्रमाणित लागत-बेंचमार्क नहीं।
Comments
0 comments