उत्तरप्रकाशित2 माह पहलेLast edited 2 माह पहले13 स्रोत

Baidu ERNIE 5.1: 6% ट्रेनिंग-कॉस्ट दावा क्यों अहम है

Baidu का कहना है कि ERNIE 5.1 ने अपने मॉडल स्केल पर अग्रणी बुनियादी प्रदर्शन तुलनीय मॉडलों की प्री ट्रेनिंग लागत के लगभग 6% में हासिल किया [7]। कंपनी के अनुसार, मॉडल ERNIE 5.0 की प्री ट्रेनिंग नींव को अपनाता है, कुल पैरामीटर लगभग एक तिहाई और सक्रिय पैरामीटर लगभग आधे कर देता है [7]। यह दावा दिलचस्प है, लेकिन अभी स्वत...

Studio Global AI के साथ खोजें और तथ्यों की जांच करें और ट्रेंडिंग पेज देखें

Editorial illustration for Baidu ERNIE 5.1 and its 6% pre-training cost claim — Baidu ERNIE 5.1: Why Its 6% Training-Cost Claim MattersBaidu’s ERNIE 5.1 announcement centers on an efficiency claim: strong performance at its model scale with sharply reduced parameters and pre-training cost.
AI संकेत
Create a landscape editorial hero image for this Studio Global article: Baidu ERNIE 5.1: Why Its 6% Training-Cost Claim Matters. Article summary: Baidu’s ERNIE 5.1 matters because Baidu claims leading performance at its model scale with only about 6% of comparable pre training cost—a shift toward efficiency over raw scale, though the cost figure remains a compa.... Topic tags: ai, baidu, ernie, llm, model efficiency. Reference image context from search candidates: Reference image 1: visual subject "The model employs "Multi-Dimensional Elastic Pre-training" technology, compressing total parameters to about one-third of ERNIE 5.0 and active parameters to about one-half. Its pre" source context "Baidu Releases ERNIE 5.1, with Pre-training Cost Only 6% of ..." Reference image 2: visual subject "The model employs "Multi-Dimensional Elastic Pre-training" technology, compressing total parameter
openai.com

Baidu का ERNIE 5.1 एआई की दौड़ में एक अलग तरह का संदेश देता है: हमेशा बड़ा मॉडल ही जवाब नहीं है। कंपनी इसे ऐसे मॉडल के रूप में पेश कर रही है जो ERNIE 5.0 की प्री-ट्रेनिंग नींव को अपनाता है, कुल पैरामीटर लगभग एक-तिहाई और सक्रिय पैरामीटर लगभग आधे कर देता है, और अपने मॉडल-स्केल पर अग्रणी बुनियादी प्रदर्शन तुलनीय मॉडलों की प्री-ट्रेनिंग लागत के लगभग 6% में हासिल करता है ।

यही वजह है कि यह घोषणा सिर्फ एक और मॉडल-रिलीज नहीं लगती। Baidu यहां यह बताने की कोशिश कर रहा है कि मजबूत एआई प्रदर्शन के लिए हर बार शून्य से महंगी, विशाल प्री-ट्रेनिंग रन जरूरी नहीं हो सकती। इसके बजाय कंपनी “रीयूज, कम्प्रेशन और पोस्ट-ट्रेनिंग” की दिशा को आगे रख रही है ।

लेकिन एक जरूरी सावधानी भी है। 6% का आंकड़ा Baidu का अपना दावा है। सार्वजनिक सामग्री में अभी यह साफ नहीं है कि तुलना किन मॉडलों से की गई, लागत कैसे गिनी गई, हार्डवेयर सेटअप क्या था, डेटा मिश्रण कैसा था या पोस्ट-ट्रेनिंग जैसी अतिरिक्त लागतें इस आंकड़े में आती हैं या नहीं ।

Baidu ने असल में क्या दावा किया?

Baidu का दावा काफी खास और सीमित है। कंपनी कहती है कि ERNIE 5.1 को पूरी तरह नए फाउंडेशन मॉडल की तरह शून्य से ट्रेन नहीं किया गया, बल्कि उसने ERNIE 5.0 की प्री-ट्रेनिंग नींव को अपनाया । इसी के साथ Baidu का कहना है कि ERNIE 5.1 में कुल पैरामीटर लगभग एक-तिहाई और सक्रिय पैरामीटर लगभग आधे कर दिए गए ।

यहां “प्री-ट्रेनिंग” शब्द अहम है। आसान भाषा में, यह वह शुरुआती बड़ी ट्रेनिंग होती है जिसमें मॉडल भाषा, पैटर्न, ज्ञान-संबंध और सामान्य क्षमताओं की बुनियाद सीखता है। Baidu का 6% दावा इसी प्री-ट्रेनिंग लागत से जुड़ा है; उपलब्ध सामग्री यह साबित नहीं करती कि यह कुल विकास लागत, पोस्ट-ट्रेनिंग लागत, डिप्लॉयमेंट लागत, इन्फरेंस लागत, हार्डवेयर दक्षता या ग्राहक कीमतों को भी कवर करता है ।

Baidu के ब्लॉग के अनुसार ERNIE 5.1 में एजेंट, रीजनिंग और क्रिएटिव क्षमताओं में अपग्रेड दिए गए हैं, जिनके पीछे disaggregated fully-asynchronous reinforcement learning और scaled agentic post-training जैसे तरीके बताए गए हैं । उसी ब्लॉग में यह भी कहा गया है कि मॉडल ने Arena Search Arena पर चीन में पहला स्थान हासिल किया ।

6% वाला आंकड़ा इतना ध्यान क्यों खींच रहा है?

एआई मॉडल की होड़ अक्सर बड़े पैमाने की भाषा में समझाई जाती है: ज्यादा पैरामीटर, ज्यादा डेटा, ज्यादा कंप्यूट। ERNIE 5.1 इस सोच में एक मोड़ दिखाता है। Baidu का दावा है कि मॉडल की बुनियादी क्षमता को बचाते हुए मॉडल का आकार घटाया जा सकता है और पूरी लागत वाली नई प्री-ट्रेनिंग से बचा जा सकता है ।

अगर यह तरीका व्यवहार में मजबूत साबित होता है, तो प्रतिस्पर्धा का केंद्र सिर्फ “किसके पास सबसे बड़ा मॉडल है” से हटकर “कौन बेहतर लागत-प्रदर्शन संतुलन बना सकता है” पर आ सकता है। यानी फायदा उस लैब को मिलेगा जो मौजूदा फाउंडेशन को बेहतर तरीके से दोबारा इस्तेमाल करे, छोटे लेकिन प्रभावी मॉडल-कॉन्फिगरेशन चुने, सक्रिय गणना घटाए और पोस्ट-ट्रेनिंग से मॉडल के व्यवहार को निखारे ।

Baidu के मुताबिक लागत कैसे घटी?

Baidu की दक्षता-कहानी चार हिस्सों में समझी जा सकती है।

1. ERNIE 5.0 की नींव का इस्तेमाल

रिलीज के अनुसार ERNIE 5.1, ERNIE 5.0 की प्री-ट्रेनिंग नींव को अपनाता है । यही लागत वाले दावे की धुरी है। मतलब, Baidu इसे ऐसे मॉडल के रूप में पेश कर रहा है जो पहले से बने फाउंडेशन से निकला है, न कि पूरी तरह अलग और पूरी कीमत वाली नई प्री-ट्रेनिंग परियोजना के रूप में।

2. कुल और सक्रिय पैरामीटर दोनों घटाना

Baidu कहता है कि ERNIE 5.1 ने कुल पैरामीटर लगभग एक-तिहाई और सक्रिय पैरामीटर लगभग आधे कर दिए । कुल पैरामीटर पूरे मॉडल का आकार बताते हैं, जबकि सक्रिय पैरामीटर वे हिस्से हैं जो किसी खास गणना के समय इस्तेमाल होते हैं। दोनों घटाना इसलिए अहम है, क्योंकि इससे बात सिर्फ “मॉडल छोटा है” तक सीमित नहीं रहती; यह गणना और लागत-दक्षता से भी जुड़ती है।

3. Elastic training वाला मॉडल-परिवार दृष्टिकोण

ERNIE 5.0 की तकनीकी रिपोर्ट में “elastic training” तरीका बताया गया है, जिसमें एक ही प्री-ट्रेनिंग रन से अलग-अलग क्षमता और दक्षता वाले कई मॉडल तैयार किए जा सकते हैं । रिपोर्ट के अनुसार इसमें अलग-अलग depth, width और routing sparsity वाले sub-models को गतिशील रूप से sample किया जाता है, और छोटे sub-models पूर्ण मॉडल से ज्ञान लेकर बाद की post-training stages में इस्तेमाल हो सकते हैं ।

ERNIE 5.1 के संदर्भ में यह इसलिए मायने रखता है क्योंकि Baidu का दावा सिर्फ “और बड़ा मॉडल ट्रेन किया गया” नहीं है। संकेत यह है कि पहले एक लचीला फाउंडेशन बनाया गया, फिर उससे अधिक दक्ष कॉन्फिगरेशन निकाले गए ।

4. पोस्ट-ट्रेनिंग से एजेंट और रीजनिंग क्षमताएं सुधारना

Baidu का कहना है कि ERNIE 5.1 में agent, reasoning और creative क्षमताओं को सुधारने के लिए disaggregated fully-asynchronous reinforcement learning और scaled agentic post-training का इस्तेमाल किया गया । यानी कंपनी की बात सिर्फ मॉडल को छोटा करने तक सीमित नहीं है; वह यह भी कह रही है कि अंतिम क्षमता-प्रोफाइल बनाने में पोस्ट-ट्रेनिंग की भूमिका रही ।

अभी क्या साबित होना बाकी है?

सबसे बड़ा सवाल सत्यापन का है। उपलब्ध सार्वजनिक सामग्री में ट्रेनिंग बजट, हार्डवेयर सेटअप, डेटा मिश्रण, ट्रेनिंग अवधि, accelerator utilization, पोस्ट-ट्रेनिंग लागत या “comparable models” की सटीक सूची जैसी जानकारी पूरी तरह नहीं दी गई है, जिसके आधार पर 6% वाले दावे को स्वतंत्र रूप से परखा जा सके ।

इसका मतलब यह नहीं कि दावा महत्वहीन है। इसका मतलब सिर्फ इतना है कि इसे अभी स्वतंत्र रूप से ऑडिट किए गए उद्योग-बेंचमार्क की तरह नहीं पढ़ना चाहिए। सबसे मजबूत, स्रोत-समर्थित निष्कर्ष यह है कि Baidu कह रहा है: ERNIE 5.1 ने अपने मॉडल-स्केल पर अग्रणी बुनियादी प्रदर्शन बनाए रखते हुए inheritance, compression, elastic training के विचारों और post-training के जरिए पैरामीटर और प्री-ट्रेनिंग लागत घटाई ।

निष्कर्ष

ERNIE 5.1 इसलिए महत्वपूर्ण है क्योंकि यह Baidu की एआई प्रगति को कच्चे आकार की बजाय लागत-प्रदर्शन के चश्मे से पेश करता है। Baidu के मुताबिक मॉडल ERNIE 5.0 की नींव अपनाता है, कुल और सक्रिय पैरामीटर कम करता है, और तुलनीय मॉडलों की प्री-ट्रेनिंग लागत के लगभग 6% में अपने स्केल पर अग्रणी बुनियादी प्रदर्शन हासिल करता है ।

फिर भी, 6% का दावा अभी अंतिम शब्द नहीं है। जब तक Baidu या स्वतंत्र मूल्यांकनकर्ता तुलना के आधार, हार्डवेयर, डेटा और लागत-गणना की ज्यादा स्पष्ट जानकारी नहीं देते, ERNIE 5.1 को एक गंभीर और दिलचस्प दक्षता-दावा माना जाना चाहिए—पूरी तरह प्रमाणित लागत-बेंचमार्क नहीं।

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI के साथ खोजें और तथ्यों की जांच करें

लोग पूछते भी हैं