IPW बेहद सरल है: यह किसी मॉडल द्वारा किसी कार्य पर प्राप्त सटीकता को उसके द्वारा इंफेरेंस के दौरान खपत की गई बिजली से विभाजित करता है । यह AI मॉडलों का अलग-थलग मूल्यांकन करने की आम प्रथा के विपरीत है, जिसमें ऊर्जा लागत और हार्डवेयर आवश्यकताओं को नजरअंदाज कर दिया जाता है।
यह मीट्रिक एक मुख्य अंतर्दृष्टि को पकड़ता है: सबसे सक्षम मॉडल जरूरी नहीं कि सबसे कुशल या व्यावहारिक हो। लैपटॉप पर चलने वाला एक छोटा मॉडल किसी विशाल क्लाउड मॉडल की 95% सटीकता दे सकता है, जबकि उसकी ऊर्जा का एक अंश ही खपत करता है ।
अध्ययन का सबसे आर्थिक रूप से महत्वपूर्ण निष्कर्ष यह है कि जब आप लोकल और क्लाउड के बीच चयन नहीं करते, बल्कि दोनों का बुद्धिमानी से उपयोग करते हैं तो क्या होता है।
ओरेकल रूटिंग, एक काल्पनिक सही प्रणाली जो प्रत्येक क्वेरी को सबसे छोटे सक्षम मॉडल को सौंपती है, सैद्धांतिक रूप से केवल-क्लाउड तैनाती की तुलना में ऊर्जा खपत में 80.4%, कंप्यूट में 77.3% और लागत में 73.8% की कमी ला सकती है ।
संबंधित शोध में परीक्षण किए गए एक व्यावहारिक और यथार्थवादी राउटर ने समान परिणाम प्राप्त किए: इसने वास्तविक दुनिया के ट्रैफिक वितरण पर ऊर्जा में 77.1%, कंप्यूट में 67.1% और लागत में 60.2% की कमी की, जबकि तुलनीय कार्य सटीकता बनाए रखी ।
यह कोई दूर का भविष्य नहीं है। यह शोध दर्शाता है कि हाइब्रिड लोकल-क्लाउड आर्किटेक्चर पहले से ही व्यावहारिक हैं और AI इंफेरेंस की लागत को नाटकीय रूप से कम कर सकते हैं।
स्टैनफोर्ड का अध्ययन किसी भी कंपनी के लिए स्पष्ट वित्तीय भविष्यवाणी नहीं करता है । हालांकि, यह जो प्रक्षेपवक्र दस्तावेज करता है, उसके क्लाउड-API-निर्भर AI कंपनियों के लिए स्पष्ट और संरचनात्मक निहितार्थ हैं।
लोकल मॉडल पहले से ही लगभग 89% एकल-बार प्रश्नों को नाटकीय रूप से कम लागत पर कवर कर लेते हैं । IPW में सिर्फ दो वर्षों में 5.3 गुना सुधार हुआ है और यह लगातार तेज हो रहा है
। स्मार्ट रूटिंग क्लाउड पर भेजे जाने वाले बचे हुए प्रश्नों की इंफेरेंस लागत को 60% या उससे अधिक कम कर सकती है
।
यदि यह प्रवृत्ति बड़े पैमाने पर लागू हो जाती है, तो ग्राहक अपनी अधिकांश क्लाउड API क्वेरी को लगभग शून्य-लागत वाली लोकल इंफेरेंस से बदल सकते हैं, और क्लाउड कॉल को केवल सबसे कठिन ~11% कार्यों के लिए आरक्षित कर सकते हैं जिन्हें लोकल मॉडल अभी तक नहीं संभाल सकते ।
इस अध्ययन की व्याख्या करने वाली टिप्पणियों ने नोट किया है कि AI का भविष्य फ्रंटियर AI कंपनियों के लिए 'छोटे, सस्ते और लाभहीन' मॉडलों वाला हो सकता है । आर्थिक प्रोत्साहन लोकल, ओपन-वेट विकल्पों की ओर बढ़ रहा है जो क्लाउड API मूल्य निर्धारण को कम करते हैं—यह एक ऐसी गतिशीलता है जो OpenAI, Anthropic और xAI जैसी कंपनियों के बिजनेस मॉडल को नया आकार दे सकती है।
परिणाम प्रभावशाली हैं, फिर भी अध्ययन के दायरे को समझना जरूरी है। यह केवल एकल-बार प्रश्नों का परीक्षण करता है—सरल चैट प्रतिक्रियाएं और स्व-निहित तर्क कार्य। यह लोकल मॉडलों का मूल्यांकन मल्टी-टर्न वार्तालापों, लंबे-संदर्भ तर्क, या जटिल एजेंटिक वर्कफ़्लो पर नहीं करता है, जिन क्षेत्रों में क्लाउड मॉडल एक महत्वपूर्ण लाभ बनाए हुए हैं ।
परीक्षण किए गए लोकल मॉडल (≤20B पैरामीटर) सबसे कठिन समस्याओं पर सर्वश्रेष्ठ क्लाउड मॉडल से भी मेल नहीं खा सकते हैं। अध्ययन के लेखक इस बारे में स्पष्ट हैं: डोमेन के अनुसार सटीकता काफी भिन्न होती है, और 88.7% का आंकड़ा तकनीकी और वैज्ञानिक क्षेत्रों में कमजोर प्रदर्शन को छुपाता है ।
स्टैनफोर्ड का 'इंटेलिजेंस पर वॉट' अध्ययन मजबूत अनुभवजन्य सबूत प्रदान करता है कि लोकल AI ने एक महत्वपूर्ण सीमा पार कर ली है। ज्यादातर रोजमर्रा के प्रश्नों के लिए—क्रिएटिव कार्य, प्रबंधन, बिक्री, मनोरंजन—लैपटॉप पर चलने वाला एक छोटा मॉडल पहले से ही पर्याप्त है । तेजी से सुधार की गति बताती है कि यह कवरेज और भी बढ़ेगा।
व्यवसायों के लिए, निहितार्थ स्पष्ट है: सबसे किफायती AI बुनियादी ढांचा तेजी से एक हाइब्रिड बन रहा है, जो सरल प्रश्नों को लोकल मॉडलों पर भेजता है और सबसे कठिन कार्यों के लिए क्लाउड क्षमता आरक्षित रखता है। हर क्वेरी को प्रति-टोकन शुल्क के लिए एक विशाल क्लाउड मॉडल में भेजने का युग समाप्त होने वाला हो सकता है।
Comments
0 comments