ESMFold2, ESM3 ढांचे के अंदर मौजूद संरचना-भविष्यवाणी करने वाला इंजन है। यह केवल अनुक्रम डेटा से सीधे, अत्याधुनिक गति और सटीकता के साथ परमाणु-स्तरीय प्रोटीन संरचनाओं की भविष्यवाणी करता है । इसकी सबसे बड़ी खूबी यह है कि इसे 'मल्टीपल सीक्वेंस एलाइनमेंट' (MSA) की ज़रूरत नहीं पड़ती, जो पारंपरिक तरीकों को धीमा कर देते हैं। यही गति इसे बड़े पैमाने पर संरचना कवरेज के लिए व्यावहारिक बनाती है।
ESM एटलस का नाटकीय रूप से विस्तार किया गया है। मेटा FAIR का मूल ESM मेटाजीनोमिक एटलस करीब 60 करोड़ प्रोटीन संरचनाओं को कवर करता था । बायोहब का नया एटलस अब 6.8 अरब प्रोटीनों का चार्ट प्रस्तुत करता है, जिनमें से 1.1 अरब संरचनाएं पूर्वानुमानित हैं। यह परिमाण के एक क्रम का विस्तार है जो प्रोटीन ब्रह्मांड के काफी बड़े हिस्से का संरचनात्मक कवरेज प्रदान करता है
।
इसके अलावा, इस रिलीज़ में esm3-sm-open-v1 भी शामिल है, जो 2.78 अरब प्राकृतिक प्रोटीनों पर प्रशिक्षित और सिंथेटिक डेटा के साथ 3.15 अरब अनुक्रमों, 23.6 करोड़ संरचनाओं और 53.9 करोड़ फंक्शन एनोटेशन तक बढ़ाया गया एक जनरेटिव मॉडल है। इसका कुल आकार 771 अरब टोकन है । यह मॉडल शैक्षणिक और गैर-लाभकारी उपयोग के लिए एक गैर-व्यावसायिक लाइसेंस के तहत जारी किया गया है
।
इनका व्यावहारिक वादा गति और पैमाना है। चिकित्सीय प्रोटीन बाइंडरों को डिजाइन करने और मान्य करने में पारंपरिक रूप से महीनों या सालों का प्रयोगशाला कार्य लगता है। बायोहब के उपकरण तीन क्षमताओं को सक्षम करके इसे हफ्तों या दिनों में समेट देते हैं:
एआई-डिज़ाइन किए गए प्रोटीनों पर अक्सर यह आरोप लगता है कि वे कम्प्यूटर पर तो अच्छे लगते हैं लेकिन प्रयोगशाला में विफल हो जाते हैं। बायोहब की रिपोर्ट है कि यहाँ ऐसा नहीं है। इन मॉडलों का उपयोग करके पूरी तरह से कम्प्यूटर पर डिज़ाइन किए गए बाइंडरों को वास्तविक प्रयोगशाला प्रयोगों में मान्य किया गया है — एआई-डिज़ाइन किए गए प्रोटीन अपने इच्छित लक्ष्यों से जुड़े ।
बायोहब के विज्ञान प्रमुख एलेक्स राइव्स ने कहा, "हमने प्रदर्शित किया है कि इन मॉडलों ने जैविक प्रक्रियाओं का इतना सटीक प्रतिनिधित्व हासिल कर लिया है कि यह प्रोटीन इंटरफेस के कम्प्यूटेशनल डिजाइन की अनुमति देता है, जिसे बाद में अपेक्षित परिणामों के साथ प्रयोगशाला में परीक्षण किया जा सकता है" । इसका मतलब है कि मॉडलों ने बिना बार-बार प्रयोगशाला अनुकूलन के कार्यात्मक डिजाइन तैयार करने के लिए पर्याप्त मौलिक जीवविज्ञान सीख लिया है।
29 अप्रैल, 2026 को, बायोहब ने वर्चुअल बायोलॉजी पहल (VBI) की घोषणा की, जो मानव कोशिकाओं के पूर्वानुमानित मॉडलों के लिए आवश्यक मल्टी-मॉडल डेटासेट और एआई मॉडल बनाने के लिए पांच साल की, $500 मिलियन की प्रतिबद्धता है । इस फंडिंग में से, $100 मिलियन वैश्विक डेटा-जनरेशन प्रयासों के समन्वय के लिए आवंटित है, और $400 मिलियन बड़े पैमाने पर डेटा उत्पन्न करने और जीव विज्ञान को मापने, इमेजिंग और इंजीनियर करने के लिए अगली पीढ़ी की तकनीकों को विकसित करने के लिए समर्पित है
।
प्रोटीन बायोलॉजी की यह रिलीज़ VBI के तहत पहला बड़ा वैज्ञानिक आउटपुट है। इस पहल के साझेदारों में जीव विज्ञान और प्रौद्योगिकी के कई प्रमुख संस्थान शामिल हैं: ब्रॉड इंस्टीट्यूट, एलन इंस्टीट्यूट, आर्क इंस्टीट्यूट, वेलकम सेंगर इंस्टीट्यूट, ह्यूमन सेल एटलस, ह्यूमन प्रोटीन एटलस, एनवीडिया और रेनेसां फिलैंथ्रोपी ।
ESM परिवार की शुरुआत बायोहब में नहीं हुई थी। इसे मूल रूप से मेटा एआई की FAIR प्रयोगशाला में विकसित किया गया था, जिसने पहले ESM-1 मॉडल प्रकाशित किए और 2023 में साइंस पत्रिका में मूल ESMFold जारी किया, जिससे 60 करोड़ से अधिक प्रोटीन संरचना की पहली भविष्यवाणियां उत्पन्न हुईं । उस कार्य ने मूल ESM मेटाजीनोमिक एटलस तैयार किया, जो उस समय उच्च-रिज़ॉल्यूशन पूर्वानुमानित संरचनाओं का सबसे बड़ा डेटाबेस था, जो किसी भी मौजूदा प्रोटीन संरचना डेटाबेस से लगभग तीन गुना बड़ा था
।
जब मूल FAIR ESM टीम द्वारा गठित स्टार्टअप इवोल्यूशनरीस्केल, मेटा से अलग हुआ, तब बायोहब ने इस शोध को आत्मसात किया और आगे बढ़ाया। यह चौथी पीढ़ी की रिलीज़ सीधे उसी विरासत पर आधारित है, जिसमें बायोहब अब एक खुले परोपकारी विज्ञान उद्यम के रूप में विकास का नेतृत्व कर रहा है ।
शोधकर्ता कई प्लेटफार्मों पर इन उपकरणों के साथ प्रयोग और उन्हें तैनात कर सकते हैं:
esm3-sm-open-v1 और ESMC 600M के लिए मॉडल भार (weights) huggingface.co/biohub/ पर एक गैर-व्यावसायिक लाइसेंस के तहत होस्ट किए गए हैं biohub.org/ai-models पर एक संसाधन केंद्र
Comments
0 comments