AI एजेंट बेसिक बायोलॉजी में क्यों फेल हो रहे हैं? असली समस्या है डेटा का 'प्लंबिंग' सिस्टम
एंथ्रोपिक, NCBI, ब्रॉड इंस्टीट्यूट और चान जुकरबर्ग इनिशिएटिव के एक ऐतिहासिक अध्ययन में पाया गया कि शीर्ष AI मॉडल वायरल सीक्वेंस डेटा प्राप्त करने में बुरी तरह विफल हो रहे हैं, जिसकी सटीकता 16.9% जितनी कम है, क्योंकि स... मुख्य समस्या यह है कि जैविक डेटा इंफ्रास्ट्रक्चर में निश्चित और दोहराने योग्य इंटरफेस का अभाव है...
What do researchers from Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative reveal about why AI agents fail at retrievThe gap between AI and biology is not a failure of intelligence but of infrastructure — a lesson made clear by new research from Anthropic and leading scientific institutions.
AI संकेत
Create a landscape editorial hero image for this Studio Global article: What do researchers from Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative reveal about why AI agents fail at retriev. Article summary: In a collaboration between Anthropic, NCBI, the Broad Institute, and the Chan Zuckerberg Initiative (CZI), researchers demonstrated that state-of-the-art AI agents fail at retrieving biological data from public databases. Topic tags: general, government, academic, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Artificial Intelligence agents for biological research: a survey. A **.gov** website belongs to an official government organization in the United States. Inclusion in an NLM data" source context "Artificial Intelligence agents for biological research: a survey - PMC" Reference image 2: vis
openai.com
एंथ्रोपिक, NCBI, ब्रॉड इंस्टीट्यूट और चान जुकरबर्ग इनिशिएटिव (CZI) के बीच एक ऐतिहासिक सहयोग ने AI-संचालित विज्ञान के एक गंदे रहस्य को उजागर कर दिया है: आज के सबसे शक्तिशाली AI एजेंट एक सार्वजनिक डेटाबेस से वायरल डीएनए सीक्वेंस निकालने जैसे सरल कार्य के लिए पूरी तरह से अविश्वसनीय हैं। जून 2026 में प्रकाशित इस शोध में पाया गया कि क्लाउड सॉनेट 4 जैसे मॉडलों ने इस नियमित काम पर केवल 16.9% सटीकता हासिल की। लेकिन इसका दोषी AI की बुद्धिमत्ता नहीं है — बल्कि इसका 'प्लंबिंग' सिस्टम है। बुनियादी ढांचा इंसानों के वेब फॉर्म पर क्लिक करने के लिए डिज़ाइन किया गया था, न कि स्वायत्त एजेंटों के लिए। gget virus नामक एक निश्चित पुनर्प्राप्ति परत (डेटर्मिनिस्टिक रिट्रीवल लेयर) का निर्माण करके, टीम ने तुरंत लगभग 100% सटीकता हासिल की, यह साबित करते हुए कि डेटा पाइपों को ठीक करना विश्वसनीय AI जीवविज्ञान का सबसे तेज़ रास्ता है ।
AI एजेंट जैविक डेटाबेस पर क्यों क्रैश हो जाते हैं
लॉरा ल्यूबर्ट और उनके सहयोगियों ने इस मुद्दे को एक शक्तिशाली उपमा के साथ समझाया: जैविक डेटा को नेविगेट करने के लिए AI एजेंट का उपयोग करना एक मध्ययुगीन शहर के माध्यम से एक आधुनिक कार चलाने जैसा है। कार तकनीकी रूप से उन्नत है, लेकिन सड़कें कभी इसके लिए डिज़ाइन नहीं की गई थीं ।
सहयोग ने कई प्रमुख AI प्रणालियों — क्लाउड, GPT-आधारित मॉडल, बायोमनी ओपन सोर्स, और एडिसन एनालिसिस — का परीक्षण NCBI वायरस से वायरल सीक्वेंस डेटा प्राप्त करने के सीधे-सादे कार्य पर किया, जो कि प्रकोपों पर नज़र रखने और निदान विकसित करने वाले वायरोलॉजिस्ट के लिए एक प्रमुख संसाधन है । परिणाम चौंकाने वाले थे।
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
"AI एजेंट बेसिक बायोलॉजी में क्यों फेल हो रहे हैं? असली समस्या है डेटा का 'प्लंबिंग' सिस्टम" का संक्षिप्त उत्तर क्या है?
एंथ्रोपिक, NCBI, ब्रॉड इंस्टीट्यूट और चान जुकरबर्ग इनिशिएटिव के एक ऐतिहासिक अध्ययन में पाया गया कि शीर्ष AI मॉडल वायरल सीक्वेंस डेटा प्राप्त करने में बुरी तरह विफल हो रहे हैं, जिसकी सटीकता 16.9% जितनी कम है, क्योंकि स...
सबसे पहले सत्यापित करने योग्य मुख्य बिंदु क्या हैं?
एंथ्रोपिक, NCBI, ब्रॉड इंस्टीट्यूट और चान जुकरबर्ग इनिशिएटिव के एक ऐतिहासिक अध्ययन में पाया गया कि शीर्ष AI मॉडल वायरल सीक्वेंस डेटा प्राप्त करने में बुरी तरह विफल हो रहे हैं, जिसकी सटीकता 16.9% जितनी कम है, क्योंकि स... मुख्य समस्या यह है कि जैविक डेटा इंफ्रास्ट्रक्चर में निश्चित और दोहराने योग्य इंटरफेस का अभाव है — AI एजेंटों को असंगत वेब फॉर्म के साथ संघर्ष करना पड़ता है, जिससे एक ही प्रश्न के तीन अलग अलग परिणाम (106, 15, या 5) आ...
मुझे अभ्यास में आगे क्या करना चाहिए?
इसका प्रभाव सिर्फ वायरस अनुसंधान तक सीमित नहीं है: टीम का तर्क है कि NCBI के 30 से अधिक डेटाबेस को एजेंट नेटिव बनाने की जरूरत है, और CZI कम्प्यूटेशनल बायोलॉजी की अगली पीढ़ी को शक्ति देने के लिए संघीय, AI स्केल डेटा की...
NCBI वायरस और कई अन्य सार्वजनिक जैविक डेटाबेस इंटरैक्टिव, ब्राउज़र-आधारित वर्कफ़्लो के लिए बनाए गए थे। वैज्ञानिक फ़िल्टर पर क्लिक करते हैं, मैन्युअल रूप से परिणामों का निरीक्षण करते हैं, और दृश्य संकेतों पर भरोसा करते हैं। यह इंटरफ़ेस लॉजिक उन स्वायत्त एजेंटों के साथ असंगत है जो संरचित, प्रोग्रामेटिक कमांड की अपेक्षा करते हैं ।
मौलिक रूप से अनिश्चित परिणाम
सबसे घातक खोज असंगति थी। जब शोधकर्ताओं ने क्लाउड सॉनेट 4 से 266 के सत्यापित आधार सत्य के विरुद्ध इबोलावायरस सीक्वेंस प्राप्त करने के लिए तीन बार कहा, तो उसने पहले प्रयास में 106, दूसरे में 15, और तीसरे में केवल 5 लौटाए। कोई प्रांप्ट नहीं बदला — केवल आउटपुट बदल गया ।
यह केवल कुछ रिकॉर्ड छूट जाने की बात नहीं है। एक सिमुलेशन में, एक दोषपूर्ण पुनर्प्राप्ति ने एक फायलोजेनेटिक विश्लेषण को इतना विकृत कर दिया कि उसने इबोला प्रकोप की उत्पत्ति का अनुमान 2014 की सही तारीख के बजाय 1922 लगाया। AI ने विज्ञान को मतिभ्रम (हैलुसिनेट) नहीं किया था — उसे एक टूटा हुआ डेटासेट खिलाया गया था और उसने कर्तव्यपूर्वक उसके ऊपर एक गलत निष्कर्ष बना लिया ।
कमजोर, खंडित बुनियादी ढांचा
जैविक डेटा दर्जनों डेटाबेस में बिखरा हुआ है, जिनमें असंगत पहचानकर्ता, विभिन्न मेटाडेटा मानक और कोई संस्करण-नियंत्रित API नहीं है। सॉफ्टवेयर इंजीनियर पैकेज मैनेजर और संस्करणित एंडपॉइंट पर भरोसा करते हैं; कम्प्यूटेशनल जीवविज्ञानी अक्सर असंगत वेब इंटरफेस के खिलाफ स्क्रिप्टिंग करने में फंसे रहते हैं जो बिना किसी सूचना के बदल जाते हैं ।
निश्चित समाधान: gget virus
एक बेहतर मॉडल को प्रशिक्षित करने के बजाय, टीम ने एक बेहतर पुनर्प्राप्ति परत का निर्माण किया। gget virus एक हल्का, निश्चित ढांचा है जो NCBI वायरस के फ़िल्टरिंग तर्क को एक पुनरुत्पादनीय प्रोग्रामेटिक सिस्टम में औपचारिक रूप देता है ।
यह सीक्वेंस डाउनलोड करने से पहले मेटाडेटा बाधाओं को लागू करके, केवल मेल खाने वाले संरचित जेनबैंक रिकॉर्ड को चुनिंदा रूप से प्राप्त करके, और उच्च-मात्रा वाले प्रश्नों के लिए डेटा स्थानांतरण को 98% से अधिक कम करते हुए सटीक-मिलान शब्दार्थ को संरक्षित करके काम करता है। परिणाम हर बार एक ही डेटासेट होता है — एक ऐसा गुण जिसकी AI एजेंटों को सख्त जरूरत है लेकिन पुराना बुनियादी ढांचा प्रदान नहीं कर सका ।
प्रभाव तत्काल और नाटकीय था। जब स्वायत्त AI सिस्टम ने gget virus को अपने पुनर्प्राप्ति बैकएंड के रूप में उपयोग किया:
सभी परीक्षण किए गए मॉडलों के लिए सटीकता कम से कम 90.0% तक पहुंच गई, GPT-5.5 के साथ 99.7% तक पहुंच गई।
स्थिरता मीट्रिक पूरे बोर्ड में 0.92–1.00 तक बढ़ गए।
त्रुटि की भयावहता, विशेष रूप से विनाशकारी प्रकार की जो वैज्ञानिक निष्कर्षों को बदल देती है, ध्वस्त हो गई ।
निष्कर्ष स्पष्ट है: AI-संचालित जीवविज्ञान पर बाध्यकारी बाधा मॉडल तर्क नहीं है — यह निश्चित डेटा पहुंच है। सही पुनर्प्राप्ति परत जोड़ें, और आज के एजेंट पहले से ही विश्वसनीय कार्य कर सकते हैं ।
एजेंट युग के लिए जैविक डेटा बुनियादी ढांचे पर पुनर्विचार
gget virus की सफलता की कहानी एक बहुत बड़े बदलाव के लिए एक अवधारणा का प्रमाण है। शोधकर्ताओं का तर्क है कि यह पैटर्न केवल वायरोलॉजी तक सीमित नहीं है — अकेले NCBI 30 से अधिक डेटाबेस होस्ट करता है जो समान निश्चित रैपर से लाभान्वित होंगे ।
इंसान-उन्मुख से एजेंट-नेटिव डिज़ाइन की ओर
जैविक डेटाबेस को मानकीकृत फ़िल्टरिंग और पुनरुत्पादनीय क्वेरी शब्दार्थ के साथ अच्छी तरह से प्रलेखित, संस्करणित API को उजागर करने के लिए विकसित होना चाहिए। यह उसी के बराबर है जो सॉफ्टवेयर डेवलपर्स को पैकेज मैनेजर और संस्करण नियंत्रण प्रणालियों से मिलता है — महत्वपूर्ण बुनियादी ढांचा जिसकी वर्तमान में जैविक विज्ञान में कमी है ।
संघीय, AI-पैमाने के डेटा के लिए प्रयास
एक समानांतर प्रयास में, चान जुकरबर्ग इनिशिएटिव ने एक रोडमैप प्रकाशित किया जिसमें इंटरऑपरेबल, पूल्ड जैविक डेटासेट का आह्वान किया गया है जिन्हें कमांड-लाइन इंटरफेस और मशीन-पठनीय मानकों के माध्यम से क्वेरी किया जा सकता है। उनकी दृष्टि: एक ऐसी दुनिया जहां वैज्ञानिक एक ही संघीय क्वेरी में बहु-मोडल डेटा खोज, विश्लेषण और डाउनलोड कर सकते हैं, वर्तमान पुनर्प्राप्ति अराजकता के बिना AI-पैमाने की खोज को सक्षम कर सकते हैं ।
CZI पहले से ही इस पर काम कर रहा है, संघीय डेटा पहुंच के लिए एक CLI विकसित कर रहा है और बिलियन सेल्स प्रोजेक्ट का निर्माण कर रहा है, जो एक ऐतिहासिक एकल-कोशिका डेटासेट है जिसका उद्देश्य अगली पीढ़ी के AI मॉडलों को प्रशिक्षित करना है। लक्ष्य मूलभूत बुनियादी ढांचा है जो जैविक डेटा को मशीनों के लिए उतना ही सुलभ बनाता है जितना कोड रिपॉजिटरी डेवलपर्स के लिए हैं ।
यह सबक केवल जीवविज्ञान तक सीमित नहीं है
मूल अंतर्दृष्टि — कि विरासत इंसान-पहले इंटरफेस AI एजेंटों को तोड़ देते हैं — वैज्ञानिक कंप्यूटिंग में सामान्यीकरण करता है। निश्चित, प्रोग्रामेटिक एक्सेस लेयर कोई विलासिता नहीं हैं; वे स्वायत्त प्रणालियों को अनुसंधान में विश्वसनीय रूप से भाग लेने की अनुमति देने के लिए एक पूर्वापेक्षा हैं। इसका समाधान किसी अधिक स्मार्ट मॉडल की प्रतीक्षा करना नहीं है। यह सड़कों को उन्नत करना है।
arxiv.org[PDF] A path towards AI-scale, interoperable biological data - arXiv
Comments
0 comments