उत्तरप्रकाशित2 माह पहलेLast edited पिछला माह18 स्रोत

BrowserAct: AI एजेंट्स के लिए लाइव वेबसाइट ऑटोमेशन को आसान बनाने वाला नया ओपन‑सोर्स टूलकिट

BrowserAct, ECOCREATE का नया ओपन‑सोर्स टूलकिट है जिसमें दो मुख्य टूल हैं: browser‑act और browser‑act‑skill‑forge। browser‑act AI एजेंट्स को असली ब्राउज़र कंट्रोल देता है ताकि वे वेबसाइट ब्राउज़, लॉग‑इन, डेटा स्क्रैप और टास्क पूरा कर सकें। browser‑act‑skill‑forge वेबसाइट‑स्पेसिफिक ऑटोमेशन को reusable “Skills” में बदल...

Studio Global AI के साथ खोजें और तथ्यों की जांच करें और ट्रेंडिंग पेज देखें

Concept illustration of an AI agent controlling a web browser to automate tasks across websites — How do ECOCREATE’s newly open-sourced GitHub tools, browser-act and browser-act-skill-forge, help AI agents reliably automate live websitesBrowserAct aims to give AI agents reliable browser control and reusable automation skills for interacting with live websites.
AI संकेत
Create a landscape editorial hero image for this Studio Global article: How do ECOCREATE’s newly open-sourced GitHub tools, browser-act and browser-act-skill-forge, help AI agents reliably automate live websites. Article summary: ECOCREATE’s BrowserAct release claims to make live-web automation more reliable by pairing a browsing “hands” Skill with a “factory” Skill that creates reusable site-specific automation Skills. The available evidence is . Topic tags: general, general web. Reference image context from search candidates: Reference image 1: visual subject "### Quantum Networking And The Quantum Internet: The Road Ahead. ### The Path To Cybersecurity In The Quantum Era. ### Quantum Algorithms: The Future Of Computing. ### No-Code AI T" source context "BrowserAct Launches Open Source AI-Agent Skills That Build Web ..." Reference image 2: visual subject "### Quantum Networking And The
openai.com

AI एजेंट्स से अब उम्मीद की जा रही है कि वे सिर्फ टेक्स्ट जनरेट करने के बजाय वास्तविक वेबसाइटों पर काम भी कर सकें—जैसे लॉग‑इन करना, डेटा निकालना, या पूरा वर्कफ़्लो ऑटोमेट करना। लेकिन व्यवहार में यह काफी मुश्किल होता है।

कई वेबसाइटें बॉट्स को ब्लॉक करती हैं, पेज का स्ट्रक्चर अक्सर बदलता रहता है, और ऑटोमेशन स्क्रिप्ट जल्दी टूट जाती हैं। इन्हीं समस्याओं को हल करने के लिए ECOCREATE ने BrowserAct नाम का एक ओपन‑सोर्स प्रोजेक्ट जारी किया है। इसमें दो GitHub टूल शामिल हैं: browser‑act और browser‑act‑skill‑forge। उपलब्ध जानकारी का बड़ा हिस्सा कंपनी की रिलीज़ सामग्री से आता है, इसलिए प्रदर्शन से जुड़े दावों को अभी स्वतंत्र रूप से सत्यापित नहीं माना जा सकता।

BrowserAct में क्या जारी किया गया

BrowserAct दो मुख्य घटकों पर आधारित है:

browser‑act – एक ब्राउज़र कंट्रोल स्किल जो AI एजेंट्स को सीधे वेबसाइटों के साथ इंटरैक्ट करने देता है।
browser‑act‑skill‑forge – एक फ्रेमवर्क जो एजेंट्स को वेबसाइट‑विशेष ऑटोमेशन टूल ("Skills") बनाने की सुविधा देता है।

प्रोजेक्ट के अनुसार इन दोनों का संबंध आसान भाषा में समझा जा सकता है: एक टूल एजेंट को वेब इस्तेमाल करने के हाथ देता है, जबकि दूसरा नई स्किल्स बनाने की फैक्ट्री की तरह काम करता है।

दोनों टूल GitHub पर ओपन‑सोर्स के रूप में उपलब्ध हैं और AI एजेंट सिस्टम्स के लिए आधारभूत बिल्डिंग ब्लॉक के रूप में पेश किए गए हैं।

AI एजेंट्स के लिए वेब ऑटोमेशन मुश्किल क्यों है

AI‑आधारित वेब ऑटोमेशन अक्सर तीन प्रमुख समस्याओं से टकराता है:

बॉट डिटेक्शन सिस्टम ऑटोमेटेड ब्राउज़र को ब्लॉक कर देते हैं
जटिल और अव्यवस्थित पेज संरचना से विश्वसनीय डेटा निकालना कठिन होता है
हर वेबसाइट के लिए अलग स्क्रिप्ट लिखनी पड़ती है

BrowserAct का आर्किटेक्चर इन समस्याओं को एक साथ हल करने की कोशिश करता है—ब्राउज़र ऑटोमेशन और वेबसाइट‑विशेष स्किल्स को जोड़कर।

`browser‑act`: AI एजेंट के लिए असली ब्राउज़र कंट्रोल

browser‑act एजेंट के लिए एक execution layer की तरह काम करता है, जिससे AI एजेंट केवल API या साधारण स्क्रैपिंग के बजाय पूरा ब्राउज़र वातावरण इस्तेमाल कर सकता है।

प्रोजेक्ट के अनुसार यह एजेंट को सक्षम बनाता है:

लाइव वेबसाइट ब्राउज़ करने और इंटरैक्ट करने के लिए
पेज स्क्रैप करके संरचित डेटा निकालने के लिए
लॉग‑इन और अन्य इंटरैक्टिव एक्शन संभालने के लिए
आउटपुट के रूप में JSON डेटा या स्क्रीनशॉट देने के लिए

दावे के अनुसार इससे जटिल वेबसाइटों से डेटा निकालना तेज़ और अधिक विश्वसनीय हो सकता है, लेकिन इन दावों के लिए स्वतंत्र बेंचमार्क उपलब्ध नहीं हैं।

बॉट डिटेक्शन और एंटी‑ऑटोमेशन सिस्टम से निपटना

आज कई वेबसाइटें automated traffic को पहचानने के लिए fingerprinting, IP विश्लेषण और CAPTCHA जैसे उपायों का उपयोग करती हैं।

BrowserAct के अनुसार इसमें कुछ बिल्ट‑इन फीचर शामिल हैं:

Randomized browser fingerprints ताकि सेशन असली उपयोगकर्ता जैसा लगे
Residential IP सपोर्ट जिससे डेटासेंटर IP ब्लॉक से बचा जा सके
CAPTCHA solving ताकि verification चुनौतियाँ पार की जा सकें
Remote human takeover जब ऑटोमेशन फेल हो जाए

इन सिस्टम्स के आंतरिक तकनीकी विवरण—जैसे CAPTCHA सफलता दर या fingerprint generation की विधि—सार्वजनिक स्रोतों में विस्तार से उपलब्ध नहीं हैं।

वैसे randomized browser fingerprinting वेब‑स्क्रैपिंग टूल्स में पहले से उपयोग की जाने वाली एक सामान्य तकनीक है, जिसमें ब्राउज़र हेडर और एट्रिब्यूट्स को असली उपयोगकर्ताओं जैसा बनाया जाता है।

`browser‑act‑skill‑forge`: वेबसाइटों के लिए reusable Skills बनाना

जहाँ browser‑act लाइव ब्राउज़िंग संभालता है, वहीं browser‑act‑skill‑forge का उद्देश्य वेबसाइट‑विशेष ऑटोमेशन लॉजिक को reusable बनाना है।

यह फ्रेमवर्क किसी वेबसाइट के वर्कफ़्लो—जैसे मार्केटप्लेस सर्च करना या प्रोडक्ट लिस्टिंग निकालना—को एक reusable Skill में बदल सकता है। इससे हर बार नई स्क्रिप्ट लिखने की जरूरत कम हो जाती है।

बताया गया है कि सिस्टम इस तरह काम करता है:

उपलब्ध होने पर वेबसाइट के APIs को खोजता है
जरूरत पड़ने पर API और DOM ऑटोमेशन को मिलाकर काम करता है
पूरी प्रक्रिया को reusable Skill में पैकेज कर देता है

इसका तथाकथित API‑first approach तब तेज़ हो सकता है जब वेबसाइट के छिपे या अनडॉक्यूमेंटेड API उपलब्ध हों।

AI एजेंट फ्रेमवर्क के साथ इंटीग्रेशन

BrowserAct स्किल्स को ऐसे एजेंट फ्रेमवर्क में उपयोग करने के लिए बनाया गया है जो टूल‑आधारित वर्कफ़्लो सपोर्ट करते हैं।

उदाहरण के लिए, SkillsLLM लिस्टिंग में दिखाया गया है कि इन्हें Claude Code environment में GitHub रिपॉजिटरी क्लोन करके जोड़ा जा सकता है।

इसे OPENCLAW‑स्टाइल एजेंट वर्कफ़्लो के साथ भी संगत बताया गया है, जहाँ एजेंट कई मॉड्यूलर स्किल्स को जोड़कर जटिल कार्य पूरा करते हैं।

प्रदर्शन सुधार के दावे

प्रोजेक्ट सामग्री के अनुसार BrowserAct उपयोग करने पर एजेंट्स को कुछ संभावित फायदे मिल सकते हैं:

तेज़ टास्क execution
कम संचालन लागत
जटिल वेबसाइटों पर अधिक विश्वसनीय परिणाम

लेकिन वर्तमान दस्तावेज़ों में कोई विस्तृत बेंचमार्क, परीक्षण पद्धति या तुलना डेटा उपलब्ध नहीं है। इसलिए ये दावे फिलहाल केवल कंपनी के बयान के रूप में ही देखे जाने चाहिए।

कीमत, उपलब्धता और सीमाएँ

अब तक उपलब्ध जानकारी के अनुसार:

उपलब्धता: दोनों टूल GitHub पर ओपन‑सोर्स के रूप में जारी किए गए हैं।
कीमत: स्किल्स स्वयं मुफ्त और ओपन‑सोर्स बताए गए हैं।

हालाँकि कुछ महत्वपूर्ण बातें अभी स्पष्ट नहीं हैं, जैसे:

रिक्वेस्ट या concurrency सीमाएँ
आवश्यक इंफ्रास्ट्रक्चर
residential proxies या CAPTCHA सेवाओं की लागत
बॉट सुरक्षा को बायपास करने से जुड़े compliance नियम

इनमें से कई चीजें बाहरी सेवाओं या उपयोगकर्ता की अपनी सेटअप पर निर्भर हो सकती हैं, इसलिए सार्वजनिक जानकारी सीमित है।

AI एजेंट इन्फ्रास्ट्रक्चर में एक नया रुझान

BrowserAct की रिलीज़ एक बड़े बदलाव की ओर इशारा करती है—जहाँ AI सिस्टम केवल APIs पर निर्भर नहीं रहते बल्कि मानव उपयोगकर्ता की तरह सीधे वेब के साथ इंटरैक्ट करते हैं।

ब्राउज़र कंट्रोल और reusable Skills को जोड़कर यह प्रोजेक्ट पारंपरिक वेब स्क्रैपिंग की कमजोरियों को कम करने का प्रयास करता है।

क्या BrowserAct वास्तव में उतना विश्वसनीय साबित होगा जितना दावा किया गया है, यह स्वतंत्र परीक्षणों और वास्तविक उपयोग के बाद ही स्पष्ट होगा। लेकिन इसका ओपन‑सोर्स लॉन्च यह दिखाता है कि AI एजेंट्स के लिए लाइव वेब को एक प्राथमिक कार्य‑पर्यावरण बनाने की दिशा में रुचि तेजी से बढ़ रही है।

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI के साथ खोजें और तथ्यों की जांच करें

लोग पूछते भी हैं