दोनों टूल GitHub पर ओपन‑सोर्स के रूप में उपलब्ध हैं और AI एजेंट सिस्टम्स के लिए आधारभूत बिल्डिंग ब्लॉक के रूप में पेश किए गए हैं।
AI‑आधारित वेब ऑटोमेशन अक्सर तीन प्रमुख समस्याओं से टकराता है:
BrowserAct का आर्किटेक्चर इन समस्याओं को एक साथ हल करने की कोशिश करता है—ब्राउज़र ऑटोमेशन और वेबसाइट‑विशेष स्किल्स को जोड़कर।
browser‑act: AI एजेंट के लिए असली ब्राउज़र कंट्रोलbrowser‑act एजेंट के लिए एक execution layer की तरह काम करता है, जिससे AI एजेंट केवल API या साधारण स्क्रैपिंग के बजाय पूरा ब्राउज़र वातावरण इस्तेमाल कर सकता है।
प्रोजेक्ट के अनुसार यह एजेंट को सक्षम बनाता है:
दावे के अनुसार इससे जटिल वेबसाइटों से डेटा निकालना तेज़ और अधिक विश्वसनीय हो सकता है, लेकिन इन दावों के लिए स्वतंत्र बेंचमार्क उपलब्ध नहीं हैं।
आज कई वेबसाइटें automated traffic को पहचानने के लिए fingerprinting, IP विश्लेषण और CAPTCHA जैसे उपायों का उपयोग करती हैं।
BrowserAct के अनुसार इसमें कुछ बिल्ट‑इन फीचर शामिल हैं:
इन सिस्टम्स के आंतरिक तकनीकी विवरण—जैसे CAPTCHA सफलता दर या fingerprint generation की विधि—सार्वजनिक स्रोतों में विस्तार से उपलब्ध नहीं हैं।
वैसे randomized browser fingerprinting वेब‑स्क्रैपिंग टूल्स में पहले से उपयोग की जाने वाली एक सामान्य तकनीक है, जिसमें ब्राउज़र हेडर और एट्रिब्यूट्स को असली उपयोगकर्ताओं जैसा बनाया जाता है।
browser‑act‑skill‑forge: वेबसाइटों के लिए reusable Skills बनानाजहाँ browser‑act लाइव ब्राउज़िंग संभालता है, वहीं browser‑act‑skill‑forge का उद्देश्य वेबसाइट‑विशेष ऑटोमेशन लॉजिक को reusable बनाना है।
यह फ्रेमवर्क किसी वेबसाइट के वर्कफ़्लो—जैसे मार्केटप्लेस सर्च करना या प्रोडक्ट लिस्टिंग निकालना—को एक reusable Skill में बदल सकता है। इससे हर बार नई स्क्रिप्ट लिखने की जरूरत कम हो जाती है।
बताया गया है कि सिस्टम इस तरह काम करता है:
इसका तथाकथित API‑first approach तब तेज़ हो सकता है जब वेबसाइट के छिपे या अनडॉक्यूमेंटेड API उपलब्ध हों।
BrowserAct स्किल्स को ऐसे एजेंट फ्रेमवर्क में उपयोग करने के लिए बनाया गया है जो टूल‑आधारित वर्कफ़्लो सपोर्ट करते हैं।
उदाहरण के लिए, SkillsLLM लिस्टिंग में दिखाया गया है कि इन्हें Claude Code environment में GitHub रिपॉजिटरी क्लोन करके जोड़ा जा सकता है।
इसे OPENCLAW‑स्टाइल एजेंट वर्कफ़्लो के साथ भी संगत बताया गया है, जहाँ एजेंट कई मॉड्यूलर स्किल्स को जोड़कर जटिल कार्य पूरा करते हैं।
प्रोजेक्ट सामग्री के अनुसार BrowserAct उपयोग करने पर एजेंट्स को कुछ संभावित फायदे मिल सकते हैं:
लेकिन वर्तमान दस्तावेज़ों में कोई विस्तृत बेंचमार्क, परीक्षण पद्धति या तुलना डेटा उपलब्ध नहीं है। इसलिए ये दावे फिलहाल केवल कंपनी के बयान के रूप में ही देखे जाने चाहिए।
अब तक उपलब्ध जानकारी के अनुसार:
हालाँकि कुछ महत्वपूर्ण बातें अभी स्पष्ट नहीं हैं, जैसे:
इनमें से कई चीजें बाहरी सेवाओं या उपयोगकर्ता की अपनी सेटअप पर निर्भर हो सकती हैं, इसलिए सार्वजनिक जानकारी सीमित है।
BrowserAct की रिलीज़ एक बड़े बदलाव की ओर इशारा करती है—जहाँ AI सिस्टम केवल APIs पर निर्भर नहीं रहते बल्कि मानव उपयोगकर्ता की तरह सीधे वेब के साथ इंटरैक्ट करते हैं।
ब्राउज़र कंट्रोल और reusable Skills को जोड़कर यह प्रोजेक्ट पारंपरिक वेब स्क्रैपिंग की कमजोरियों को कम करने का प्रयास करता है।
क्या BrowserAct वास्तव में उतना विश्वसनीय साबित होगा जितना दावा किया गया है, यह स्वतंत्र परीक्षणों और वास्तविक उपयोग के बाद ही स्पष्ट होगा। लेकिन इसका ओपन‑सोर्स लॉन्च यह दिखाता है कि AI एजेंट्स के लिए लाइव वेब को एक प्राथमिक कार्य‑पर्यावरण बनाने की दिशा में रुचि तेजी से बढ़ रही है।
Comments
0 comments