Câu trả lờiĐã xuất bản2 tháng trướcLast edited tháng trước18 nguồn

BrowserAct: Khi AI agent có thể duyệt web và tự tạo công cụ tự động hóa

BrowserAct là bộ công cụ mã nguồn mở mới của ECOCREATE gồm hai phần: browser‑act (điều khiển trình duyệt thật cho AI agent) và browser‑act‑skill‑forge (tạo các công cụ tự động hóa website có thể tái sử dụng). Dự án nhằm giải quyết các vấn đề phổ biến của web automation như bot detection, cấu trúc trang phức tạp và v...

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm trang xu hướng

Concept illustration of an AI agent controlling a web browser to automate tasks across websites — How do ECOCREATE’s newly open-sourced GitHub tools, browser-act and browser-act-skill-forge, help AI agents reliably automate live websitesBrowserAct aims to give AI agents reliable browser control and reusable automation skills for interacting with live websites.
Prompt AI
Create a landscape editorial hero image for this Studio Global article: How do ECOCREATE’s newly open-sourced GitHub tools, browser-act and browser-act-skill-forge, help AI agents reliably automate live websites. Article summary: ECOCREATE’s BrowserAct release claims to make live-web automation more reliable by pairing a browsing “hands” Skill with a “factory” Skill that creates reusable site-specific automation Skills. The available evidence is . Topic tags: general, general web. Reference image context from search candidates: Reference image 1: visual subject "### Quantum Networking And The Quantum Internet: The Road Ahead. ### The Path To Cybersecurity In The Quantum Era. ### Quantum Algorithms: The Future Of Computing. ### No-Code AI T" source context "BrowserAct Launches Open Source AI-Agent Skills That Build Web ..." Reference image 2: visual subject "### Quantum Networking And The
openai.com

AI agent ngày càng được kỳ vọng có thể tương tác trực tiếp với website thật: đăng nhập, thu thập dữ liệu, bấm nút, hoặc hoàn thành toàn bộ một quy trình online. Nhưng trên thực tế, việc này khá khó.

Nhiều website chặn bot, cấu trúc trang thay đổi liên tục, còn các script tự động hóa thường dễ bị “gãy” khi trang web cập nhật.

Dự án BrowserAct của ECOCREATE được giới thiệu như một cách tiếp cận mới để giải quyết những vấn đề này. Công ty đã mở nguồn hai công cụ trên GitHub: browser‑act và browser‑act‑skill‑forge. Hai thành phần này nhằm giúp AI agent truy cập web đáng tin cậy hơn và tạo ra các công cụ tự động hóa có thể tái sử dụng cho từng website. Phần lớn thông tin hiện có đến từ tài liệu công bố của chính dự án, nên các tuyên bố về hiệu năng và độ tin cậy vẫn cần được kiểm chứng độc lập.

BrowserAct đã phát hành những gì

Dự án bao gồm hai thành phần chính:

browser‑act – một “skill” cho phép AI agent điều khiển trình duyệt và tương tác trực tiếp với website.

browser‑act‑skill‑forge – framework giúp tạo ra các công cụ tự động hóa (gọi là Skills) dành riêng cho từng website.

Trong mô tả của dự án, mối quan hệ giữa hai công cụ khá đơn giản: một công cụ cung cấp “đôi tay” để agent dùng web, còn công cụ kia giống như “nhà máy tạo ra những đôi tay mới” phù hợp với từng website cụ thể.

Cả hai đều được phát hành mã nguồn mở trên GitHub và được định vị như các building block cho hệ thống AI agent cần truy cập web thật.

Vì sao web automation lại khó với AI agent

Các hệ thống tự động hóa web thường gặp ba vấn đề lớn:

Bot detection chặn trình duyệt tự động.
Cấu trúc HTML phức tạp hoặc thay đổi liên tục khiến việc trích xuất dữ liệu thiếu ổn định.
Script riêng cho từng website phải viết lại khi agent làm việc với trang mới.

BrowserAct được thiết kế để giải quyết các vấn đề này bằng cách kết hợp điều khiển trình duyệt thật với các công cụ tự động hóa có thể tái sử dụng cho từng site.

browser‑act: cho AI agent quyền điều khiển trình duyệt

Thành phần browser‑act đóng vai trò lớp thực thi (execution layer), cho phép agent vận hành một môi trường trình duyệt thật thay vì chỉ dựa vào API hoặc scraping tĩnh.

Theo tài liệu dự án, công cụ này cho phép agent:

Duyệt và tương tác với website thật
Thu thập dữ liệu và trích xuất dữ liệu có cấu trúc
Xử lý các bước đăng nhập hoặc thao tác tương tác
Trả về kết quả như JSON có cấu trúc hoặc ảnh chụp trang

Dự án mô tả rằng công cụ có thể giúp agent duyệt web, scrape dữ liệu và trích xuất dữ liệu cấu trúc nhanh hơn và ổn định hơn so với các script dễ vỡ truyền thống. Tuy nhiên hiện chưa có benchmark độc lập xác nhận các cải thiện này.

Cách BrowserAct xử lý bot detection

Nhiều website hiện nay sử dụng các hệ thống chống bot dựa trên fingerprint trình duyệt, phân tích IP hoặc CAPTCHA.

BrowserAct tuyên bố xử lý các rào cản này bằng một số khả năng tích hợp sẵn:

Fingerprint trình duyệt ngẫu nhiên để mô phỏng hành vi người dùng thật
Hỗ trợ IP dân cư (residential IP) nhằm tránh bị chặn IP datacenter
Giải CAPTCHA khi website yêu cầu xác minh
Remote human takeover khi automation thất bại

Tuy vậy, tài liệu công khai hiện chưa mô tả chi tiết kỹ thuật của các cơ chế này, ví dụ như tỷ lệ giải CAPTCHA hay cách tạo fingerprint.

Fingerprint trình duyệt ngẫu nhiên thực tế là một kỹ thuật phổ biến trong các công cụ scraping; nhiều dự án mã nguồn mở cũng cho phép tạo header và fingerprint giống người dùng thật để tránh bị phát hiện.

browser‑act‑skill‑forge: tạo “Skills” tái sử dụng cho website

Nếu browser‑act giúp agent duyệt web theo thời gian thực, thì browser‑act‑skill‑forge tập trung vào việc tạo logic tự động hóa tái sử dụng.

Framework này biến các workflow của website—ví dụ tìm kiếm sản phẩm trên marketplace hoặc trích xuất danh sách—thành các Skills có thể gọi lại nhiều lần.

Điều đó có nghĩa là:

Agent không cần viết lại code scraping cho từng website
Một workflow đã xây dựng có thể dùng lại nhiều lần

Theo mô tả của dự án, hệ thống hoạt động bằng cách:

Tìm và sử dụng API ẩn hoặc API nội bộ nếu có
Kết hợp API với DOM automation khi cần
Đóng gói toàn bộ workflow thành một Skill

Cách tiếp cận API‑first này nhằm giảm chi phí và thời gian so với việc luôn phải render toàn bộ trang web trong trình duyệt.

Tích hợp với hệ sinh thái AI agent

BrowserAct được thiết kế để hoạt động với các framework agent dựa trên tool.

Ví dụ, tài liệu cài đặt cho thấy có thể thêm các Skills vào Claude Code bằng cách clone repository GitHub của dự án.

Dự án cũng đề cập đến khả năng sử dụng với workflow kiểu OPENCLAW, nơi agent kết hợp nhiều Skills để hoàn thành các tác vụ phức tạp.

Những cải thiện hiệu năng được tuyên bố

Theo tài liệu phát hành, BrowserAct có thể mang lại:

Tốc độ thực thi nhanh hơn
Chi phí vận hành thấp hơn
Độ ổn định cao hơn trên các website phức tạp

Tuy nhiên hiện không có benchmark, phương pháp thử nghiệm hay so sánh chi tiết được công bố. Vì vậy những cải thiện này vẫn chủ yếu dựa trên tuyên bố từ phía dự án.

Giá, khả năng truy cập và giới hạn sử dụng

Thông tin được công bố hiện nay cho thấy:

Tình trạng: mã nguồn mở trên GitHub
Giá: được mô tả là miễn phí và open source

Một số chi tiết vẫn chưa rõ ràng, chẳng hạn:

Giới hạn request hoặc concurrency
Yêu cầu hạ tầng khi triển khai
Chi phí cho proxy IP dân cư hoặc dịch vụ giải CAPTCHA
Chính sách sử dụng hoặc tuân thủ khi vượt qua bot detection

Những yếu tố này thường phụ thuộc vào hạ tầng bên ngoài, nên có thể khác nhau tùy cách triển khai.

Ý nghĩa của BrowserAct với AI agent

Việc phát hành BrowserAct phản ánh một xu hướng lớn trong hạ tầng AI: chuyển từ việc chỉ dùng API sang việc để agent trực tiếp sử dụng web giống con người.

Bằng cách kết hợp điều khiển trình duyệt với các công cụ tự động hóa tái sử dụng, dự án đặt mục tiêu giảm sự mong manh của các hệ thống scraping truyền thống.

Liệu BrowserAct có thực sự đạt được độ ổn định như tuyên bố hay không vẫn cần thêm thử nghiệm thực tế. Nhưng việc dự án được mở nguồn cho thấy ngày càng nhiều nỗ lực nhằm biến web thật thành môi trường làm việc trực tiếp cho AI agent.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "BrowserAct: Khi AI agent có thể duyệt web và tự tạo công cụ tự động hóa" là gì?

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Các tính năng được công bố gồm fingerprint trình duyệt ngẫu nhiên, hỗ trợ IP dân cư, xử lý CAPTCHA, takeover thủ công từ con người và tích hợp với workflow agent như OPENCLAW.

Nguồn

← Back to Trending