Cả hai đều được phát hành mã nguồn mở trên GitHub và được định vị như các building block cho hệ thống AI agent cần truy cập web thật.
Các hệ thống tự động hóa web thường gặp ba vấn đề lớn:
BrowserAct được thiết kế để giải quyết các vấn đề này bằng cách kết hợp điều khiển trình duyệt thật với các công cụ tự động hóa có thể tái sử dụng cho từng site.
Thành phần browser‑act đóng vai trò lớp thực thi (execution layer), cho phép agent vận hành một môi trường trình duyệt thật thay vì chỉ dựa vào API hoặc scraping tĩnh.
Theo tài liệu dự án, công cụ này cho phép agent:
Dự án mô tả rằng công cụ có thể giúp agent duyệt web, scrape dữ liệu và trích xuất dữ liệu cấu trúc nhanh hơn và ổn định hơn so với các script dễ vỡ truyền thống. Tuy nhiên hiện chưa có benchmark độc lập xác nhận các cải thiện này.
Nhiều website hiện nay sử dụng các hệ thống chống bot dựa trên fingerprint trình duyệt, phân tích IP hoặc CAPTCHA.
BrowserAct tuyên bố xử lý các rào cản này bằng một số khả năng tích hợp sẵn:
Tuy vậy, tài liệu công khai hiện chưa mô tả chi tiết kỹ thuật của các cơ chế này, ví dụ như tỷ lệ giải CAPTCHA hay cách tạo fingerprint.
Fingerprint trình duyệt ngẫu nhiên thực tế là một kỹ thuật phổ biến trong các công cụ scraping; nhiều dự án mã nguồn mở cũng cho phép tạo header và fingerprint giống người dùng thật để tránh bị phát hiện.
Nếu browser‑act giúp agent duyệt web theo thời gian thực, thì browser‑act‑skill‑forge tập trung vào việc tạo logic tự động hóa tái sử dụng.
Framework này biến các workflow của website—ví dụ tìm kiếm sản phẩm trên marketplace hoặc trích xuất danh sách—thành các Skills có thể gọi lại nhiều lần.
Điều đó có nghĩa là:
Theo mô tả của dự án, hệ thống hoạt động bằng cách:
Cách tiếp cận API‑first này nhằm giảm chi phí và thời gian so với việc luôn phải render toàn bộ trang web trong trình duyệt.
BrowserAct được thiết kế để hoạt động với các framework agent dựa trên tool.
Ví dụ, tài liệu cài đặt cho thấy có thể thêm các Skills vào Claude Code bằng cách clone repository GitHub của dự án.
Dự án cũng đề cập đến khả năng sử dụng với workflow kiểu OPENCLAW, nơi agent kết hợp nhiều Skills để hoàn thành các tác vụ phức tạp.
Theo tài liệu phát hành, BrowserAct có thể mang lại:
Tuy nhiên hiện không có benchmark, phương pháp thử nghiệm hay so sánh chi tiết được công bố. Vì vậy những cải thiện này vẫn chủ yếu dựa trên tuyên bố từ phía dự án.
Thông tin được công bố hiện nay cho thấy:
Một số chi tiết vẫn chưa rõ ràng, chẳng hạn:
Việc phát hành BrowserAct phản ánh một xu hướng lớn trong hạ tầng AI: chuyển từ việc chỉ dùng API sang việc để agent trực tiếp sử dụng web giống con người.
Bằng cách kết hợp điều khiển trình duyệt với các công cụ tự động hóa tái sử dụng, dự án đặt mục tiêu giảm sự mong manh của các hệ thống scraping truyền thống.
Liệu BrowserAct có thực sự đạt được độ ổn định như tuyên bố hay không vẫn cần thêm thử nghiệm thực tế. Nhưng việc dự án được mở nguồn cho thấy ngày càng nhiều nỗ lực nhằm biến web thật thành môi trường làm việc trực tiếp cho AI agent.
Comments
0 comments