Việc tích hợp các trợ lý AI vào công cụ hàng ngày của chúng ta đang tăng tốc, và trình duyệt web là một chiến trường then chốt. Một dự án mới, BrowserOS, đang cố gắng tạo ra chỗ đứng bằng cách nhúng trực tiếp một máy chủ Model Context Protocol (MCP) vào lõi của nó. Điều này cho phép các công cụ AI như Claude Code và gemini-cli điều khiển trình duyệt một cách liền mạch, hứa hẹn một cấp độ tự động hóa mới mẻ. Tuy nhiên, cộng đồng nhà phát triển đang tích cực tranh luận liệu cách tiếp cận này có đủ sức hấp dẫn để lôi kéo người dùng từ những gã khổng lồ đã thành danh như Google Chrome, những nền tảng cũng đang nhanh chóng bổ sung các tính năng AI của riêng họ.
Lợi Thế Kỹ Thuật: Ẩn Mình Và Phiên Làm Việc
Một điểm thảo luận quan trọng xoay quanh kiến trúc kỹ thuật của BrowserOS. Không giống như các công cụ tự động hóa phổ biến dựa vào Chrome DevTools Protocol (CDP), BrowserOS triển khai các lệnh tự động hóa của nó—như gõ phím, nhấp chuột và trích xuất dữ liệu—ở cấp độ C++ trong chính công cụ kết xuất. Người sáng lập dự án giải thích rằng cách tiếp cận không dùng CDP này có hiệu quả đáng ngạc nhiên trong việc tránh bị các trang web phát hiện là bot. Hơn nữa, máy chủ MCP được tích hợp sẵn được thiết kế để hoạt động với các phiên đăng nhập đang hoạt động của người dùng, một tính năng tương phản với các công cụ thường khởi chạy các phiên trình duyệt không đầu mới cho mỗi tác vụ.
TLDR: Về cơ bản, hầu hết các nền tảng tự động hóa trình duyệt sử dụng CDP hoặc các API dựa trên CDP và các trang web có thể phát hiện ra chúng là bot. Chúng tôi đã xây dựng các API C++ mới vào công cụ kết xuất cho các thao tác gõ, nhấp, trích xuất mà không dựa trên CDP.
Những Điểm Khác Biệt Chính So Với Các Công Cụ Cạnh Tranh:
- Chống Phát Hiện: Sử dụng API cấp độ C++ thay vì CDP để tránh bị phát hiện bot.
- Duy Trì Phiên: Hoạt động với các phiên trình duyệt đang hoạt động và đã đăng nhập.
- Máy Chủ Tích Hợp: Máy chủ MCP được nhúng sẵn trong trình duyệt, loại bỏ việc cài đặt riêng biệt.
Tình Thế Tiến Thoái Lưỡng Nan: Sự Quen Thuộc và Đổi Mới
Mặc dù công nghệ nền tảng có thể là mới lạ, giao diện người dùng của BrowserOS đã nhận được những phản ứng trái chiều. Các nhà phát triển đã có một lựa chọn có chủ đích là mô phỏng giao diện người dùng sát với Google Chrome, dựa vào sự quen thuộc của người dùng để hạ thấp rào cản tiếp cận. Tuy nhiên, quyết định này không được mọi người đón nhận. Một người dùng nhận xét rằng họ không thích giao diện giống Chrome và thích các trình duyệt khác bất chấp các lỗi của chúng, đặc biệt viện dẫn các tính năng, bố cục và hỗ trợ tiện ích mở rộng là những yếu tố quyết định. Điều này làm nổi bật một thách thức kinh điển đối với những người mới tham gia thị trường: nên bắt chước nhà dẫn đầu thị trường để được chấp nhận nhanh chóng hay tích cực tạo sự khác biệt để thu hút những người dùng không hài lòng với hiện trạng.
Một Sân Chơi Đông Đúc Và Đề Xuất Giá Trị
Bối cảnh cạnh tranh là một chủ đề nóng khác. Người dùng nhanh chóng so sánh BrowserOS-MCP với các giải pháp hiện có như Playwright MCP hoặc các phương pháp điều khiển trình duyệt khác. Theo các nhà phát triển, điểm khác biệt nằm ở sự đơn giản của kết nối một cú nhấp chuột, không yêu cầu thiết lập CDP phức tạp và hỗ trợ nhiều kết nối song song. Bất chấp điều này, một số người dùng sớm đã quay trở lại với Chrome, nền tảng gần đây đã tích hợp các tính năng AI Gemini mạnh mẽ trực tiếp vào trình duyệt. Điều này nhấn mạnh áp lực khổng lồ lên các sản phẩm thích hợp trong việc liên tục chứng minh giá trị độc đáo của họ khi các nền tảng lớn hơn hấp thụ những ý tưởng đổi mới của họ.
Trình Diễn Tiềm Năng Tác Nhân
Những người ủng hộ công nghệ này chỉ ra tiềm năng của nó cho các quy trình làm việc dạng tác nhân, nơi một AI có thể tự động thực hiện các tác vụ phức tạp trong trình duyệt. Một người dùng đã chứng minh điều này bằng cách tuyên bố đã vibe code một bản sao Hacker News trong vòng chưa đầy năm phút bằng cách sử dụng Claude Code và máy chủ BrowserOS MCP. Mặc dù những người hoài nghi nhanh chóng lưu ý rằng điều này chỉ sao chép lại thiết kế trực quan chứ không tạo ra mã code có chức năng, nó đã minh họa hiệu quả cho tầm nhìn: sử dụng AI để tạo mẫu nhanh chóng và lấy cảm hứng trực tiếp từ các trang web hiện có, tất cả trong một môi trường trình duyệt được tự động hóa và kiểm soát.
Phương pháp tích hợp MCP Server:
- Claude Code/Gemini-cli: Thêm thông qua dòng lệnh (
claude mcp addhoặcgemini mcp add). - Claude Desktop: Cấu hình bằng cách chỉnh sửa file
claude_desktop_config.jsonđể trỏ đến MCP server cục bộ.
Kết Luận
Cuộc thảo luận xung quanh BrowserOS-MCP cho thấy một cộng đồng vô cùng quan tâm đến tương lai của trình duyệt được điều khiển bởi AI. Cách tiếp cận kỹ thuật của dự án đối với tự động hóa ẩn mình và duy trì phiên làm việc mang đến một giải pháp thay thế hấp dẫn so với các phương pháp hiện tại. Tuy nhiên, thành công của nó không được đảm bảo. Nó phải định hướng sở thích của người dùng về thiết kế, thể hiện sự vượt trội rõ ràng so với ngày càng nhiều các giải pháp thay thế, và không ngừng đổi mới để dẫn trước các tính năng đang được tích hợp vào các trình duyệt phổ biến nhất thế giới. Cuộc đua để xây dựng cây cầu tốt nhất giữa AI và web đã bắt đầu, và cộng đồng đang theo dõi sát sao.
Tham khảo: Hướng Dẫn Cách Làm
