Meka Agent gây lo ngại về bảo mật dù đạt 72.7% điểm số benchmark WebArena

Nhóm Cộng đồng BigGo

Meka Agent gây lo ngại về bảo mật dù đạt 72.7% điểm số benchmark WebArena

Việc phát hành Meka Agent , một agent tự động sử dụng máy tính mã nguồn mở, đã gây ra cuộc thảo luận sôi nổi trong cộng đồng công nghệ về sự cân bằng giữa khả năng và bảo mật. Trong khi agent này đạt được kết quả benchmark ấn tượng với 72.7% trên bài kiểm tra WebArena , khả năng truy cập đầy đủ máy tính của nó đã làm dấy lên những lo ngại đáng kể về an toàn trong số các nhà phát triển và người dùng.

Hiệu suất Benchmark

Điểm số WebArena Benchmark: 72.7%
Đạt được kết quả tiên tiến nhất trong tự động hóa duyệt web
Sử dụng hệ thống xác minh đa mô hình để đảm bảo độ chính xác

Nỗi lo về bảo mật do quyền truy cập toàn hệ thống

Cuộc tranh luận gay gắt nhất tập trung xung quanh các điều khiển cấp hệ điều hành của Meka , vượt xa các công cụ tự động hóa trình duyệt thông thường. Khác với các giải pháp sandbox hoạt động trong môi trường trình duyệt, Meka có thể tương tác với các hộp thoại hệ thống, xử lý việc tải file lên và thực hiện các hành động ở cấp hệ điều hành. Khả năng này đã kích hoạt chuông báo động trong cộng đồng, với người dùng chỉ ra các sự cố gần đây khi các công cụ AI gây thiệt hại nghiêm trọng cho hệ thống công ty.

Một trong những đồng sáng lập, Edward , đã nhanh chóng giải quyết những lo ngại này bằng cách làm rõ rằng agent hoạt động trong các môi trường mới, được giới hạn chứ không phải trên máy tính cá nhân hoặc công ty. Tuy nhiên, lời giải thích này vẫn chưa hoàn toàn thỏa mãn những người hoài nghi lo lắng về khả năng bị lạm dụng hoặc gây thiệt hại ngoài ý muốn.

Các Tính Năng Kỹ Thuật Chính

Điều khiển ở cấp độ hệ điều hành (không chỉ trên trình duyệt)
Dựa trên TypeScript với API an toàn kiểu dữ liệu
Framework có thể mở rộng hỗ trợ nhiều nhà cung cấp
Mã nguồn mở theo giấy phép MIT License
10 USD tín dụng miễn phí có sẵn thông qua Meka App

Đánh đổi giữa hiệu suất và chi phí

Phản hồi từ cộng đồng cho thấy cảm xúc lẫn lộn về giá trị thực tế của agent. Trong khi người dùng thừa nhận thành tựu kỹ thuật ấn tượng, nhiều người đặt câu hỏi liệu chi phí token có biện minh được cho lợi ích tự động hóa hay không. Agent này yêu cầu các mô hình thị giác mạnh mẽ như O3 của OpenAI hoặc Claude Sonnet 4 , có thể tốn kém khi chạy cho các tác vụ thường ngày.

Thật thú vị khi chất lượng đang tiếp cận mức độ con người, nhưng tôi vẫn nghĩ chúng ta đang tiêu tốn quá nhiều token, và việc tăng tốc tự động hóa thực sự chưa xứng đáng với tổng giá token hiện tại

Các nhà phát triển thừa nhận hạn chế này nhưng lập luận rằng các tác vụ có giá trị cao, nhàm chán như điền form, tìm kiếm khách hàng tiềm năng và theo dõi giá cả biện minh cho chi phí hiện tại. Họ cũng kỳ vọng giá token sẽ giảm khi các mô hình thị giác trưởng thành.

Các Mô Hình Được Khuyến Nghị

OpenAI O3
Claude Sonnet 4
Claude Opus 4
Yêu cầu các mô hình thị giác có khả năng định vị hình ảnh tốt

Kiến trúc kỹ thuật và hiệu suất thực tế

Cách tiếp cận của Meka khác với các đối thủ bằng việc sử dụng nhiều mô hình kiểm tra lẫn nhau, tương tự như lập trình cặp trong phát triển phần mềm. Hệ thống bao gồm một mô hình đánh giá kiểm tra xem các tác vụ có được hoàn thành đúng cách hay không, điều mà nhóm cho là nguyên nhân của hiệu suất benchmark mạnh mẽ.

Tuy nhiên, việc kiểm tra thực tế đã tiết lộ những thách thức. Người dùng báo cáo các vấn đề với trang web đặt vé máy bay, lỗi timeout và các tác vụ không hoàn thành. Một người thử nghiệm phát hiện rằng cả hai trang web hàng không đều trở nên không thể sử dụng được trong phiên của họ, làm dấy lên câu hỏi liệu các agent sử dụng máy tính hiện tại có sẵn sàng cho các ứng dụng thực tế phức tạp hay không.

Thách thức về cơ sở hạ tầng và triển khai

Cuộc thảo luận của cộng đồng cũng nêu bật những lo ngại về triển khai thực tế. Trong khi nhóm ban đầu khám phá các giải pháp container hóa, họ thấy các dịch vụ VM dựa trên cloud nhanh hơn và dễ thực hiện hơn. Hệ thống yêu cầu các nhà cung cấp cơ sở hạ tầng cụ thể cung cấp điều khiển cấp hệ điều hành, hạn chế các tùy chọn triển khai so với các giải pháp chỉ dành cho trình duyệt đơn giản hơn.

Người dùng đã yêu cầu các tính năng như hỗ trợ proxy cho các trang bị chặn, khả năng tương thích với tiện ích mở rộng trình duyệt và khả năng giải CAPTCHA . Nhóm đã xác nhận hỗ trợ proxy có sẵn, với kế hoạch cho các tiện ích mở rộng trình duyệt, mặc dù họ thừa nhận việc giải CAPTCHA sẽ vẫn là một thách thức liên tục.

Cuộc tranh luận xung quanh Meka Agent phản ánh những câu hỏi rộng hơn về an toàn AI và triển khai thực tế. Trong khi các thành tựu kỹ thuật rất ấn tượng, phản ứng lẫn lộn của cộng đồng cho thấy rằng việc cân bằng sức mạnh, an toàn và hiệu quả chi phí vẫn là một thách thức đáng kể đối với các agent sử dụng máy tính tự động.

Tham khảo: Meka Agent

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌