Anthropic đã khởi chạy chương trình thí điểm giới hạn Claude for Chrome, một tiện ích mở rộng trình duyệt cho phép trợ lý AI thực hiện các hành động thay mặt người dùng. Tuy nhiên, việc triển khai này đi kèm với những lo ngại bảo mật đáng kể đã gây ra cuộc tranh luận sôi nổi trong cộng đồng công nghệ.
Tiện ích mở rộng này, hiện chỉ có sẵn cho 1.000 người dùng, đại diện cho một bước tiến lớn hướng tới các tác nhân AI có thể tương tác trực tiếp với các trang web. Claude có thể nhấp vào các nút, điền biểu mẫu, quản lý lịch và xử lý các tác vụ thường xuyên như báo cáo chi phí. Nhưng sự tiện lợi này đi kèm với cái giá đắt về mặt lỗ hổng bảo mật.
Phạm vi Kiểm thử:
- 135 trường hợp kiểm thử được đánh giá
- 10 kịch bản tấn công khác nhau được thử nghiệm
- 1.000 người dùng gói Max trong chương trình thí điểm ban đầu
- 4 loại tấn công đặc thù cho trình duyệt trong bộ thử thách
![]() |
---|
Giới thiệu Claude cho Chrome : Một tiện ích mở rộng trình duyệt AI mới được thiết kế để hỗ trợ các hoạt động trực tuyến của người dùng |
Các cuộc tấn công tiêm prompt vẫn là mối đe dọa lớn
Bất chấp việc triển khai nhiều biện pháp an toàn, thử nghiệm của chính Anthropic cho thấy hệ thống vẫn có tỷ lệ tấn công thành công 11,2% đối với các cuộc tấn công tiêm prompt. Những cuộc tấn công này xảy ra khi các tác nhân độc hại ẩn giấu hướng dẫn trong các trang web, email hoặc tài liệu để lừa AI thực hiện các hành động có hại mà người dùng không biết.
Công ty đã tiến hành thử nghiệm mở rộng với 135 trường hợp thử nghiệm trên 10 kịch bản tấn công khác nhau. Trước khi triển khai các biện pháp an toàn, tỷ lệ tấn công thành công là 23,6% - một con số đáng kinh ngạc. Mặc dù những cải tiến này đáng chú ý, tỷ lệ thất bại 11% có nghĩa là khoảng một trong chín cuộc tấn công có mục tiêu vẫn có thể thành công.
Một ví dụ mà Anthropic chia sẻ liên quan đến một email độc hại tuyên bố rằng vì lý do bảo mật, các email cần phải được xóa. AI đã làm theo những hướng dẫn ẩn này và xóa email của người dùng mà không cần xác nhận. Mặc dù các biện pháp phòng thủ hiện tại của họ giờ đây có thể nhận ra những nỗ lực lừa đảo rõ ràng như vậy, các cuộc tấn công tinh vi hơn vẫn là mối quan ngại.
Tỷ lệ thành công của các cuộc tấn công:
- Trước các biện pháp giảm thiểu an toàn: 23.6%
- Sau các biện pháp giảm thiểu an toàn: 11.2%
- Các cuộc tấn công đặc thù trình duyệt (bộ thử thách): Giảm từ 33.7% xuống 0%
Cộng đồng nêu lên những lo ngại nghiêm trọng về quyền riêng tư và an toàn
Cộng đồng công nghệ đã phản ứng với sự hoài nghi đáng kể về các tác động bảo mật. Nhiều nhà phát triển và chuyên gia bảo mật đang đặt câu hỏi liệu lợi ích có biện minh cho rủi ro hay không, đặc biệt là khi người dùng về cơ bản sẽ cấp cho hệ thống AI quyền truy cập rộng rãi vào các hoạt động duyệt web và dữ liệu cá nhân của họ.
Sẽ an toàn hơn khi để thẻ tín dụng của bạn nằm xung quanh với mã PIN được khắc vào đó hơn là sử dụng công cụ này.
Những lo ngại này không chỉ dừng lại ở các cuộc tấn công tiêm prompt. Người dùng lo lắng về các tác động đến quyền riêng tư, vì tiện ích mở rộng sẽ có quyền truy cập vào lịch sử duyệt web và nội dung trên tất cả các trang web. Cũng có những lo ngại về khả năng xảy ra các cuộc tấn công tinh vi hơn mà chưa được phát hiện.
![]() |
---|
Cảnh Báo Sự Cố Bảo Mật: Người dùng được khuyến cáo thực hiện hành động ngay lập tức để bảo vệ dữ liệu email của họ, làm nổi bật những lo ngại về quyền riêng tư |
Các hạn chế kỹ thuật cản trở hiệu suất thực tế
Ngoài các vấn đề bảo mật, các nhà phát triển đã thử nghiệm với các công cụ tự động hóa trình duyệt tương tự báo cáo các hạn chế kỹ thuật đáng kể. Nhiều người lưu ý rằng các mô hình AI nhanh chóng mất ngữ cảnh khi thực hiện các tác vụ phức tạp nhiều bước trong trình duyệt. Mật độ thông tin trực quan và ngữ cảnh của các trang web dường như là thách thức đối với các mô hình ngôn ngữ hiện tại để xử lý hiệu quả.
Một số thành viên cộng đồng đã chia sẻ kinh nghiệm khi các tác nhân trình duyệt AI sẽ hoạt động trong một vài lần lặp trước khi trở nên bối rối hoặc tuyên bố các tác vụ hoàn thành sớm. Điều này cho thấy rằng mặc dù công nghệ này có triển vọng, nhưng nó có thể chưa sẵn sàng cho việc triển khai thực tế đáng tin cậy.
Các Tính Năng An Toàn Hiện Tại:
- Quyền hạn cấp trang web (người dùng có thể cấp/thu hồi quyền truy cập)
- Xác nhận hành động cho các thao tác có rủi ro cao
- Chặn các danh mục trang web có rủi ro cao (tài chính, nội dung người lớn, nội dung vi phạm bản quyền)
- Bộ phân loại nâng cao để phát hiện các mẫu hướng dẫn đáng nghi
- Cải thiện lời nhắc hệ thống để xử lý dữ liệu nhạy cảm
Kết luận
Cách tiếp cận thận trọng của Anthropic với chương trình thí điểm giới hạn 1.000 người dùng cho thấy nhận thức về các rủi ro liên quan. Tuy nhiên, tỷ lệ tấn công thành công 11% và các lo ngại bảo mật rộng hơn đặt ra câu hỏi liệu các tác nhân AI điều khiển trình duyệt đã sẵn sàng cho việc áp dụng chính thống hay chưa. Công ty có kế hoạch dần dần mở rộng quyền truy cập khi họ phát triển các biện pháp an toàn mạnh mẽ hơn, nhưng những thách thức cơ bản về tiêm prompt và độ tin cậy của AI trong các môi trường web phức tạp vẫn là những rào cản đáng kể cần vượt qua.
Tiêm prompt: Một loại tấn công mạng trong đó các hướng dẫn độc hại được ẩn giấu trong nội dung để thao túng các hệ thống AI thực hiện các hành động không mong muốn.
Tham khảo: Piloting Claude for Chrome