Cloudflare đã vạch trần việc Perplexity AI sử dụng các chiến thuật crawling lừa dối để truy cập vào những website đã chặn rõ ràng các bot của công ty này. Cuộc điều tra của công ty an ninh mạng này tiết lộ một mô hình hành vi làm suy yếu các cơ chế tin cậy cơ bản đã chi phối hoạt động web crawling trong nhiều thập kỷ.
Tranh cãi xoay quanh việc Perplexity dường như bỏ qua các tệp robots.txt và các lệnh chặn mạng. Khi các chủ sở hữu website cố gắng ngăn chặn các crawler đã khai báo của Perplexity truy cập vào nội dung của họ, công ty AI này được cho là đã chuyển sang sử dụng các user agent không được tiết lộ để giả mạo các trình duyệt web thông thường, cụ thể là mô phỏng Google Chrome trên macOS.
Các Chiến Thuật Né Tránh của Perplexity:
- Sử dụng các user agent không được tiết lộ để mô phỏng Google Chrome trên macOS
- Luân phiên qua nhiều địa chỉ IP không nằm trong các dải chính thức
- Chuyển đổi giữa các ASN khác nhau (nhà cung cấp dịch vụ internet)
- Bỏ qua hoặc không tải được các tệp robots.txt
- Tiếp tục thu thập dữ liệu sau khi bị chặn bởi các user agent đã khai báo
![]() |
---|
Một minh họa làm nổi bật vấn đề crawling lén lút được sử dụng bởi Perplexity AI |
Quy mô của việc Crawling lừa dối
Nghiên cứu của Cloudflare đã phát hiện ra các chiến thuật lẩn tránh rộng rãi trên hàng chục nghìn tên miền, với hàng triệu yêu cầu mỗi ngày đến từ các địa chỉ IP không được liệt kê trong các dải IP chính thức của Perplexity. Công ty đã luân phiên qua các nhà cung cấp dịch vụ internet khác nhau (ASN) để che giấu thêm các hoạt động crawling khi gặp phải các hạn chế.
Để kiểm tra nghi ngờ của mình, Cloudflare đã tạo ra các tên miền hoàn toàn mới với các tệp robots.txt nghiêm ngặt cấm tất cả truy cập tự động. Bất chấp những hạn chế rõ ràng này, khi các nhà nghiên cứu hỏi Perplexity AI về những tên miền bí mật này, dịch vụ đã cung cấp thông tin chi tiết về nội dung, chứng minh rằng nó đã truy cập vào các trang web bị chặn.
Tranh luận trong cộng đồng về quyền truy cập AI
Việc tiết lộ này đã châm ngòi cho cuộc tranh luận gay gắt về ranh giới giữa các yêu cầu người dùng hợp pháp và crawling trái phép. Một số thành viên cộng đồng cho rằng các dịch vụ AI hoạt động thay mặt người dùng nên có quyền truy cập tương tự như các trình duyệt của con người. Những người khác lại cho rằng quy mô lớn và tính chất thương mại của AI crawling đã thay đổi hoàn toàn phương trình này.
Nếu bây giờ tôi tiến thêm một bước và sử dụng một LLM để tóm tắt nội dung vì việc trình bày chính thức bị ngập trong quảng cáo, JavaScript và pop-up đến mức nội dung trở nên gần như không thể sử dụng được, thì tại sao việc LLM truy cập website thay mặt tôi lại thuộc một danh mục pháp lý khác so với trình duyệt Firefox của tôi truy cập website thay mặt tôi?
Cộng đồng kỹ thuật vẫn chia rẽ về việc liệu các tiêu chuẩn web hiện tại có giải quyết đầy đủ vấn đề AI crawling hay không. Các tệp robots.txt truyền thống được thiết kế cho các công cụ tìm kiếm đưa lưu lượng truy cập trở lại các website, chứ không phải cho các hệ thống AI có khả năng loại bỏ nhu cầu người dùng phải truy cập các nguồn gốc.
So sánh với Thu thập dữ liệu AI có đạo đức ( OpenAI ):
- Nêu rõ mục đích của crawler và user agents
- Tuân thủ các chỉ thị robots.txt mà không cố gắng lách luật
- Dừng thu thập dữ liệu khi gặp các trang chặn
- Sử dụng ký tự Web Bot Auth cho các yêu cầu HTTP
- Không có các lần thu thập tiếp theo từ các user agents thay thế khi bị chặn
Tác động rộng hơn đến việc xuất bản web
Các chủ sở hữu website bày tỏ mối lo ngại ngày càng tăng về việc các công ty AI thu lợi từ nội dung của họ mà không cung cấp bồi thường hoặc ghi nhận nguồn. Không giống như các công cụ tìm kiếm gửi khách truy cập trở lại các nguồn gốc, các hệ thống AI thường cung cấp câu trả lời trực tiếp làm giảm lưu lượng truy cập đến các website nguồn.
Sự thay đổi này đe dọa mô hình kinh tế đã hỗ trợ phần lớn việc tạo nội dung web. Các nhà xuất bản dựa vào doanh thu quảng cáo hoặc chuyển đổi đăng ký lo lắng rằng việc tóm tắt bằng AI có thể loại bỏ khả năng kiếm tiền từ công việc của họ, có khả năng dẫn đến việc ít nội dung được công khai hơn.
Các Biện Pháp Ứng Phó của Cloudflare:
- Loại bỏ Perplexity khỏi danh sách bot được xác minh
- Bổ sung các phương pháp phân tích để quản lý các quy tắc chặn việc thu thập dữ liệu lén lút
- Phát triển công nghệ nhận diện bot thu thập dữ liệu dựa trên machine learning
- Hơn 2,5 triệu trang web hiện đang chặn các bot AI thông qua Cloudflare
- Bảo vệ miễn phí có sẵn cho tất cả khách hàng của Cloudflare
Cuộc chạy đua vũ trang kỹ thuật leo thang
Cloudflare đã phản ứng bằng cách phát triển các phương pháp phát hiện mới và quy tắc chặn nhắm mục tiêu cụ thể vào các crawler ẩn danh của Perplexity. Công ty hiện sử dụng machine learning và phân tích mạng để xác định hành vi crawling ngụy trang, ngay cả khi nó cố gắng mô phỏng các mô hình duyệt web của con người.
Tuy nhiên, cộng đồng kỹ thuật thừa nhận điều này tạo ra một cuộc chạy đua vũ trang liên tục. Khi các phương pháp phát hiện được cải thiện, các kỹ thuật crawling trở nên tinh vi hơn. Một số dự đoán rằng các crawler AI trong tương lai có thể sử dụng các công cụ tự động hóa trình duyệt hoặc thậm chí phân phối crawling qua các thiết bị người dùng để làm cho việc phát hiện gần như không thể.
Tranh cãi này làm nổi bật những câu hỏi cơ bản về sự đồng ý, sử dụng hợp lý và tương lai của web mở khi các hệ thống AI trở nên phổ biến hơn trong cách mọi người truy cập thông tin.
Tham khảo: Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives
![]() |
---|
Cuộc chạy đua vũ trang đang diễn ra trong thu thập dữ liệu web và phát hiện được làm nổi bật thông qua hình ảnh tương lai của giám sát |