Lưu lượng Bot AI làm quá tải các trang web nhỏ khi Cloudflare đề xuất giải pháp "Signed Agents" gây tranh cãi

Nhóm Cộng đồng BigGo
Lưu lượng Bot AI làm quá tải các trang web nhỏ khi Cloudflare đề xuất giải pháp "Signed Agents" gây tranh cãi

Các chủ sở hữu trang web nhỏ đang đối mặt với một cuộc khủng hoảng ngày càng gia tăng khi các trình thu thập dữ liệu AI tích cực từ các công ty lớn như OpenAI , Meta và Perplexity tiêu thụ lượng tài nguyên máy chủ khổng lồ. Những bot này thường bỏ qua các quy tắc phép lịch sự web truyền thống như tệp robots.txt và làm quá tải các trang web với hàng trăm yêu cầu mỗi giây, buộc một số người vận hành phải đưa nội dung của họ offline hoàn toàn.

Vấn đề đã trở nên nghiêm trọng đến mức một chủ sở hữu trang web báo cáo 1,6 terabyte dữ liệu được các bot truy cập trong một tháng, với 1,3 triệu yêu cầu hàng ngày. Một người khác mô tả các bot AI tạo ra 200-300 yêu cầu mỗi giây trong khi ảo giác các URL một cách điên cuồng trên các trang web marketing nhỏ hơn. Không giống như các trình thu thập dữ liệu công cụ tìm kiếm có hành vi tốt từ Google hoặc Bing tôn trọng giới hạn tốc độ và sở thích của trang web, những trình cạo dữ liệu AI này thường thay đổi user agent và địa chỉ IP để vượt qua các lệnh chặn.

Ví dụ về Tác động Lưu lượng Bot AI:

  • 1.6 TB dữ liệu được truy cập trong một tháng bởi các bot trên một trang web duy nhất
  • 1.3 triệu yêu cầu bot mỗi ngày
  • 200-300 yêu cầu mỗi giây trên các trang web marketing nhỏ
  • Chi phí truyền dữ liệu AWS có thể lên tới 30,000 USD cho việc sử dụng 330TB hàng tháng
  • Một số trang web buộc phải ngừng hoạt động do chi phí băng thông vượt quá 50-100 USD hàng tháng

Giải pháp được đề xuất của Cloudflare gây ra tranh luận

Để đáp ứng cuộc khủng hoảng này, Cloudflare đã giới thiệu một hệ thống signed agents sẽ tạo ra một danh sách cho phép các bot AI được phê duyệt. Theo đề xuất này, các công ty AI sẽ cần đăng ký với Cloudflare và nhận chữ ký mật mã để truy cập các trang web tham gia. Chủ sở hữu trang web sau đó có thể chọn chặn tất cả lưu lượng bot chưa được xác minh trong khi cho phép các agent được phê duyệt đi qua.

Tuy nhiên, giải pháp này đã thu hút sự chỉ trích gay gắt từ các nhà phát triển và những người ủng hộ web mở, những người lập luận rằng nó tạo ra một tiền lệ nguy hiểm. Các nhà phê bình lo ngại rằng việc yêu cầu đăng ký với một công ty duy nhất để truy cập các trang web thay đổi cơ bản bản chất của internet mở. Họ chỉ ra các ví dụ lịch sử nơi kiểm soát tập trung dẫn đến sự trì trệ đổi mới, so sánh nó với nỗ lực thất bại của Microsoft trong việc kiểm soát các tiêu chuẩn web trong những năm 1990.

Thách thức kỹ thuật vượt ra ngoài giới hạn tốc độ đơn giản

Quy mô của vấn đề vượt ra ngoài những gì các giải pháp truyền thống có thể xử lý. Giới hạn tốc độ cơ bản theo địa chỉ IP tỏ ra không hiệu quả khi các công ty AI sử dụng proxy dân cư xoay vòng và mạng phân tán trải rộng trên hàng nghìn địa chỉ IP. Ngay cả các hệ thống cache tinh vi cũng gặp khó khăn khi các bot bỏ qua cache header và liên tục tìm nạp cùng một nội dung.

Chỉ riêng chi phí băng thông đã buộc các người vận hành trang web phải tìm kiếm sự bảo vệ. Các nhà cung cấp đám mây như AWS tính phí đáng kể cho việc truyền dữ liệu, với một số ước tính cho rằng một cuộc tấn công bot có phối hợp có thể tạo ra hàng chục nghìn đô la Mỹ chi phí bất ngờ. Đối với các blogger nhỏ và người tạo nội dung, những chi phí này có thể khiến việc hosting trở nên không khả thi về mặt tài chính.

Cộng đồng tìm kiếm các giải pháp thay thế mở

Nhiều người trong cộng đồng kỹ thuật đang thúc đẩy các giải pháp phi tập trung không dựa vào một người gác cổng duy nhất. Các giải pháp thay thế được đề xuất bao gồm chuỗi ủy quyền mật mã nơi các trang web có thể xác minh tính xác thực của bot thông qua bản ghi DNS và cơ sở hạ tầng khóa công khai, tương tự như cách xác thực email hoạt động ngày nay. Điều này sẽ cho phép chủ sở hữu trang web đưa ra quyết định riêng về bot nào được phép mà không yêu cầu đăng ký với bất kỳ cơ quan trung ương nào.

Bạn làm cho các yêu cầu không xác thực đủ rẻ để bạn không quan tâm đến khối lượng. Dành giới hạn tốc độ cho người dùng đã xác thực nơi bạn có danh tính thực. Web mở tồn tại bằng cách thực sự miễn phí để phục vụ, không phải bằng cách cố gắng đoán ai là 'thực'.

Một số nhà phát triển cũng đang khám phá các hệ thống proof of work nơi các bot sẽ cần giải các câu đố tính toán trước khi truy cập nội dung, làm cho việc cạo dữ liệu quy mô lớn trở nên đắt đỏ hơn trong khi vẫn có thể truy cập được đối với người dùng hợp pháp và các hệ thống tự động có hành vi tốt.

Các Giải Pháp Kỹ Thuật Được Đề Xuất:

  • Cloudflare Signed Agents - Danh sách cho phép tập trung yêu cầu đăng ký
  • Xác minh dựa trên DNS - Sử dụng mật mã khóa công khai thông qua bản ghi DNS
  • Hệ thống bằng chứng công việc - Các câu đố tính toán để làm cho việc thu thập dữ liệu trở nên tốn kém
  • Chứng chỉ X.509 - Chuỗi ủy quyền cho quyền truy cập được phép
  • Các giải pháp thay thế mã nguồn mở - Các dự án như Anubis để tự lưu trữ bảo vệ

Tương lai của việc truy cập Web

Cuộc tranh luận phản ánh một căng thẳng rộng lớn hơn giữa việc giữ web mở và bảo vệ người tạo nội dung khỏi sự khai thác. Trong khi các công ty AI lập luận rằng các công cụ của họ mang lại giá trị cho người dùng, chủ sở hữu trang web ngày càng cảm thấy họ đang trợ cấp cho các tập đoàn tỷ đô la mà không có bồi thường. Thách thức nằm ở việc tìm ra các giải pháp bảo tồn bản chất mở của web trong khi cung cấp cho chủ sở hữu trang web quyền kiểm soát có ý nghĩa đối với tài nguyên của họ.

Khi tình hình này phát triển, những lựa chọn được thực hiện ngày hôm nay có thể quyết định liệu internet có còn là một nền tảng phi tập trung cho đổi mới hay phát triển thành một loạt các khu vườn có tường bao được kiểm soát bởi một vài công ty lớn. Cộng đồng kỹ thuật tiếp tục làm việc trên các tiêu chuẩn mở có thể cung cấp lợi ích của việc xác minh bot mà không có rủi ro của kiểm soát tập trung.

Tham khảo: The Web Does Not Need Gatekeepers