Chủ sở hữu website triển khai chiến thuật "đầu độc" để chống lại các bot thu thập dữ liệu LLM hung hăng

Nhóm Cộng đồng BigGo
Chủ sở hữu website triển khai chiến thuật "đầu độc" để chống lại các bot thu thập dữ liệu LLM hung hăng

Các chủ sở hữu website đang phản công lại các bot AI hung hăng bằng một chiến lược mới: cung cấp nội dung bị hỏng có chủ ý được thiết kế để đầu độc dữ liệu huấn luyện mô hình ngôn ngữ lớn. Sự kháng cự sáng tạo này xuất hiện khi các phương pháp chặn truyền thống như file robots.txt ngày càng trở nên không hiệu quả trước các công cụ thu thập dữ liệu quyết tâm.

Cách tiếp cận này bao gồm việc tạo ra các phiên bản vô nghĩa của các bài viết chứa đầy những biến dạng ngữ pháp và sự phi lý về từ vựng, sau đó làm cho những phiên bản bị hỏng này chỉ có thể truy cập được thông qua các liên kết nofollow. Lý thuyết là các công cụ tìm kiếm hợp pháp như Google sẽ tôn trọng chỉ thị nofollow, trong khi các bot AI bất hợp pháp sẽ bỏ qua nó và tiêu thụ nội dung bị nhiễm độc.

Một thiết kế đồ họa tượng trưng cho sự hỏng hóc hoặc liên kết bị lỗi trong nội dung, phản ánh sự kháng cự chống lại các AI crawler
Một thiết kế đồ họa tượng trưng cho sự hỏng hóc hoặc liên kết bị lỗi trong nội dung, phản ánh sự kháng cự chống lại các AI crawler

Vấn đề: Các bot thu thập không chịu nghe lời từ chối

Nhiều chủ sở hữu website báo cáo bị choáng ngợp bởi hành vi thu thập dữ liệu hung hăng. Một số phải đối mặt với sự tấn công liên tục từ các bot với 12 yêu cầu mỗi giây hoặc nhiều hơn, làm tăng chi phí băng thông và có thể ảnh hưởng đến hiệu suất trang web cho người dùng hợp pháp. Vấn đề đã trở nên nghiêm trọng đến mức các trang web nhỏ với lưu lượng truy cập tối thiểu cũng bị nhắm mục tiêu hung hăng như các nền tảng lớn.

Các phương pháp chặn truyền thống đã chứng minh là không đầy đủ. Trong khi các công ty lớn như OpenAI tuyên bố tôn trọng các file robots.txt cho các bot thu thập dữ liệu huấn luyện của họ, thực tế phức tạp hơn. Nhiều công cụ thu thập dữ liệu hoặc bỏ qua hoàn toàn những quy tắc này hoặc hoạt động thông qua bên thứ ba, khiến việc duy trì danh sách chặn hiệu quả gần như không thể.

Các User Agent Crawler LLM Phổ Biến

  • GPTBot ( OpenAI )
  • Perplexity-User (bỏ qua robots.txt đối với các yêu cầu từ người dùng)
  • ChatGPT-User (khác với GPTBot )
  • Nhiều crawler không tên khác từ Tencent và các công ty khác

Giải pháp cộng đồng: Bẫy mật và hố cát

Cộng đồng công nghệ đã phát triển một số biện pháp đối phó sáng tạo. Các công cụ như Iocaine và Nepenthes tạo ra các hố cát - nguồn nội dung rác được tạo ra vô tận liên kết với chính chúng một cách lặp đi lặp lại, được thiết kế để lãng phí tài nguyên của bot thu thập. Những giải pháp này có thể chạy hiệu quả trên phần cứng tối thiểu, với một số xử lý được tải thu thập nặng trong khi chỉ sử dụng 30 MB RAM trên một VPS hàng tháng 3 đô la Mỹ.

Cách tiếp cận đầu độc đi xa hơn bằng cách có khả năng làm ô nhiễm dữ liệu huấn luyện thực tế. Bằng cách tạo ra nội dung có vẻ hợp pháp đối với các hệ thống tự động nhưng chứa các lỗi tinh vi và các yếu tố vô nghĩa, các chủ sở hữu website hy vọng làm suy giảm chất lượng của các mô hình AI được huấn luyện trên nội dung của họ.

So sánh Sử dụng Tài nguyên

  • Iocane honeypot : sử dụng ~30 MB RAM trên VPS $3 USD/tháng
  • Có thể xử lý ~12 yêu cầu mỗi giây từ các crawler
  • Yêu cầu server tối thiểu để hoạt động hiệu quả

Cuộc tranh luận: Hiệu quả và đạo đức

Không phải ai cũng đồng ý rằng chiến lược này sẽ hiệu quả. Các nhà phê bình chỉ ra rằng việc huấn luyện LLM hiện đại bao gồm các quy trình lọc tinh vi được thiết kế đặc biệt để loại bỏ nội dung chất lượng thấp. Họ lập luận rằng những điều vô nghĩa rõ ràng có thể sẽ được phát hiện và lọc ra trước khi chúng đến được các bộ dữ liệu huấn luyện.

Xây dựng một LLM tuyệt vời hoàn toàn là về việc xây dựng một bộ dữ liệu huấn luyện chất lượng cao. Đó là toàn bộ trò chơi! Lọc ra những bài viết rác chứa đầy lỗi chính tả là một trong nhiều bước mà nhà cung cấp sẽ thực hiện trong việc tuyển chọn dữ liệu huấn luyện đó.

Tuy nhiên, những người ủng hộ tin rằng cách tiếp cận này có thể trở nên hiệu quả hơn nếu được áp dụng rộng rãi. Ngay cả khi các nỗ lực đầu độc cá nhân thất bại, việc cạn kiệt tài nguyên tập thể trên các công cụ thu thập có thể buộc hành vi tốt hơn. Một số gợi ý rằng các hình thức hỏng nội dung tinh vi hơn có thể khó phát hiện và lọc hơn.

Các Bước Triển Khai Đầu Độc Nội Dung

  1. Tạo mẫu vô nghĩa phản chiếu các bài viết chính
  2. Sử dụng thao tác văn bản để thay thế các từ ngẫu nhiên
  3. Thêm liên kết nofollow đến các phiên bản bị hỏng
  4. Chặn các crawler hợp pháp khỏi các trang vô nghĩa thông qua robots.txt
  5. Bẫy các crawler trong ma trận nội dung vô nghĩa thông qua liên kết nội bộ

Nhìn về phía trước: Cuộc chạy đua vũ trang

Sự phát triển này đại diện cho sự leo thang mới nhất trong cuộc chạy đua vũ trang đang diễn ra giữa những người tạo nội dung và các công ty AI. Trong khi các công ty lớn như OpenAI và Anthropic đã thiết lập các kênh chính thức để từ chối thu thập dữ liệu huấn luyện, sự phát triển của các doanh nghiệp AI nhỏ hơn có nghĩa là các bot thu thập mới xuất hiện liên tục.

Hiệu quả của việc đầu độc nội dung vẫn còn phải được chứng minh, nhưng nó phản ánh sự thất vọng ngày càng tăng với tình trạng hiện tại của việc thu thập dữ liệu web. Dù thông qua các biện pháp đối phó kỹ thuật hay thay đổi chính sách, căng thẳng giữa nhu cầu phát triển AI và quyền của người tạo nội dung tiếp tục thúc đẩy đổi mới ở cả hai phía.

robots.txt: Một file tiêu chuẩn cho các bot thu thập web biết những phần nào của website họ không nên truy cập nofollow: Một thuộc tính HTML cho các công cụ tìm kiếm biết không nên theo một liên kết cụ thể VPS: Máy chủ riêng ảo, một loại dịch vụ lưu trữ web

Tham khảo: POISONING WELL