Một báo cáo gần đây đã gây ra cuộc tranh luận sôi nổi về việc liệu các tập đoàn công nghệ có nên tôn trọng mong muốn của chủ sở hữu website khi thu thập dữ liệu để huấn luyện AI hay không. Tranh cãi tập trung vào những cáo buộc rằng Meta đang thu thập dữ liệu từ các website độc lập và các instance Fediverse trong khi hoàn toàn bỏ qua các file robots.txt - cách thức tiêu chuẩn để các website thông báo cho crawler biết nội dung nào họ có thể truy cập.
Cuộc thảo luận đã tiết lộ sự chia rẽ cơ bản trong cách mọi người nhìn nhận dữ liệu internet công khai. Trong khi Meta phủ nhận các cáo buộc, cuộc trò chuyện rộng lớn hơn đã phơi bày những căng thẳng sâu sắc về thực tiễn thu thập dữ liệu của các công ty AI và tác động của chúng đối với web độc lập.
Sự chia rẽ lớn về robots.txt
Phản ứng của cộng đồng cho thấy một sự chia rẽ triết học rõ ràng. Một số người cho rằng bất kỳ dữ liệu nào được công bố công khai trên internet đều nên được coi là hợp lý để thu thập và huấn luyện AI. Họ coi những nỗ lực hạn chế quyền truy cập là đi ngược lại các nguyên tắc nền tảng của internet về việc chia sẻ thông tin mở.
Những người khác lo ngại về hậu quả lâu dài của việc thu thập dữ liệu AI không hạn chế. Họ chỉ ra rằng trong khi Fediverse và các website độc lập tạo ra nội dung làm cho các hệ thống AI trở nên có giá trị, chính những hệ thống AI này cuối cùng có thể thay thế các nhà sáng tạo ban đầu, cắt đứt khán giả và thu nhập của họ.
AI tạo sinh vẫn dựa vào công việc của những nhà sáng tạo mà sinh kế của họ bị đe dọa bởi dữ liệu huấn luyện. Nó vẫn dựa vào việc có ai đó trải nghiệm thế giới thực và mô tả nó cho chúng. Nó chỉ từ chối cho họ khán giả hoặc thành quả lao động của họ.
Tác động kỹ thuật vượt ra ngoài đạo đức
Ngoài những mối quan tâm triết học, các nhà vận hành website báo cáo những vấn đề thực tế với việc thu thập dữ liệu AI. Một số trang web độc lập phải đối mặt với những gì tương đương với các cuộc tấn công từ chối dịch vụ phân tán từ các crawler AI hung hăng, làm cho website của họ chậm hoặc không khả dụng đối với người dùng thông thường. Đối với các website nhỏ hoạt động với ngân sách eo hẹp, tải máy chủ tăng này có thể đe dọa khả năng tài chính của họ.
Thực tế kỹ thuật là các file robots.txt chỉ hoạt động khi các crawler chọn tôn trọng chúng. Vì những file này không có ràng buộc pháp lý, các công ty có thể bỏ qua chúng mà không vi phạm bất kỳ luật nào. Điều này đã khiến một số chủ sở hữu website thực hiện các biện pháp chặn tích cực hơn, bao gồm tường lửa và thậm chí là zip bomb - các file nén mở rộng đến kích thước khổng lồ khi được tải xuống bởi các crawler không mong muốn.
Các biện pháp bảo vệ dành cho quản trị viên website:
- Thiết lập Điều khoản Dịch vụ cấm rõ ràng việc AI thu thập dữ liệu
- Gửi yêu cầu xóa dữ liệu thông qua Trung tâm Quyền riêng tư của Meta
- Sử dụng biểu mẫu GDPR (chỉ dành cho EU) cho các yêu cầu tuân thủ
- Triển khai robots.txt và tiêu đề X-Robots-Tag
- Triển khai các giải pháp tường lửa như phần mềm Anubis
- Cấu hình zip bomb để làm chậm các crawler không mong muốn
Yếu tố liên bang
Fediverse đưa ra những thách thức độc đáo cho việc bảo vệ dữ liệu. Do cách thức hoạt động của federation, các bài đăng từ một instance có thể xuất hiện trên nhiều instance khác trên toàn mạng. Điều này có nghĩa là ngay cả khi instance của bạn không bị thu thập dữ liệu trực tiếp, nội dung của bạn vẫn có thể kết thúc trong các bộ dữ liệu huấn luyện AI thông qua các bản sao được lưu trữ trên các máy chủ liên bang khác.
Tài liệu bị rò rỉ được báo cáo chứa 1.659 trang URL, với hàng chục instance Mastodon, Lemmy và PeerTube được xác định. Tuy nhiên, phạm vi thực tế có thể lớn hơn nhiều, vì phân tích chỉ đếm các trang web có tên nền tảng trong địa chỉ domain của họ.
Các Instance Fediverse Bị Ảnh Hưởng Trong Tài Liệu Rò Rỉ:
- Mastodon : 46 trường hợp trùng khớp
- Lemmy : 6 trường hợp trùng khớp
- PeerTube : 46 trường hợp trùng khớp
- Tổng kích thước tài liệu: 1,659 trang URL
Nhìn về phía trước
Khi các công ty AI tiếp tục mở rộng nỗ lực thu thập dữ liệu của họ, căng thẳng giữa việc chia sẻ thông tin mở và bảo vệ nhà sáng tạo có khả năng sẽ tăng cường. Các chủ sở hữu website đang khám phá các biện pháp phòng thủ khác nhau, từ điều khoản dịch vụ cập nhật đến các giải pháp chặn kỹ thuật, mặc dù không có giải pháp nào cung cấp sự bảo vệ hoàn toàn.
Cuộc tranh luận cuối cùng phản ánh những câu hỏi rộng lớn hơn về việc phát triển AI nên cân bằng đổi mới với sự tôn trọng đối với các cộng đồng và nhà sáng tạo mà công việc của họ làm cho sự đổi mới đó trở nên khả thi như thế nào. Như một thành viên cộng đồng đã lưu ý, cách tiếp cận hiện tại có nguy cơ ăn hạt giống - tiêu thụ chính những nguồn thông tin mà các hệ thống AI phụ thuộc vào để duy trì tính hữu ích và cập nhật.
Tham khảo: Is Meta Scraping the Fediverse for AI?