Các tổ chức văn hóa trên toàn thế giới đang đối mặt với một cuộc khủng hoảng kỹ thuật số chưa từng có. Các bảo tàng, thư viện và kho lưu trữ báo cáo rằng website của họ đang bị quá tải bởi các bot huấn luyện AI tích cực thu thập nội dung một cách quá mức, gây ra tình trạng ngừng hoạt động dịch vụ và chi phí máy chủ không bền vững.
Làn sóng gia tăng này bắt đầu một cách âm thầm nhưng đã đạt đến mức báo động. Hơn 90% các tổ chức được khảo sát hiện gặp phải những bot tích cực này nhiều lần trong tuần, với nhiều tổ chức trải qua tình trạng website bị ngừng hoạt động hoàn toàn.
Tác động của Kho lưu trữ Mở:
- 66 kho lưu trữ được khảo sát bởi COAR
- Hơn 90% gặp phải các bot tấn công
- Các cuộc tấn công xảy ra nhiều hơn một lần mỗi tuần
- Thường xuyên gây ra tình trạng chậm trễ và ngừng hoạt động dịch vụ
Các Biện Pháp Phòng Thủ Web Truyền Thống Đang Thất Bại
Tệp robots.txt tiêu chuẩn - một tài liệu văn bản đơn giản yêu cầu các web crawler một cách lịch sự tôn trọng những ranh giới nhất định - đã trở nên về cơ bản vô dụng trước việc thu hoạch dữ liệu AI hiện đại. Những bot này hoặc là hoàn toàn bỏ qua các hướng dẫn hoặc hoạt động quá tích cực đến mức việc tuân thủ tự nguyện không có ý nghĩa gì.
Một số tổ chức đã chuyển sang sử dụng các dịch vụ bảo vệ bot thương mại từ các công ty như AWS và Cloudflare , nhưng những giải pháp này tạo ra các vấn đề mới. Việc thêm yêu cầu đăng nhập sẽ đi ngược lại mục đích cung cấp quyền truy cập công cộng miễn phí vào các bộ sưu tập văn hóa, trong khi các tường lửa phức tạp đòi hỏi chuyên môn kỹ thuật và chi phí liên tục mà nhiều tổ chức đơn giản không thể chi trả.
Robots.txt: Một tệp văn bản tiêu chuẩn mà các website sử dụng để giao tiếp với web crawler về những phần nào của trang web nên hoặc không nên được truy cập
Chi Phí Ẩn Của Tiến Bộ AI
Điều khiến tình huống này đặc biệt thách thức là bản chất âm thầm của vấn đề. Nhiều tổ chức không nhận ra họ đang bị tấn công cho đến khi website của họ bắt đầu sập. Các bot tiêu thụ lượng băng thông và tài nguyên máy chủ khổng lồ, tạo ra chi phí mà các tổ chức văn hóa - thường hoạt động với ngân sách eo hẹp - không thể duy trì.
Cộng đồng đang khám phá các giải pháp kỹ thuật sáng tạo, bao gồm hệ thống proof-of-work yêu cầu nỗ lực tính toán trước khi truy cập nội dung, và giới hạn tốc độ dựa trên cookie để theo dõi và điều tiết khách truy cập lặp lại. Tuy nhiên, những cách tiếp cận này có thể chỉ mang lại sự giải tỏa tạm thời khi các nhà vận hành bot điều chỉnh kỹ thuật của họ.
Kết quả khảo sát từ các tổ chức văn hóa:
- 43 tổ chức được khảo sát bởi GLAM-E Lab
- 39 trong số 43 tổ chức trải qua tình trạng tăng lưu lượng truy cập gần đây
- 27 tổ chức cho rằng sự gia tăng này đặc biệt do các bot huấn luyện AI gây ra
- Thêm 7 tổ chức khác nghi ngờ có sự tham gia của bot
Sự Thay Đổi Cơ Bản Trong Lưu Lượng Truy Cập Web
Tình huống này đại diện cho một thay đổi đáng kể trong cách internet hoạt động. Các mô hình lưu lượng truy cập web truyền thống giả định rằng hầu hết khách truy cập là con người duyệt nội dung thỉnh thoảng. Giờ đây, các hệ thống tự động đang có hệ thống tải xuống toàn bộ bộ sưu tập, phá vỡ cơ bản mô hình kinh tế đã làm cho việc truy cập trực tuyến miễn phí trở nên khả thi.
Các tổ chức văn hóa lưu trữ các bộ sưu tập trực tuyến không có đủ nguồn lực để tiếp tục bổ sung thêm máy chủ, triển khai tường lửa phức tạp hơn và thuê thêm kỹ sư vận hành vô thời hạn.
Vấn đề không chỉ giới hạn ở các công ty AI doanh nghiệp. Khi phần cứng AI trở nên giá cả phải chăng hơn, các nhà phát triển cá nhân và các dự án nhỏ ngày càng xây dựng các mô hình riêng của họ, dẫn đến sự gia tăng các hoạt động scraping trên web.
Dòng thời gian hoạt động của Bot:
- Một số tổ chức đã nhận thấy sự gia tăng từ đầu năm 2021
- Những tổ chức khác chỉ bắt đầu gặp phải vấn đề vào năm 2024
- Việc leo thang vấn đề thường không được chú ý cho đến khi các trang web bị sập
- Sự gia tăng lưu lượng truy cập được cho là do sự bùng nổ AI sau ChatGPT
Nhìn Về Tương Lai
Cuộc khủng hoảng này làm nổi bật một câu hỏi rộng lớn hơn về tương lai của nội dung trực tuyến miễn phí. Nếu các website không thể chi trả để phục vụ cả khách truy cập con người và bot huấn luyện AI , nhiều trang có thể buộc phải đặt sau paywall hoặc đóng cửa hoàn toàn, có khả năng hạn chế quyền truy cập công cộng vào di sản văn hóa và tài nguyên giáo dục.
Giải pháp có thể đòi hỏi các công ty AI phát triển các thực hành thu thập dữ liệu bền vững hơn không gây gánh nặng cho các website mà họ phụ thuộc vào. Không có sự hợp tác như vậy, mô hình hiện tại về quyền truy cập miễn phí, mở vào các bộ sưu tập văn hóa có thể trở nên không thể duy trì về mặt kinh tế.
Tham khảo: Bots are overwhelming websites with their hunger for AI data