Một quản trị viên website đã triển khai các biện pháp chống bot thu thập dữ liệu một cách quyết liệt, hiện đang chặn cả người dùng hợp pháp và các dịch vụ lưu trữ phổ biến. Động thái này làm nổi bật căng thẳng ngày càng gia tăng giữa những người tạo nội dung và các công ty AI đang tìm kiếm dữ liệu huấn luyện.
Chủ sở hữu của blog Wandering Thoughts và wiki CSpace đã bắt đầu chặn các trình duyệt có chuỗi user agent cũ, với lý do có một đại dịch các bot thu thập dữ liệu khối lượng lớn để huấn luyện mô hình ngôn ngữ lớn (LLM). Biện pháp phòng thủ này đã tạo ra những nạn nhân không mong muốn, ảnh hưởng đến cả người dùng thông thường sử dụng trình duyệt lỗi thời và các dịch vụ lưu trữ lớn.
Các dịch vụ lưu trữ bị vạ lây
Các nền tảng lưu trữ phổ biến như archive.today , archive.ph và archive.is hiện không thể thu thập dữ liệu từ trang web này một cách bình thường. Chủ sở hữu website đã chỉ trích cụ thể các dịch vụ này vì sử dụng chuỗi user agent Chrome cũ và hoạt động từ các khối địa chỉ IP phân tán rộng rãi khiến chúng không thể phân biệt được với các tác nhân độc hại. Một số địa chỉ IP của dịch vụ lưu trữ thậm chí còn sử dụng các mục DNS ngược giả mạo, tuyên bố là bot thu thập dữ liệu của Google , một thực hành thường được liên kết với các tác nhân xấu.
Tình huống này đã buộc người dùng tìm kiếm nội dung được lưu trữ phải dựa vào các dịch vụ thay thế như archive.org , mà chủ sở hữu trang web cho rằng có hành vi tốt hơn.
Các Dịch vụ Lưu trữ Bị Ảnh hưởng:
- archive.today
- archive.ph
- archive.is
- Các tên miền archive.* khác
Giải pháp Thay thế Được Khuyến nghị:
- archive.org (được chủ sở hữu trang web đánh giá là có hành vi tốt hơn)
Cộng đồng thảo luận về cơ sở hạ tầng IT truyền thống
Trong khi bài viết chính tập trung vào việc chặn bot thu thập dữ liệu, các cuộc thảo luận trong cộng đồng đã chuyển hướng về giá trị của các tài nguyên máy tính chia sẻ truyền thống trong môi trường học thuật và doanh nghiệp. Người dùng đã chia sẻ kinh nghiệm về các máy chủ đăng nhập - những máy Unix chia sẻ cung cấp tài nguyên máy tính trung tâm cho các tổ chức.
Những hệ thống này phục vụ nhiều mục đích ngoài việc truy cập từ xa đơn giản. Chúng hoạt động như các trung tâm truyền tải file tiện lợi, vị trí lưu trữ sao lưu và nền tảng để chạy các tác vụ được lên lịch. Một số tổ chức đã sử dụng chúng làm điểm cuối cố định cho các dịch vụ truyền thông như IRC , mặc dù nhiều tổ chức đã chuyển sang các giải pháp thay thế hiện đại như Slack .
Lưu ý rằng một VM đám mây hoặc container có lẽ không hoạt động ở đây. Bạn cần thứ gì đó có sự hiện diện cố định và được chia sẻ giữa các người dùng.
Cuộc thảo luận tiết lộ cách những mô hình máy tính truyền thống này vẫn còn phù hợp, đặc biệt trong môi trường nghiên cứu nơi người dùng cần truy cập nhất quán vào các hệ thống file chia sẻ và phần mềm chuyên dụng. Các cụm máy tính hiệu năng cao tại các trường đại học và viện nghiên cứu tiếp tục dựa vào kiến trúc nút đăng nhập, cho thấy những cách tiếp cận này vẫn mang lại lợi thế thực tế so với các giải pháp thay thế dựa trên đám mây.
Các trường hợp sử dụng Login Server trong tổ chức:
- Sao lưu Git và file
- Trung tâm truyền file (các thao tác scp)
- Chia sẻ file tải lên cho đồng nghiệp
- Điểm cuối IRC vĩnh viễn (sử dụng screen/tmux)
- Chạy các tác vụ cron được lên lịch
- Môi trường phát triển từ xa (backend VSCode)
Tác động rộng hơn đến khả năng tiếp cận web
Các biện pháp chống bot thu thập dữ liệu đại diện cho xu hướng ngày càng tăng của những người tạo nội dung thực hiện hành động phòng thủ chống lại việc thu thập dữ liệu huấn luyện AI. Tuy nhiên, những biện pháp này tạo ra sự cân bằng khó khăn giữa việc bảo vệ nội dung và duy trì khả năng tiếp cận cho người dùng hợp pháp và các dịch vụ.
Tình huống này cho thấy làn sóng phát triển AI hiện tại đang buộc các nhà điều hành website phải đưa ra những lựa chọn khó khăn về kiểm soát truy cập, có khả năng phân mảnh bản chất mở của nội dung web vốn đã hỗ trợ cả người dùng con người và các dịch vụ tự động có lợi như lưu trữ.
Tham khảo: You're using a suspiciously old browser