Chủ Website Chặn Crawler Trình Duyệt Cũ Để Chống Lại Làn Sóng Khai Thác Dữ Liệu LLM

Nhóm Cộng đồng BigGo
Chủ Website Chặn Crawler Trình Duyệt Cũ Để Chống Lại Làn Sóng Khai Thác Dữ Liệu LLM

Một quản trị viên website đã triển khai các biện pháp chống crawler quyết liệt để chặn những người truy cập sử dụng phiên bản trình duyệt lỗi thời, với lý do là sự gia tăng của các crawler khối lượng lớn có vẻ đang thu thập dữ liệu để huấn luyện mô hình ngôn ngữ lớn ( LLM ). Hệ thống chặn chủ yếu nhắm vào các user agent Chrome cũ đã trở nên phổ biến trong các crawler tự động vào đầu năm 2025.

Các Dịch Vụ Lưu Trữ Bị Ảnh Hưởng:

  • archive.today
  • archive.ph
  • archive.is
  • Giải pháp thay thế được khuyến nghị: archive.org

Các Dịch Vụ Lưu Trữ Bị Ảnh Hưởng Ngoài Ý Muốn

Các biện pháp chặn đã vô tình ảnh hưởng đến các dịch vụ lưu trữ hợp pháp, đặc biệt là archive.today , archive.ph và archive.is . Các dịch vụ này sử dụng chuỗi user agent Chrome cũ và crawl từ các khối địa chỉ IP phân tán không được xác định rõ ràng là dịch vụ lưu trữ. Một số địa chỉ IP của họ thậm chí còn sử dụng các mục reverse DNS giả mạo tuyên bố là crawler của Google , một thực hành thường liên quan đến các tác nhân độc hại.

Chủ website khuyến nghị sử dụng archive.org thay thế, mô tả nó là một crawler lưu trữ có hành vi tốt hơn và có thể truy cập thành công vào nội dung bị chặn.

Cộng Đồng Hồi Tưởng Về Thời Đại X Terminal

Trong khi sự cố chặn đã gây ra cuộc thảo luận, các thành viên cộng đồng đã tận dụng cơ hội để hồi tưởng về thời hoàng kim của X terminal - các thiết bị phần cứng chuyên dụng đóng vai trò là thin client cho các workstation Unix trong những năm 1980 và 1990. Những terminal này cung cấp màn hình độ phân giải cao, thường là 1280x1024 hoặc thậm chí 1024x1024 pixel, kết nối với các máy chủ mạnh mẽ qua Ethernet .

Người dùng đã chia sẻ những kỷ niệm về việc các hệ thống này hoạt động tốt đến mức đáng ngạc nhiên mặc dù chia sẻ một kết nối Ethernet 10Mbps duy nhất giữa nhiều terminal. X Window System được tối ưu hóa cao cho các thao tác vẽ cục bộ, khiến ngay cả các trò chơi cũng chạy mượt mà qua mạng.

Tôi đã ngạc nhiên về việc một phòng đầy những terminal 1280x1024 hàng đầu có thể hoạt động tốt như thế nào trên một đường 10mbps chia sẻ với khả năng phát hiện va chạm khá tệ.

Thông số kỹ thuật lịch sử của X Terminal:

  • Độ phân giải màn hình: 1280x1024 hoặc 1024x1024 pixel
  • Mạng: Chia sẻ Ethernet 10Mbps
  • Hệ điều hành: Đa dạng (một số chạy các biến thể BSD không có MMU)
  • Phần mềm: Có thể chạy mwm, trình quản lý phiên Motif, dtterm, JVM và trình duyệt Mosaic

Sự Suy Tàn Của Thin Client Computing

Cuộc thảo luận cộng đồng đã tiết lộ cách sự trỗi dậy của các trình duyệt web, đặc biệt là NCSA Mosaic và sau đó là Netscape , đánh dấu sự khởi đầu của kết thúc cho X terminal . Những trình duyệt web đầu tiên này đẩy lượng lớn dữ liệu bitmap qua kết nối mạng, tạo ra các nút thắt khiến mô hình thin client trở nên kém thực tế hơn.

Sự chuyển dịch hướng tới nội dung đa phương tiện và các trang web nhiều hình ảnh đòi hỏi việc truyền liên tục dữ liệu hình ảnh đến các terminal, làm quá tải cơ sở hạ tầng mạng vốn hoạt động rất tốt cho các ứng dụng dựa trên văn bản và các thao tác vẽ X11 được tối ưu hóa.

Sự cố chặn crawler hiện tại phục vụ như một lời nhắc nhở về việc tài nguyên mạng vẫn còn quý giá, ngay cả hàng thập kỷ sau khi thời đại X terminal kết thúc. Các chủ website tiếp tục cân bằng giữa khả năng truy cập và bảo vệ tài nguyên, mặc dù các mối đe dọa đã phát triển từ những hạn chế băng thông sang các mối quan ngại về thu hoạch dữ liệu.

Tham khảo: You're using a suspiciously old browser