Chủ sở hữu website áp dụng các biện pháp chống bot cực đoan khi lưu lượng AI crawler tăng vọt 10 lần

Nhóm Cộng đồng BigGo
Chủ sở hữu website áp dụng các biện pháp chống bot cực đoan khi lưu lượng AI crawler tăng vọt 10 lần

Internet đang phải đối mặt với một làn sóng lưu lượng tự động chưa từng có khi các công ty AI đua nhau thu thập dữ liệu huấn luyện cho các mô hình ngôn ngữ của họ. Các chủ sở hữu website trên khắp internet đang báo cáo về sự tăng vọt đáng kể trong lưu lượng bot, với một số trường hợp tăng lên tới 10 lần so với lượng khách truy cập bình thường. Sự gia tăng này đã buộc nhiều người phải triển khai các biện pháp chặn tích cực mà vô tình ảnh hưởng đến người dùng hợp pháp.

Quy mô của vấn đề

Các con số cho thấy bức tranh rõ nét về mức độ nghiêm trọng của vấn đề này. Các website nhỏ có 300-3,000 lượt xem hàng ngày đang báo cáo rằng ít nhất 70% lưu lượng truy cập của họ hiện tại không phải là con người. Các quản trị viên diễn đàn mô tả sự gia tăng đột ngột 10 lần trong lưu lượng bot không giống bất cứ điều gì họ từng thấy trước đây. Các máy chủ cá nhân chạy các công cụ phát triển như Jenkins và Gerrit đang bị quá tải bởi các crawler bỏ qua các tệp robots.txt và tấn công các ứng dụng tiêu tốn tài nguyên cho đến khi chúng sập.

Các crawler đang trở nên ngày càng tinh vi trong nỗ lực xuất hiện như hợp pháp. Chúng sử dụng các dịch vụ proxy dân cư để che giấu nguồn gốc thương mại, luân phiên qua hàng triệu địa chỉ IP, và sử dụng các user agent trình duyệt cũ để hòa nhập với lưu lượng truy cập thông thường. Một số thậm chí sử dụng các mục DNS giả mạo tuyên bố là bot công cụ tìm kiếm hợp pháp.

Thống kê Tác động Lưu lượng Truy cập:

  • Các trang web nhỏ (300-3.000 lượt xem hàng ngày): ~70% lưu lượng truy cập phi con người
  • Lưu lượng truy cập diễn đàn tăng: Lên đến 10 lần mức bình thường
  • Tác động tài nguyên máy chủ: Mức sử dụng CPU đạt 500% trên các hệ thống bị ảnh hưởng

Phá vỡ hợp đồng xã hội

Điều khiến tình huống này đặc biệt đáng lo ngại là cách nó vi phạm các quy tắc không thành văn đã giữ cho web hoạt động trong nhiều thập kỷ. Internet được xây dựng dựa trên sự hợp tác và các thỏa thuận ngầm giữa các bên khác nhau. Chủ sở hữu website cung cấp nội dung miễn phí, các công cụ tìm kiếm crawl một cách tôn trọng, và người dùng tương tác chân thành với tài liệu.

Một điều tôi cảm thấy từ tất cả điều này là web hiện tại đáng ngạc nhiên là mong manh. Một phần đáng kể của web dường như được duy trì bởi những hiểu biết và thỏa thuận ngầm, không phải bằng công nghệ.

Sự sụp đổ này mở rộng ra ngoài việc crawl web. Cùng một mô hình bỏ qua các hợp đồng xã hội xuất hiện trong nhiều khía cạnh khác nhau của xã hội hiện đại, từ các thủ đoạn chính trị đến thực tiễn kinh doanh, khiến cuộc sống trở nên khó khăn hơn cho tất cả mọi người liên quan.

Thiệt hại phụ cho người dùng thực

Các biện pháp phòng thủ mà các website đang triển khai để bảo vệ bản thân đang tạo ra những vấn đề mới cho khách truy cập hợp pháp. Các hệ thống chống bot hiện tại chặn người dùng với trình duyệt cũ, các dịch vụ lưu trữ gặp khó khăn trong việc bảo tồn nội dung, và thậm chí các phiên bản trình duyệt hiện tại đôi khi kích hoạt cảnh báo sai. CAPTCHA, giới hạn tốc độ, và các biện pháp bảo mật khác khiến việc duyệt web trở nên cồng kềnh hơn cho mọi người.

Điều này tạo ra một vòng luẩn quẩn nơi trải nghiệm người dùng kém đẩy mọi người hướng tới các chatbot AI để tìm thông tin, điều này lần lượt tăng nhu cầu cho chính việc crawling đang gây ra vấn đề. Tình huống này phản ánh những ngày đầu của việc vi phạm bản quyền phương tiện truyền thông, nơi các lựa chọn hợp pháp bất tiện đã đẩy người dùng hướng tới các lựa chọn thay thế bất hợp pháp.

Thách thức kỹ thuật và giải pháp

Việc xác định và chặn các crawler độc hại đã trở nên ngày càng khó khăn. Các phương pháp truyền thống như chặn các dải IP của nhà cung cấp cloud hoạt động cho các trường hợp rõ ràng, nhưng các mạng proxy dân cư khiến việc phát hiện khó khăn hơn nhiều. Một số website đang thử nghiệm với các hệ thống proof-of-work yêu cầu trình duyệt thực hiện các tác vụ tính toán trước khi truy cập nội dung.

Các giải pháp hiệu quả nhất hiện tại bao gồm các dịch vụ như Cloudflare, có thể phân tích các mẫu lưu lượng truy cập theo thời gian thực và chặn toàn bộ mạng lưới IP độc hại. Tuy nhiên, các giải pháp này thường đi kèm với chi phí mà các nhà điều hành website nhỏ hơn gặp khó khăn để chi trả.

Các Hành Vi Phổ Biến Của Crawler:

  • Sử dụng user agent Chrome cũ để có vẻ hợp pháp
  • Luân phiên qua hàng triệu địa chỉ IP dân cư
  • Hoàn toàn bỏ qua các tệp robots.txt
  • Nhắm mục tiêu vào các trang tốn nhiều tài nguyên như kết quả tìm kiếm và sự kiện lịch
  • Bắt nguồn từ các khối IP phân tán để tránh bị phát hiện

Nhìn về tương lai

Tình huống hiện tại làm nổi bật những câu hỏi cơ bản về tương lai của web. Với các mô hình quảng cáo truyền thống đang chịu áp lực và chi phí crawling tăng vọt ngoài tầm kiểm soát, nhiều người dự đoán rằng các mô hình micropayment hoặc đăng ký có thể trở nên cần thiết để truy cập nội dung chất lượng trực tuyến.

Thách thức nằm ở việc tạo ra các hệ thống có thể phân biệt giữa nghiên cứu hợp pháp, nỗ lực lưu trữ, và thu thập dữ liệu thương mại trong khi duy trì bản chất mở đã làm cho web trở nên có giá trị ngay từ đầu. Nếu không có các khung pháp lý và kỹ thuật mới, các hợp đồng xã hội ngầm đã xây dựng internet có thể cần được thay thế bằng các thỏa thuận rõ ràng và có thể thực thi hơn.

Tham khảo: You're using a suspiciously old browser