Chủ sở hữu website phản công lại các AI crawler hung hăng bằng công cụ chặn và giới hạn tốc độ

Nhóm Cộng đồng BigGo
Chủ sở hữu website phản công lại các AI crawler hung hăng bằng công cụ chặn và giới hạn tốc độ

Các quản trị viên website trên khắp internet đang ngày càng chuyển sang các biện pháp phòng thủ khi các AI crawler từ các công ty công nghệ lớn làm quá tải máy chủ của họ với lưu lượng truy cập quá mức. Một báo cáo gần đây của Fastly tiết lộ rằng các AI bot hiện chiếm một phần đáng kể lưu lượng web, nhưng chính những trải nghiệm thực tế được chia sẻ bởi các nhà điều hành trang web mới vẽ nên bức tranh rõ ràng nhất về vấn đề ngày càng gia tăng này.

Phân bố lưu lượng truy cập của AI Crawler ( Báo cáo Fastly )

  • Meta : 52% tổng lưu lượng truy cập của AI crawler
  • Google : 23% lưu lượng truy cập AI crawler
  • OpenAI : 20% lưu lượng truy cập AI crawler
  • Anthropic : 3.76% lưu lượng truy cập crawler
  • Common Crawl Project : 0.21% lưu lượng truy cập crawler

Các trang web nhỏ gánh chịu gánh nặng lớn nhất

Các chủ sở hữu website độc lập đang thấy mình bị cuốn vào một cuộc chiến bất ngờ. Một nhà điều hành trang web khám phá sách báo cáo về việc crash hàng ngày do lưu lượng AI crawler, trong khi một người khác quản lý website ngành làm sạch đường ống đã trải qua 15.000 yêu cầu mỗi phút từ hệ thống của OpenAI. Đây không phải là những trang thương mại có lưu lượng cao - chúng là các nền tảng chuyên biệt phục vụ các cộng đồng chuyên môn mà đột nhiên thấy mình bị bao vây.

Tác động vượt xa sự bất tiện đơn thuần. Các chủ sở hữu trang web mô tả về cơ sở dữ liệu bị crash, phân tích bị sai lệch, và chi phí tăng cao từ các dịch vụ như Google Maps mà tính phí theo mỗi lần gọi API. Đối với các nhà điều hành nhỏ hoạt động với ngân sách eo hẹp, những chi phí bất ngờ này có thể rất tàn phá.

Phân bố lưu lượng AI Fetcher

  • OpenAI : chiếm ~98% tổng số yêu cầu từ AI fetcher
  • Perplexity AI : chiếm 1.53% lưu lượng fetcher
  • Các công ty khác: <1% tổng cộng

Cloudflare nổi lên như giải pháp phòng thủ hàng đầu

Cộng đồng đã phần lớn tập hợp xung quanh Cloudflare như cơ chế phòng thủ chính của họ. Nhiều nhà điều hành trang web báo cáo thành công với Super Bot Fight Mode của nền tảng, có thể loại bỏ hiệu quả các đợt tăng đột biến bot. Tuy nhiên, giải pháp này đi kèm với những đánh đổi - người dùng hợp pháp với trình chặn quảng cáo hoặc cài đặt riêng tư thường phải đối mặt với các thử thách xác minh bổ sung.

Đối với những người tìm kiếm các lựa chọn thay thế, các công cụ như Anubis cung cấp các thử thách proof-of-work khiến việc scraping trở nên tốn kém về mặt tính toán. Một số quản trị viên thậm chí đã triển khai tar pit - các hệ thống được thiết kế để lãng phí tài nguyên crawler bằng cách phục vụ các luồng nội dung được tạo ra vô tận.

Các Công Cụ Phòng Thủ Phổ Biến Được Đề Cập

  • Cloudflare: Chế độ Super Bot Fight Mode, các quy tắc chặn địa lý tùy chỉnh
  • Anubis: Các thử thách proof-of-work cho các trang web nhỏ
  • Giới hạn tốc độ: Các hạn chế cơ bản về số yêu cầu mỗi giờ
  • Tar pits: Các hệ thống phục vụ nội dung được tạo ra vô tận để lãng phí tài nguyên của crawler

Cuộc chạy đua vũ trang kỹ thuật ngày càng gay gắt

Điều đặc biệt đáng quan ngại là cách một số công ty AI dường như bỏ qua các quy ước web đã được thiết lập. Một số nhà điều hành trang web lưu ý về các crawler bỏ qua các tệp robots.txt, giả mạo chuỗi user agent, và luân phiên qua các mạng proxy dân cư để tránh phát hiện. Điều này đã buộc các chủ sở hữu website vào một cuộc chạy đua vũ trang kỹ thuật leo thang.

Đây là một vấn đề quy định. Điều cần phải xảy ra là các chính phủ cần phải can thiệp và đưa ra những khoản phạt đe dọa sự tồn tại cho các công ty AI đang phá hủy lợi ích chung kỹ thuật số và buộc họ phải trả bồi thường cho các cộng đồng mà họ đang gây hại.

Tình hình đã trở nên nghiêm trọng đến mức một số quản trị viên web lâu năm đang thực hiện lệnh cấm crawler toàn diện lần đầu tiên trong nhiều thập kỷ hoạt động. Những người khác đã chuyển nội dung ra sau tường đăng nhập hoặc hạn chế truy cập theo khu vực địa lý.

Một giải pháp bền vững vẫn còn khó nắm bắt

Trong khi các công cụ chặn cung cấp sự giải tỏa tức thì, chúng không giải quyết vấn đề cơ bản về tiêu thụ tài nguyên và việc chuyển giao chi phí ra bên ngoài. Một số đề xuất rằng các công ty AI có thể cung cấp tải xuống dữ liệu hàng loạt thay vì crawling liên tục, nhưng sự phối hợp về các sáng kiến như vậy vẫn còn hạn chế.

Quỹ đạo hiện tại cho thấy vấn đề này sẽ chỉ gia tăng khi các công cụ AI trở nên phổ biến và tinh vi hơn. Cho đến khi các tiêu chuẩn ngành xuất hiện hoặc can thiệp quy định xảy ra, các nhà điều hành website có thể sẽ tiếp tục củng cố các tài sản kỹ thuật số của họ chống lại làn sóng lưu lượng tự động ngày càng gia tăng.

Tham khảo: AI crawlers and fetchers are blowing up websites, with Meta and OpenAI the worst offenders