Các Bot Thu Thập Dữ Liệu AI Làm Quá Tải Các Website Nhỏ với Lưu Lượng Truy Cập Tăng Vọt Lên Đến 20 Lần Mức Bình Thường

Nhóm Cộng đồng BigGo

Các Bot Thu Thập Dữ Liệu AI Làm Quá Tải Các Website Nhỏ với Lưu Lượng Truy Cập Tăng Vọt Lên Đến 20 Lần Mức Bình Thường

Sự phát triển của trí tuệ nhân tạo đã mang đến một gánh nặng bất ngờ cho các chủ sở hữu website trên toàn thế giới. Các bot thu thập dữ liệu web AI hiện đang tấn công các website với khối lượng truy cập chưa từng có, gây ra các vấn đề về hiệu suất và buộc nhiều người vận hành trang web phải triển khai các biện pháp phòng thủ tốn kém hoặc từ bỏ hoàn toàn sự hiện diện trực tuyến của họ.

Bùng Nổ Lưu Lượng Truy Cập Đe Dọa Tính Ổn Định Của Website

Theo dữ liệu từ Cloudflare , các bot AI hiện chiếm 30% lưu lượng web toàn cầu, với 80% hoạt động của bot AI đến từ các crawler thu thập dữ liệu. Không giống như các crawler của công cụ tìm kiếm truyền thống tuân theo các nguyên tắc lịch sự, những crawler AI mới này hung hăng hơn nhiều. Chúng có thể tạo ra các đợt tăng vọt lưu lượng truy cập lên đến 10 đến 20 lần mức bình thường trong vòng vài phút, làm quá tải hoàn toàn tài nguyên máy chủ.

Tác động ảnh hưởng nặng nề nhất đến các website nhỏ sử dụng dịch vụ hosting chia sẻ. Ngay cả những trang web không bị nhắm mục tiêu trực tiếp cũng có thể gặp khó khăn khi các trang web khác trên cùng máy chủ bị tấn công bởi các crawler. Một quản trị viên hệ thống quản lý cơ sở hạ tầng hosting boutique đã mô tả tình hình này gần giống như việc một trang web bị Slashdotted mỗi ngày.

Ghi chú: Slashdotted đề cập đến khi một website bị quá tải bởi lưu lượng truy cập đột ngột từ việc được giới thiệu trên một trang tin tức công nghệ phổ biến.

Thống kê lưu lượng truy cập AI Bot:

30% lưu lượng web toàn cầu hiện tại đến từ các bot (dữ liệu Cloudflare)
80% lưu lượng AI bot bao gồm các bot thu thập dữ liệu (báo cáo Fastly)
Các đợt tăng đột biến lưu lượng có thể đạt 10-20 lần mức bình thường trong vòng vài phút
Meta chiếm 52% lưu lượng AI searchbot, Google 23%, OpenAI 20%

Áp Lực Tài Chính Buộc Phải Đưa Ra Những Lựa Chọn Khó Khăn

Tác động tài chính đang buộc các chủ sở hữu website phải đưa ra những quyết định khó khăn. Người tạo ra ProtonDB , một tài nguyên gaming Linux phổ biến, gần đây đã phải đối mặt với việc tăng hóa đơn hàng tháng bất ngờ 500 đô la Mỹ do lưu lượng truy cập của AI crawler tiêu thụ 30GB dữ liệu mỗi ngày. Điều này đã đẩy trang web vượt quá giới hạn gói hosting 1TB, đe dọa tính bền vững của dịch vụ miễn phí.

Nhiều người vận hành trang web đang bị đẩy về phía các giải pháp đắt đỏ hoặc những thay đổi lớn về nền tảng. Một số đang triển khai các bức tường đăng nhập, chuyển sang các nhà cung cấp hosting khác, hoặc thậm chí cân nhắc việc áp dụng paywall cho nội dung trước đây miễn phí.

Ví dụ về Tác động Tài chính:

ProtonDB : tăng 500 USD hàng tháng do lưu lượng truy cập 30GB mỗi ngày từ AI crawler
Netlify tính phí 50 USD cho mỗi 100GB vượt quá giới hạn 1TB
Các nhà cung cấp hosting nhỏ báo cáo mức tiêu thụ tài nguyên gấp 5000 lần so với khách truy cập thông thường
Một số trang web buộc phải nâng cấp từ shared hosting lên tài nguyên chuyên dụng

Các Biện Pháp Phòng Thủ Truyền Thống Tỏ Ra Không Hiệu Quả

Các phương pháp cũ để kiểm soát web crawler đang thất bại trước các bot AI. Nhiều AI crawler đơn giản là bỏ qua các tệp robots.txt, cách truyền thống mà các website giao tiếp về sở thích thu thập dữ liệu với các bot. Ngay cả các công nghệ chống bot tinh vi và hệ thống CAPTCHA cũng gặp khó khăn trước các crawler được hỗ trợ bởi AI có thể tự động giải quyết những thách thức này.

Bất kỳ web scraper nào đang scraping TUẦN TỰ ở tốc độ 1r/s thực sự là một scraper hoạt động tốt và không xâm phạm. Chỉ là WP nói chung ** về hiệu suất.

Các chủ sở hữu website đang chuyển sang các biện pháp chặn tích cực hơn, bao gồm lọc dựa trên IP và các dịch vụ chuyên biệt như Anubis AI crawler blocker. Tuy nhiên, điều này tạo ra một cuộc chạy đua vũ trang liên tục khi các crawler thích ứng bằng cách sử dụng các pool IP lớn hơn và các user agent giả mạo để xuất hiện như những khách truy cập thông thường.

Ghi chú: 1r/s có nghĩa là một yêu cầu mỗi giây, được coi là tốc độ thu thập dữ liệu hợp lý.

Các Biện Pháp và Công Cụ Phòng Thủ:

Phương pháp truyền thống: tệp robots.txt (thường bị các crawler AI bỏ qua)
Dịch vụ chặn: bảo vệ bot của Cloudflare , trình chặn crawler AI Anubis
Giải pháp kỹ thuật: lọc IP, chặn dựa trên ASN, quy tắc fail2ban
Hạn chế nội dung: tường đăng nhập, paywall, thử thách CAPTCHA
Hosting thay thế: Di chuyển sang các nền tảng có băng thông không giới hạn

Hệ Sinh Thái Web Rộng Lớn Hơn Đang Gặp Rủi Ro

Vấn đề crawler mở rộng ra ngoài các website riêng lẻ để đe dọa bản chất mở của chính internet. Không giống như các crawler của công cụ tìm kiếm truyền thống có thể đưa lưu lượng truy cập trở lại các website thông qua kết quả tìm kiếm, các AI crawler trích xuất nội dung mà không cung cấp bất kỳ lợi ích trả lại nào cho chủ sở hữu trang web. Điều này phá vỡ hệ sinh thái web truyền thống nơi các nhà tạo nội dung có thể kiếm tiền từ công việc của họ thông qua lưu lượng tìm kiếm và quảng cáo.

Khi các biện pháp phòng thủ trở nên phổ biến hơn, web đang ngày càng trở nên phân mảnh. Thông tin quan trọng đang được chuyển ra sau các bức tường đăng nhập hoặc bị loại bỏ hoàn toàn, có khả năng tạo ra một Internet bị Balkan hóa nơi việc truy cập kiến thức đòi hỏi thanh toán hoặc đăng ký ở mọi nơi.

Tình hình này làm nổi bật một sự thay đổi cơ bản trong cách web hoạt động, với các công ty AI trích xuất giá trị khổng lồ từ nội dung trong khi những người tạo ra ban đầu phải gánh chịu chi phí cơ sở hạ tầng và không nhận được bất kỳ khoản bồi thường nào để đổi lại.

Tham khảo: Al web crawlers are destroying websites in their never-ending hunger for any and all content

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌