Chủ sở hữu website phản công lại các AI crawler bằng hệ thống yêu cầu thanh toán mới

Nhóm Cộng đồng BigGo

Chủ sở hữu website phản công lại các AI crawler bằng hệ thống yêu cầu thanh toán mới

Các chủ sở hữu website ngày càng bức xúc với những công ty AI thu thập nội dung của họ mà không có bồi thường trong khi lại mang lại rất ít lưu lượng truy cập. Căng thẳng ngày càng gia tăng này đã châm ngòi cho một làn sóng các biện pháp phòng thủ và mô hình kinh doanh mới nhằm bảo vệ các nhà sáng tạo nội dung khỏi cái mà nhiều người coi là khai thác cạn kiệt kỹ thuật số.

Vấn đề bắt nguồn từ sự thay đổi cơ bản trong cách mọi người tiêu thụ thông tin trực tuyến. Các công cụ tìm kiếm truyền thống như Google xây dựng thành công của họ dựa trên một thỏa thuận đơn giản: họ sẽ lập chỉ mục nội dung website và gửi lưu lượng truy cập trở lại cho các nhà sáng tạo, những người sau đó có thể kiếm tiền từ lưu lượng đó thông qua quảng cáo hoặc đăng ký. Tuy nhiên, các hệ thống AI đang phá vỡ mô hình này bằng cách cung cấp câu trả lời trực tiếp cho người dùng mà không gửi họ đến các nguồn gốc.

Tác động giảm lưu lượng truy cập:

Tìm kiếm truyền thống của Google: Mức tạo lưu lượng truy cập cơ bản
Google hiện đại với AI Overviews: Khó tạo ra cùng lượng lưu lượng truy cập hơn 10 lần
Hệ thống OpenAI: Khó hơn 750 lần so với Google ban đầu
Hệ thống Anthropic: Khó hơn 30,000 lần so với Google ban đầu


Lời kêu gọi bảo vệ nội dung sáng tạo: cây bút lông tượng trưng cho quyền của các nhà văn và người tạo nội dung trong bối cảnh số hóa

Các chiến lược phòng thủ kỹ thuật xuất hiện

Các quản trị viên website đang triển khai các biện pháp đối phó ngày càng tinh vi chống lại các AI crawler hung hăng. Nhiều người đang triển khai hệ thống giới hạn tốc độ để hạn chế các yêu cầu ở mức hợp lý, thường là khoảng 10 truy vấn mỗi giây cho người dùng ẩn danh. Những người khác sử dụng chặn dải IP để ngăn chặn toàn bộ các mạng tạo ra lưu lượng truy cập quá mức.

Một số người bảo vệ sáng tạo đang chuyển sang các chiến lược tarpit, cố tình phục vụ dữ liệu với tốc độ cực kỳ chậm để lãng phí tài nguyên crawler trong khi giảm thiểu chi phí máy chủ của riêng họ. Những honeypot này có thể bẫy các bot hoạt động sai cách trong các hoạt động tốn thời gian làm cạn kiệt tài nguyên tính toán mà không cung cấp dữ liệu hữu ích.

Rate limiting đề cập đến việc kiểm soát số lượng yêu cầu mà một máy chủ chấp nhận từ một nguồn duy nhất trong một khoảng thời gian cụ thể.

Các Chiến Lược Phòng Thủ Phổ Biến:

Giới Hạn Tốc Độ: Hạn chế khoảng 10 truy vấn mỗi giây đối với người dùng ẩn danh
Chặn Dải IP: Chặn toàn bộ các dải mạng có hành vi tấn công
Hệ Thống Tarpit: Phục vụ dữ liệu với tốc độ cực chậm để lãng phí tài nguyên của crawler
Cổng Thanh Toán: Phản hồi HTTP 402 yêu cầu thanh toán để AI crawler truy cập
Tích Hợp Fail2ban: Tự động chặn IP sau các mẫu hoạt động đáng nghi

Hệ thống kiểm soát truy cập dựa trên thanh toán

Cloudflare đã giới thiệu một cách tiếp cận mới yêu cầu các AI crawler phải trả tiền để truy cập nội dung hoặc nhận phản hồi 402 Payment Required. Hệ thống này dựa vào việc các crawler tự xác định thông qua các header yêu cầu đặc biệt và đăng ký với nhà cung cấp dịch vụ.

Tuy nhiên, hiệu quả của các hệ thống như vậy phụ thuộc rất nhiều vào sự hợp tác của crawler. Các công ty AI có đạo đức có thể tuân thủ các yêu cầu thanh toán, nhưng có sự hoài nghi về việc liệu các scraper hung hăng có tôn trọng các giao thức mới này hay không. Thách thức nằm ở việc phân biệt giữa người dùng thực sự hợp pháp và các crawler tự động mà không tạo ra ma sát cho khách truy cập website thường xuyên.

Hệ thống Trả phí theo Lượt Crawl của Cloudflare:

Phản hồi mặc định: HTTP 402 Payment Required
Yêu cầu crawler đăng ký với Cloudflare
Sử dụng request headers để xác định các crawler đã trả phí
Dựa vào hệ thống tự giác với mối đe dọa bị chặn khỏi tất cả nội dung được lưu trữ trên Cloudflare
Thành công phụ thuộc vào các thuật toán phát hiện bot để phân biệt crawler với con người

Mối quan ngại của cộng đồng về việc triển khai

Cộng đồng kỹ thuật đã nêu ra một số mối quan ngại về những giải pháp mới nổi này. Các thuật toán phát hiện bot không hoàn hảo và có thể gắn cờ sai người dùng hợp pháp là crawler, có khả năng làm cho việc duyệt web trở nên khó khăn hơn cho mọi người. Cũng có lo ngại rằng những hệ thống này có thể hợp nhất nhiều hơn của web dưới các nhà cung cấp hosting lớn như Cloudflare .

Điều này sẽ diễn ra chính xác như header 'do not track'; các tác nhân xấu sẽ tạo ra một cuộc chạy đua vũ trang khiến bất kỳ ai tôn trọng nó trở thành kẻ ngốc.

Nhiều nhà quan sát lưu ý rằng các công ty có đủ tài nguyên vẫn có thể vượt qua các hạn chế thông qua các dịch vụ proxy, trong khi các tổ chức nhỏ hơn và các nhà nghiên cứu cá nhân có thể bị chặn một cách không công bằng. Điều này có thể tạo ra một internet hai tầng nơi chỉ các thực thể được tài trợ tốt mới có thể truy cập dữ liệu web toàn diện.

Tác động kinh tế đến các nhà sáng tạo nội dung

Sự chuyển dịch hướng tới tiêu thụ thông tin được điều khiển bởi AI đã giảm đáng kể lưu lượng truy cập đến các nguồn nội dung gốc. Một số ước tính cho thấy rằng việc có được lưu lượng truy cập thông qua các hệ thống AI hiện đại khó hơn hàng trăm hoặc thậm chí hàng nghìn lần so với thông qua các công cụ tìm kiếm truyền thống. Điều này khiến cho việc các nhà sáng tạo nội dung duy trì hoạt động của họ thông qua các mô hình quảng cáo hoặc đăng ký thông thường trở nên gần như không thể.

Các chủ sở hữu website đang thích ứng bằng cách tập trung nhiều hơn vào xây dựng cộng đồng và nội dung tương tác khó hơn cho các hệ thống AI sao chép. Thay vì nhắm mục tiêu các truy vấn thông tin rộng, nhiều người đang chuyển hướng sang đối tượng thích hợp và nội dung chuyên môn cung cấp giá trị độc đáo vượt ra ngoài những gì AI có thể tổng hợp.

Cuộc chiến đang diễn ra giữa các nhà sáng tạo nội dung và AI crawler đại diện cho một sự thay đổi cơ bản trong cách nền kinh tế internet hoạt động, với cả hai bên phát triển các công cụ ngày càng tinh vi để bảo vệ lợi ích của họ.

Tham khảo: Content Independence Day: no AI crawl without compensation!

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌