Cloudflare đã ra mắt Chính sách Content Signals, một bổ sung mới cho các tệp robots.txt cho phép chủ sở hữu website chỉ định cách nội dung của họ có thể được sử dụng bởi các AI crawler và data scraper. Tuy nhiên, cộng đồng công nghệ đã nhanh chóng xác định một lỗ hổng đáng kể có thể khiến chính sách này phản tác dụng với mục tiêu ban đầu.
Chính sách này giới thiệu ba content signal - search, ai-input, và ai-train - mà các nhà vận hành website có thể sử dụng để thể hiện sở thích về cách nội dung của họ được truy cập và sử dụng. Mặc dù điều này nghe có vẻ hữu ích về mặt lý thuyết, nhưng việc triển khai bao gồm một điều khoản pháp lý có vấn đề nêu rõ rằng việc truy cập website có nghĩa là đồng ý tuân thủ các content signal.
Các loại tín hiệu nội dung:
- search: Cho phép tìm kiếm, liên kết siêu văn bản và trình bày kết quả tìm kiếm
- ai-input: Cho phép nhập nội dung để tạo ra bằng AI hoặc trả lời tìm kiếm
- ai-train: Cho phép huấn luyện và tinh chỉnh các mô hình AI
Lỗ hổng pháp lý có thể khuyến khích các nhà vận hành bot bỏ qua Robots.txt
Vấn đề đáng lo ngại nhất được các nhà phát triển xác định là chính sách này tạo ra một cấu trúc khuyến khích sai lệch. Bằng cách bao gồm ngôn ngữ pháp lý ràng buộc trong tệp robots.txt, Cloudflare đã vô tình đưa ra cho các nhà vận hành bot một lý do để tránh tải xuống các tệp robots.txt hoàn toàn. Nếu họ không bao giờ thấy các điều khoản, họ không thể bị buộc chịu trách nhiệm pháp lý vì vi phạm chúng.
Điều này tạo ra tình huống mà các công ty cố gắng có trách nhiệm bằng cách kiểm tra các tệp robots.txt phải đối mặt với rủi ro pháp lý lớn hơn so với những công ty hoàn toàn bỏ qua các tiêu chuẩn web. Hậu quả không mong muốn có thể là ít bot tôn trọng bất kỳ hạn chế website nào.
Thách thức thực thi vẫn không thay đổi
Ngoài các biến chứng pháp lý, vấn đề thực thi cơ bản vẫn tồn tại. Chính sách Content Signals vẫn dựa vào sự tuân thủ tự nguyện từ các nhà vận hành bot, giống như các tệp robots.txt truyền thống. Các nhà phê bình chỉ ra rằng nếu bất kỳ bot lớn nào bỏ qua các tín hiệu này, nội dung được bảo vệ cuối cùng sẽ vẫn xuất hiện trong các bộ dữ liệu huấn luyện AI, khiến toàn bộ nỗ lực này phần lớn chỉ mang tính biểu tượng.
Chính sách này cũng đặt ra câu hỏi về hiệu quả theo khu vực. Khung pháp lý tham chiếu các chỉ thị bản quyền của Liên minh Châu Âu, có khả năng tạo ra một hệ thống chủ yếu hạn chế phát triển AI của Châu Âu trong khi để các công ty Mỹ và Trung Quốc tự do tiếp tục scrape nội dung cho các mô hình của họ.
Dự báo lưu lượng truy cập:
- Lưu lượng bot dự kiến sẽ vượt qua lưu lượng người dùng thật vào cuối năm 2026
- Đến năm 2031: Riêng hoạt động của bot sẽ vượt qua tổng lưu lượng internet hiện tại
- Đại diện cho gánh nặng chi phí đáng kể đối với các nhà vận hành website
Phản ứng trái chiều từ cộng đồng nhà phát triển
Thông báo này đã gây ra cuộc tranh luận về hướng đi rộng lớn hơn của sự cởi mở web. Một số nhà phát triển than thở về sự chuyển dịch khỏi triết lý internet thời kỳ đầu về việc chia sẻ thông tin tự do, trong khi những người khác lập luận rằng các nhà sáng tạo nội dung xứng đáng được bồi thường cho công việc của họ được sử dụng trong các hệ thống AI thương mại.
Web đã sa sút quá xa so với 'thông tin muốn được tự do'.
Cuộc thảo luận phản ánh một căng thẳng rộng lớn hơn giữa việc duy trì một web mở và bảo vệ quyền của các nhà sáng tạo nội dung trong thời đại mà các công ty AI đang xây dựng các doanh nghiệp tỷ đô la trên nội dung web được scrape.
Bất chấp những lo ngại này, Cloudflare đang tự động kích hoạt chính sách cho hơn 1,6 triệu tên miền sử dụng tính năng robots.txt được quản lý của họ, thiết lập các tín hiệu ai-train thành không theo mặc định. Công ty thừa nhận rằng các content signal là sở thích chứ không phải các biện pháp đối phó kỹ thuật, khuyến nghị các nhà xuất bản website nghiêm túc kết hợp chúng với các quy tắc Web Application Firewall và công cụ quản lý bot để có sự bảo vệ thực tế.
Tham khảo: Giving users choice with Cloudflare's new Content Signals Policy
![]() |
---|
Hình ảnh minh họa blog của Cloudflare thảo luận về Chính sách Tín hiệu Nội dung, phản ánh những phản ứng trái chiều trong cộng đồng công nghệ |