Cloudflare Ra Mắt Hệ Thống Trả Phí Theo Lần Crawl Để Kiếm Tiền Từ AI Web Scraping và Chặn Crawler Theo Mặc Định

Nhóm biên tập BigGo

Cloudflare Ra Mắt Hệ Thống Trả Phí Theo Lần Crawl Để Kiếm Tiền Từ AI Web Scraping và Chặn Crawler Theo Mặc Định

Công ty cơ sở hạ tầng web Cloudflare đang thay đổi cán cân quyền lực giữa những người tạo nội dung và các công ty AI với một hệ thống kiếm tiền mới cho phép chủ sở hữu website tính phí các crawler trí tuệ nhân tạo để truy cập vào nội dung của họ. Sáng kiến này đại diện cho một sự thay đổi đáng kể so với mô hình hiện tại, nơi các công ty AI tự do thu thập nội dung web mà không bồi thường cho những người tạo nội dung gốc.


Hình ảnh này mô tả sự phát triển nhanh chóng của các công nghệ trí tuệ nhân tạo, nhấn mạnh tầm quan trọng của các công ty AI trong bối cảnh nội dung hiện tại mà Cloudflare đang giải quyết

Việc Chặn AI Crawler Theo Mặc Định Có Hiệu Lực

Cloudflare đã thông báo rằng các AI web crawler giờ đây sẽ bị chặn theo mặc định trên toàn bộ mạng lưới của họ, đánh dấu điều mà công ty mô tả là bước đầu tiên hướng tới một tương lai bền vững hơn cho cả những người tạo nội dung và các nhà đổi mới AI. Điều này được xây dựng dựa trên công cụ AI Audit hiện có của công ty, trước đây cho phép khách hàng chặn thủ công các bot AI cụ thể chỉ với một cú nhấp chuột. Các chủ sở hữu website vẫn muốn cho phép scraping miễn phí có thể tắt cài đặt mặc định này, mặc dù các tùy chọn kiếm tiền mới của Cloudflare có thể khiến lựa chọn đó trở nên kém hấp dẫn hơn.

Hệ Thống Pay Per Crawl Bước Vào Giai Đoạn Beta Testing

Trọng tâm của cách tiếp cận mới của Cloudflare là hệ thống Pay Per Crawl, hiện đã bước vào giai đoạn beta testing sau khi được công bố vào năm ngoái. Chương trình đổi mới này tận dụng mã phản hồi HTTP 402 Payment Required trước đây không được sử dụng để tạo ra một phương pháp chuẩn hóa để tính phí các công ty AI muốn truy cập nội dung website. Hệ thống cho phép những người tạo nội dung kiểm soát chi tiết các trang web của họ, cho phép họ cấp quyền truy cập miễn phí cho các crawler cụ thể, tính phí cho những crawler khác để vào, hoặc chặn hoàn toàn các scraper không mong muốn.

Triển khai mã phản hồi HTTP:

Sử dụng mã trạng thái HTTP 402 "Payment Required" (Yêu cầu thanh toán)
Các crawler có thể phản hồi bằng ý định thanh toán hoặc bị chặn
Các trang web có thể báo hiệu sự cởi mở đối với các thỏa thuận thanh toán trong tương lai
Cho phép cơ chế tính phí tiêu chuẩn hóa trên toàn bộ cơ sở hạ tầng web

Triển Khai Kỹ Thuật và Các Biện Pháp Bảo Mật

Cloudflare đã triển khai các biện pháp xác thực tinh vi để ngăn chặn các công ty AI lách qua hệ thống thanh toán. Các crawler hợp pháp phải xác thực bản thân bằng cách sử dụng signature-agent, signature-input, và signature headers, mà Cloudflare xác minh dựa trên các khóa công khai được lưu trữ trong một thư mục được host. Điều này ngăn chặn các tác nhân độc hại giả mạo các crawler được phê duyệt để có được quyền truy cập trái phép. Hệ thống cũng bao gồm các kiểm soát ngân sách, cho phép các AI crawler đặt giới hạn chi tiêu bằng cách sử dụng crawler-max-price headers khi truy cập các trang được bảo vệ.

Quy trình xác thực Pay Per Crawl:

Các crawler sử dụng các header signature-agent, signature-input và signature
Cloudflare xác minh dựa trên cặp khóa Ed25519 trong thư mục được lưu trữ
So sánh khóa công khai với thông tin URL và user agent
Chặn các crawler giả mạo trong khi cho phép truy cập đã được xác thực

Quan Hệ Đối Tác Trong Ngành và Phản Ứng Thị Trường

ProRata , startup đứng sau công cụ tìm kiếm AI Gist.AI , đã nổi lên như người tham gia được công nhận công khai đầu tiên trong chương trình Pay Per Crawl. Người sáng lập và CEO của công ty Bill Gross nhấn mạnh vai trò của sáng kiến trong việc bảo vệ sự sáng tạo của con người, tuyên bố rằng những người sáng tạo và nhà xuất bản xứng đáng nhận được bồi thường công bằng cho những đóng góp của họ. Mô hình quan hệ đối tác này có thể cân bằng sân chơi cho những người tạo nội dung nhỏ lẻ thiếu tài nguyên để đàm phán các thỏa thuận cấp phép riêng lẻ với các công ty AI lớn như OpenAI , công ty đã thiết lập quan hệ đối tác nội dung với nhiều tổ chức truyền thông.

Cân Bằng Giữa Đổi Mới và Bảo Tồn

Hệ thống chặn mới kết hợp machine learning và phân tích hành vi để phân biệt giữa các web crawler có lợi và các AI scraper có vấn đề. Cách tiếp cận này thừa nhận rằng không phải tất cả việc truy cập web tự động đều có hại, đặc biệt là các nỗ lực bảo tồn của các tổ chức như Internet Archive . Nghiên cứu từ Pew Research Center nêu bật rằng 25% trang web từ 2013-2023 không còn có thể truy cập được, nhấn mạnh tầm quan trọng của các hoạt động crawling lưu trữ hợp pháp.

Tác Động Tương Lai Đối Với Phát Triển AI

Sáng kiến của Cloudflare có thể thay đổi cơ bản cách các công ty AI thu thập dữ liệu huấn luyện, có khả năng buộc họ phải lập ngân sách cho việc thu thập nội dung thay vì dựa vào scraping miễn phí. Công ty hình dung các AI agent hoạt động với ngân sách được xác định trước để truy cập nội dung chất lượng cao, có liên quan khi phản hồi các lời nhắc của người dùng. Mô hình dựa trên sự cho phép này cho việc truy cập nội dung internet đại diện cho một sự thay đổi đáng kể hướng tới việc công nhận giá trị kinh tế của việc tạo nội dung số và có thể thiết lập các tiêu chuẩn ngành mới cho việc thu thập dữ liệu huấn luyện AI.

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌