Các Nhà Sáng Tạo Nội Dung Tranh Cãi Về Việc LLM Thu Thập Dữ Liệu Web Khi Cuộc Tranh Luận Về Phân Bổ Lưu Lượng Truy Cập Ngày Càng Căng Thẳng

Nhóm Cộng đồng BigGo

Các Nhà Sáng Tạo Nội Dung Tranh Cãi Về Việc LLM Thu Thập Dữ Liệu Web Khi Cuộc Tranh Luận Về Phân Bổ Lưu Lượng Truy Cập Ngày Càng Căng Thẳng

Cộng đồng công nghệ đang bị cuốn vào một cuộc tranh luận gay gắt về việc liệu các chủ sở hữu website có nên chặn các Mô Hình Ngôn Ngữ Lớn ( LLM ) thu thập nội dung từ trang web của họ hay không. Cuộc thảo luận này đã trở nên sôi nổi sau những cáo buộc gần đây rằng công ty tìm kiếm AI Perplexity đã vi phạm các tệp robots.txt mà rõ ràng cấm các trình thu thập dữ liệu LLM truy cập vào một số trang web nhất định.

Tranh cãi tập trung vào sự bất đồng cơ bản về việc trao đổi giá trị giữa các nhà sáng tạo nội dung và các công ty AI. Trong khi một số người cho rằng LLM đại diện cho tương lai của tìm kiếm và có thể hướng lưu lượng truy cập đến các trang web, nhiều nhà sáng tạo nội dung cảm thấy họ đang bị khai thác mà không được bồi thường.

Các nền tảng chính được đề cập:

Perplexity (bị cáo buộc vi phạm robots.txt)
ChatGPT (được một số doanh nghiệp báo cáo là nguồn lưu lượng truy cập)
Google (so sánh với tìm kiếm truyền thống)
Cloudflare (cung cấp công cụ chặn LLM)

Vấn Đề Phân Bổ Chia Rẽ Cộng Đồng

Một vấn đề cốt lõi nổi lên từ các cuộc thảo luận trong cộng đồng là liệu LLM có thực sự hướng lưu lượng truy cập có ý nghĩa đến các trang web nguồn hay không. Nhiều nhà sáng tạo nội dung bày tỏ sự thất vọng rằng công việc của họ được tóm tắt và trình bày cho người dùng mà không tạo ra các lượt nhấp chuột hoặc lượt truy cập vào trang web gốc của họ. Dữ liệu nghiên cứu ủng hộ những lo ngại này, cho thấy người dùng hiếm khi nhấp vào các liên kết nguồn khi hệ thống AI cung cấp câu trả lời trực tiếp cho các truy vấn của họ.

Điều này trái ngược hoàn toàn với các công cụ tìm kiếm truyền thống như Google, chủ yếu hoạt động như những người điều hướng lưu lượng truy cập. Khi Google lập chỉ mục một trang web, nó thường gửi người dùng đến trang web thực tế để tiêu thụ toàn bộ nội dung. Tuy nhiên, LLM thường cung cấp các câu trả lời được tổng hợp có thể loại bỏ nhu cầu của người dùng phải truy cập nguồn gốc.

Dữ liệu Phân bổ Lưu lượng Truy cập:

Một số doanh nghiệp báo cáo rằng khoảng 20% khách hàng hiện đến từ ChatGPT thay vì Google
Nghiên cứu cho thấy người dùng hiếm khi nhấp vào các liên kết nguồn trong các phản hồi được tạo bởi AI
Lưu lượng truy cập được tạo bởi LLM được báo cáo là có tỷ lệ chuyển đổi tốt hơn nhưng tạo ra ít khối lượng tổng thể hơn

Xung Đột Mô Hình Kinh Doanh Thúc Đẩy Căng Thẳng

Cuộc tranh luận tiết lộ một cuộc xung đột cơ bản giữa các cách tiếp cận khác nhau đối với việc kiếm tiền từ nội dung trực tuyến. Các chủ sở hữu trang web dựa vào doanh thu quảng cáo, lượt xem trang hoặc sự tương tác trực tiếp của độc giả xem việc thu thập dữ liệu LLM là có khả năng tàn phá mô hình kinh doanh của họ. Họ cho rằng các công ty AI về cơ bản đang xây dựng các dịch vụ có lợi nhuận trên lưng của những nhà sáng tạo nội dung không được trả tiền.

Tôi không nỗ lực viết nhiều đoạn nội dung cho các trang web của riêng mình chỉ để nó có thể được tóm tắt bởi một LLM. Tôi viết nó vì tôi muốn những con người khác đọc nó.

Tuy nhiên, một số chủ doanh nghiệp báo cáo những trải nghiệm tích cực với lưu lượng truy cập được điều khiển bởi LLM, đặc biệt là những người cung cấp dịch vụ chuyên nghiệp. Các công ty trong các lĩnh vực chuyên môn như kế toán và tư vấn đã lưu ý rằng các hệ thống AI đôi khi hướng những khách hàng tiềm năng có trình độ cao đến trang web của họ khi người dùng đặt câu hỏi cụ thể về ngành.

Những Lo Ngại Kỹ Thuật Và Đạo Đức Gia Tăng

Ngoài các cân nhắc kinh doanh, cộng đồng đã nêu ra một số vấn đề kỹ thuật và đạo đức với các thực hành thu thập dữ liệu LLM hiện tại. Nhiều nhà phê bình chỉ ra rằng một số công ty AI đã bị phát hiện bỏ qua các tệp robots.txt và các giao thức web tiêu chuẩn khác được thiết kế để kiểm soát quyền truy cập tự động vào các trang web.

Cũng có lo ngại về độ chính xác của nội dung và việc trình bày sai lệch. Các chủ sở hữu trang web lo lắng rằng LLM có thể trình bày thông tin của họ một cách không chính xác hoặc ngoài ngữ cảnh, có khả năng làm tổn hại danh tiếng của họ mà họ không bao giờ biết về điều đó. Rủi ro này đặc biệt đáng lo ngại đối với những nhà sáng tạo đã đầu tư thời gian và chuyên môn đáng kể vào việc sản xuất nội dung chất lượng cao.

Tương Lai Của Phân Phối Nội Dung Web

Khi cuộc tranh luận này tiếp tục, nó phản ánh những câu hỏi rộng lớn hơn về mối quan hệ tương lai giữa các nhà sáng tạo nội dung và hệ thống AI. Một số thành viên cộng đồng tin rằng việc chặn LLM là vô ích và các nhà sáng tạo nên thích nghi với thực tế mới này. Những người khác cho rằng sự đồng ý và bồi thường công bằng phải là trung tâm của bất kỳ mô hình bền vững nào.

Cuộc thảo luận cũng làm nổi bật nhu cầu về các tiêu chuẩn và giao thức rõ ràng hơn điều chỉnh cách hệ thống AI tương tác với nội dung web. Khi LLM trở nên phổ biến hơn trong tìm kiếm và truy xuất thông tin, việc tìm ra sự cân bằng phục vụ cả nhà sáng tạo nội dung và nhà phát triển AI có thể sẽ yêu cầu các giải pháp kỹ thuật mới và có thể là các khung pháp lý.

Kết quả của cuộc tranh luận này có thể định hình đáng kể cách thông tin chảy qua internet trong những năm tới, ảnh hưởng đến tất cả mọi người từ các blogger cá nhân đến các tổ chức truyền thông lớn.

Tham khảo: Why blocking LLMs from your website is dumb

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌