Perplexity AI Bỏ Qua Quy Tắc Chặn Website Bất Chấp Tuyên Bố Trong Tài Liệu

Nhóm Cộng đồng BigGo
Perplexity AI Bỏ Qua Quy Tắc Chặn Website Bất Chấp Tuyên Bố Trong Tài Liệu

Lời đe dọa pháp lý của BBC đối với Perplexity AI đã gây ra cuộc thảo luận sôi nổi trong cộng đồng, nhưng các chuyên gia công nghệ đang tập trung vào một phát hiện đáng lo ngại hơn: bằng chứng cho thấy công ty AI này đã âm thầm thay đổi chính sách về việc tôn trọng các quy tắc chặn website.

Thay Đổi Tài Liệu Tiết Lộ Sự Chuyển Đổi Chính Sách

Phân tích của cộng đồng đã phát hiện ra rằng Perplexity gần đây đã sửa đổi tài liệu kỹ thuật của mình trong khoảng thời gian từ ngày 30 tháng 1 đến ngày 7 tháng 2 năm 2025. Công ty đã thêm một tuyên bố quan trọng về trình thu thập dữ liệu Perplexity-User của mình: Vì người dùng đã yêu cầu việc tìm nạp, trình thu thập này thường bỏ qua các quy tắc robots.txt. Việc bổ sung này diễn ra đúng lúc áp lực pháp lý từ các nhà xuất bản lớn đang gia tăng.

Tệp robots.txt là một giao thức web tiêu chuẩn cho các trình thu thập dữ liệu tự động biết những phần nào của website mà chúng nên tránh. Nó giống như biển báo Cấm Vào dành cho bot, mặc dù việc tuân thủ vẫn mang tính tự nguyện. BBC sử dụng tệp này để chặn các trình thu thập của Perplexity , nhưng công ty AI này dường như đã bỏ qua những hướng dẫn này.

Dòng thời gian thay đổi tài liệu:

  • 30 tháng 1, 2025: Tài liệu của Perplexity không đề cập đến việc bỏ qua robots.txt
  • 7 tháng 2, 2025: Bổ sung tuyên bố rằng Perplexity-User "thường bỏ qua các quy tắc robots.txt"

Công Nghệ RAG Ở Trung Tâm Tranh Cãi

Tranh cãi xoay quanh công nghệ Retrieval-Augmented Generation ( RAG ), một công nghệ tìm kiếm web theo thời gian thực để trả lời câu hỏi của người dùng. Khác với các công cụ tìm kiếm truyền thống hiển thị liên kết đến nguồn gốc, Perplexity hiển thị nội dung trực tiếp trong giao diện của mình, thường tái tạo những phần đáng kể của các bài viết.

Cách tiếp cận này đã thu hút sự chỉ trích từ các nhà xuất bản, họ cho rằng điều này làm giảm lưu lượng truy cập đến website của họ trong khi vẫn sử dụng nội dung của họ. BBC tuyên bố Perplexity tái tạo nội dung của họ nguyên văn mà không xin phép, có thể gây hại đến mối quan hệ của tập đoàn với những người đóng phí truyền hình ở Anh, những người tài trợ cho hoạt động của BBC .

Các loại Crawler của Perplexity:

  • PerplexityBot: Được thiết kế để hiển thị và liên kết các trang web trong kết quả tìm kiếm (bị chặn bởi robots.txt của BBC)
  • Perplexity-User: Lấy nội dung khi người dùng đặt câu hỏi (hiện được ghi nhận là bỏ qua các quy tắc robots.txt)

Câu Hỏi Về Quy Mô Và Sử Dụng Hợp Lý

Cuộc tranh luận trong cộng đồng đã nêu bật một câu hỏi cơ bản về quyền số trong kỷ nguyên AI . Trong khi cá nhân có thể tự do duyệt web và tóm tắt nội dung web, các hệ thống AI hoạt động ở quy mô lớn, có khả năng xử lý hàng triệu bài viết mỗi ngày.

Bản quyền có liên quan nội tại đến quy mô. Việc tăng 1000000 lần việc sử dụng hợp lý... có thể không còn là sử dụng hợp lý nữa.

Hiệu ứng quy mô này làm dấy lên lo ngại về tính bền vững lâu dài của ngành báo chí. Nếu các hệ thống AI có thể cung cấp bản tóm tắt mà không cần hướng lưu lượng truy cập đến nguồn gốc, các nhà xuất bản lo lắng về việc mất đi doanh thu cần thiết để tài trợ cho việc thu thập tin tức và báo cáo.

Tác động đến ngành xuất bản UK:

  • Giá trị ngành: 4,4 tỷ bảng Anh
  • Việc làm: 55.000 người
  • Tổ chức đại diện: Professional Publishers Association (hơn 300 thương hiệu truyền thông)

Phản Ứng Trái Chiều Từ Người Dùng

Bất chấp những lo ngại pháp lý, nhiều người dùng đánh giá cao khả năng của Perplexity trong việc vượt qua các website lộn xộn đầy quảng cáo và nội dung được tối ưu hóa SEO . Một số người xem dịch vụ này như một giải pháp cho trải nghiệm web suy thoái đã xuất hiện từ các chiến lược kiếm tiền tích cực.

Tuy nhiên, sự tiện lợi này đi kèm với cái giá phải trả đối với những người tạo nội dung, những người phụ thuộc vào lượt truy cập website để có doanh thu. Sự căng thẳng giữa trải nghiệm người dùng và tính bền vững của nhà xuất bản vẫn chưa được giải quyết khi cuộc chiến pháp lý đang diễn ra.

Hành động của BBC đại diện cho thách thức pháp lý lớn đầu tiên từ một tổ chức tin tức toàn cầu chống lại một công ty AI về việc sử dụng nội dung. Kết quả có thể tạo ra những tiền례 quan trọng về cách các hệ thống AI tương tác với tài liệu có bản quyền và liệu các biện pháp bảo vệ sử dụng hợp lý hiện tại có đủ để giải quyết quy mô của các hoạt động AI hiện đại hay không.

Tham khảo: BBC threatens AI firm with legal action over unauthorised content use

Một người dùng đang tương tác với smartphone, đại diện cho sự tham gia với công nghệ AI giữa những cuộc tranh luận đang diễn ra về việc sử dụng nội dung và tính bền vững của các nhà xuất bản
Một người dùng đang tương tác với smartphone, đại diện cho sự tham gia với công nghệ AI giữa những cuộc tranh luận đang diễn ra về việc sử dụng nội dung và tính bền vững của các nhà xuất bản