Reddit chặn Wayback Machine của Internet Archive để ngăn chặn AI thu thập dữ liệu, hạn chế truy cập vào nội dung lịch sử

Nhóm biên tập BigGo
Reddit chặn Wayback Machine của Internet Archive để ngăn chặn AI thu thập dữ liệu, hạn chế truy cập vào nội dung lịch sử

Việc bảo tồn lịch sử internet đang phải đối mặt với một thất bại đáng kể khi Reddit triển khai các hạn chế mới sẽ nghiêm trọng giới hạn khả năng thu thập và lưu trữ nội dung của nền tảng này của Internet Archive. Động thái này thể hiện sự căng thẳng ngày càng tăng giữa các nền tảng nội dung tìm cách kiếm tiền từ dữ liệu của họ và sứ mệnh rộng lớn hơn là bảo tồn thông tin kỹ thuật số cho các thế hệ tương lai.

Logo Reddit trên smartphone tượng trưng cho các hạn chế mới của nền tảng đối với việc lưu trữ nội dung
Logo Reddit trên smartphone tượng trưng cho các hạn chế mới của nền tảng đối với việc lưu trữ nội dung

Chiến lược kiểm soát nội dung của Reddit

Reddit đã thông báo sẽ chặn Wayback Machine lập chỉ mục hầu hết nội dung của mình, chỉ cho phép truy cập vào trang chủ của nền tảng. Quyết định này thực sự khiến các ảnh chụp lịch sử của Internet Archive về các subreddit và bài đăng riêng lẻ trở nên không thể truy cập được cho việc lưu trữ trong tương lai. Hạn chế này xuất phát từ lo ngại của Reddit rằng các công ty AI đang phá vỡ các chính sách truy cập nội dung của nền tảng bằng cách thu thập dữ liệu từ các phiên bản được lưu trữ trong Wayback Machine.

Theo phát ngôn viên Reddit Tim Rathschmidt, công ty đã xác định được các trường hợp mà các công ty AI vi phạm chính sách nền tảng bằng cách trích xuất dữ liệu huấn luyện từ các bản lưu trữ của Internet Archive. Các hạn chế mới đã bắt đầu tăng cường gần đây, mặc dù nội dung được lưu trữ hiện tại dường như vẫn có thể truy cập được hiện tại.

Thay đổi quyền truy cập đối với Internet Archive

  • Trước đây: Truy cập đầy đủ vào các bài đăng Reddit , subreddit và trang chủ
  • Sau này: Quyền truy cập chỉ giới hạn ở trang chủ Reddit
  • Kho lưu trữ hiện tại: Hiện tại vẫn có thể truy cập được

Yếu tố kiếm tiền từ AI

Thời điểm của quyết định này tiết lộ chiến lược rộng lớn hơn của Reddit xung quanh các quan hệ đối tác AI và cấp phép nội dung. Nền tảng này đã bảo đảm được các thỏa thuận sinh lời với các công ty AI lớn, bao gồm thỏa thuận năm 2024 với Google và quan hệ đối tác tiếp theo với OpenAI. Những thỏa thuận này cho phép các gã khổng lồ công nghệ hợp pháp truy cập vào kho lưu trữ khổng lồ nội dung do người dùng tạo ra của Reddit để huấn luyện các mô hình trí tuệ nhân tạo của họ.

Cách tiếp cận này cho thấy mối quan tâm chính của Reddit không phải là ngăn chặn hoàn toàn việc huấn luyện AI, mà là đảm bảo công ty nhận được bồi thường cho việc truy cập như vậy. Công ty dường như đang đóng các lỗ hổng tiềm năng cho phép các nhà phát triển AI khác có được nội dung Reddit mà không cần trả phí cấp phép.

Dòng thời gian hợp tác AI của Reddit

  • 2024: Thỏa thuận cấp phép nội dung với Google
  • Cuối 2024: Thỏa thuận hợp tác với OpenAI
  • 2025: Triển khai các hạn chế đối với Wayback Machine

Tác động đến bảo tồn kỹ thuật số

Internet Archive, một tổ chức phi lợi nhuận chuyên bảo tồn thông tin kỹ thuật số, cung cấp một dịch vụ vô giá thông qua Wayback Machine của mình. Công cụ này từ lâu đã cho phép các nhà nghiên cứu, nhà báo và người dùng tò mò truy cập các trang web và nội dung có thể bị mất theo thời gian. Hạn chế của Reddit thể hiện một đòn giáng đáng kể đối với sứ mệnh này, xét đến vai trò của nền tảng như một kho lưu trữ khổng lồ các cuộc thảo luận, đánh giá và kiến thức cộng đồng.

Sự mất mát này đặc biệt đáng chú ý đối với những người dùng dựa vào Reddit để tìm thông tin chân thực do con người tạo ra. Nhiều người dùng internet đã phát triển thói quen thêm Reddit vào các truy vấn tìm kiếm để tìm ý kiến và trải nghiệm chính thống, khiến nội dung Reddit được lưu trữ trở thành một nguồn tài nguyên có giá trị để truy cập các bài đăng đã bị xóa hoặc chỉnh sửa.

Các cuộc đàm phán đang diễn ra

Bất chấp các hạn chế hiện tại, vẫn có thể có hy vọng cho một giải pháp. Mark Graham, giám đốc của Wayback Machine, cho biết Internet Archive duy trì mối quan hệ lâu dài với Reddit và tiếp tục thảo luận về vấn đề này. Điều này cho thấy khả năng tìm ra một nền tảng trung gian có thể bảo tồn một số quyền truy cập lưu trữ trong khi giải quyết các mối quan tâm của Reddit về việc thu thập dữ liệu AI trái phép.

Tình hình này làm nổi bật những thách thức phức tạp mà bảo tồn kỹ thuật số phải đối mặt trong một thời đại mà các nền tảng nội dung ngày càng coi dữ liệu do người dùng tạo ra của họ như tài sản thương mại có giá trị. Khi các công ty AI tiếp tục tìm kiếm dữ liệu huấn luyện, các xung đột tương tự giữa nỗ lực bảo tồn và lợi ích thương mại có thể trở nên phổ biến hơn trên internet.