Thói Quen Thu Thập Dữ Liệu Web Của Các Công Ty AI Gây Ra Sự Sụt Giảm Lượt Truy Cập Wikipedia Và Tranh Luận Cộng Đồng

Nhóm Cộng đồng BigGo
Thói Quen Thu Thập Dữ Liệu Web Của Các Công Ty AI Gây Ra Sự Sụt Giảm Lượt Truy Cập Wikipedia Và Tranh Luận Cộng Đồng

Trong bối cảnh phát triển không ngừng của trí tuệ nhân tạo, mối quan hệ giữa các nhà phát triển AI và mạng mở ngày càng trở nên phức tạp. Những quan sát gần đây từ Wikipedia làm nổi bật một xu hướng đáng ngạc nhiên: một phần đáng kể lưu lượng truy cập nền tảng hiện nay đến từ các bot AI đang thu thập nội dung, thay vì những độc giả là con người tìm kiếm kiến thức. Sự thay đổi này đã châm ngòi cho các cuộc thảo luận sôi nổi trong cộng đồng công nghệ về đạo đức, hiệu quả và những hệ lụy lâu dài của cách thức các công ty AI thu thập dữ liệu huấn luyện.

Bài viết này khám phá mối lo ngại ngày càng tăng về việc các công ty AI thu thập nội dung Wikipedia mà không có sự ghi nhận hoặc bồi thường thích đáng
Bài viết này khám phá mối lo ngại ngày càng tăng về việc các công ty AI thu thập nội dung Wikipedia mà không có sự ghi nhận hoặc bồi thường thích đáng

Tranh Luận Giữa Thu Thập Dữ Liệu và Cơ Sở Dữ Liệu

Một trong những cuộc thảo luận nổi bật nhất tập trung vào lý do tại sao các công ty AI lựa chọn việc thu thập dữ liệu từ các trang web công khai của Wikipedia thay vì sử dụng các bản sao cơ sở dữ liệu chính thức có sẵn. Cộng đồng đã xác định được một số lý do thực tế thúc đẩy cách tiếp cận này. Các công cụ thu thập dữ liệu thường đã được xây dựng sẵn cho việc thu thập thông tin web nói chung, khiến việc tái sử dụng cơ sở hạ tầng hiện có trở nên dễ dàng hơn là phát triển các giao diện tùy chỉnh cho các nguồn dữ liệu cụ thể. Ngoài ra còn có một cân nhắc về tài chính - việc thu thập dữ liệu chuyển gánh nặng tính toán cho việc hiển thị và cung cấp nội dung sang các máy chủ của Wikipedia, giúp các công ty AI tiết kiệm đáng kể nguồn lực.

Lý lẽ tôi từng thấy ở nơi khác là nó tiết kiệm tiền. Nó có nghĩa là bạn không cần phải nỗ lực tải xuống, lưu trữ và cập nhật bản sao cơ sở dữ liệu của mình. Bạn có thể chuyển tất cả các yếu tố bên ngoài lên bất kỳ trang web nào bạn đang thu thập dữ liệu.

Cách tiếp cận này phản ánh một khuôn mẫu rộng hơn trong phát triển AI, nơi sự tiện lợi và tiết kiệm chi phí thường được ưu tiên hơn các phương pháp thu thập dữ liệu tôn trọng hơn. Một số bình luận viên lưu ý đến sự trớ trêu khi các startup AI được tài trợ tốt lại lựa chọn thu thập dữ liệu thay vì duy trì các bản sao cơ sở dữ liệu của riêng họ, bất chấp nỗ lực tương đối tối thiểu mà cách tiếp cận sau đòi hỏi.

Những Hiểu Biết Chính Của Cộng Đồng Về Các Thực Hành Scraping AI:

  • Hiệu Quả Chi Phí: Scraping chuyển giao chi phí tính toán cho các trang web nguồn thay vì các công ty AI phải duy trì cơ sở dữ liệu riêng của họ
  • Khả Năng Tái Sử Dụng Công Cụ: Cơ sở hạ tầng web scraping hiện có có thể được tái sử dụng thay vì phải xây dựng các giao diện cơ sở dữ liệu tùy chỉnh
  • Che Giấu Lưu Lượng Truy Cập: Web scraping có thể ít thu hút sự chú ý hơn so với việc tải xuống cơ sở dữ liệu trực tiếp
  • Tác Động Tài Nguyên: Lưu lượng truy cập của AI bot tiêu tốn tài nguyên máy chủ mà không đóng góp vào tính bền vững của nền tảng
  • Chất Lượng Thông Tin: Các bản tóm tắt AI thường chứa lỗi và đơn giản hóa quá mức so với nội dung Wikipedia gốc

Tác Động Đến Hệ Sinh Thái Wikipedia

Cộng đồng nhận ra rằng hành vi thu thập dữ liệu này có những hậu quả rõ rệt đối với hoạt động và tính bền vững của Wikipedia. Không giống như lưu lượng truy cập web thông thường có thể dẫn đến quyên góp hoặc sự tham gia của cộng đồng, lưu lượng truy cập từ bot AI không mang lại lợi ích trực tiếp nào cho nền tảng trong khi vẫn tiêu thụ tài nguyên máy chủ. Điều này tạo ra một động thái đáng lo ngại khi chính các tổ chức sử dụng nội dung của Wikipedia để xây dựng sản phẩm thương mại lại đồng thời làm giảm lưu lượng truy cập của con người vào trang web.

Cuộc thảo luận cũng đề cập đến vị thế độc đáo của Wikipedia với tư cách là một thực thể phi thương mại. Không giống như các doanh nghiệp truyền thống có thể tìm kiếm các quan hệ đối tác hoặc thỏa thuận cấp phép doanh nghiệp, Wikipedia dựa vào sự quyên góp của cá nhân để duy trì sự độc lập của mình. Mô hình gây quỹ này bị đe dọa khi các bản tóm tắt AI thay thế nhu cầu người dùng truy cập trực tiếp vào Wikipedia, có khả năng tạo ra một vòng xoáy đi xuống nơi lưu lượng truy cập của con người giảm dẫn đến ít quyên góp hơn, làm ảnh hưởng đến khả năng duy trì chính nội dung mà các công ty AI phụ thuộc vào.

Lo Ngại Về Chất Lượng và Độ Tin Cậy

Bên cạnh những hệ lụy về kỹ thuật và kinh tế, cộng đồng bày tỏ mối quan ngại đáng kể về cách thức tóm tắt bằng AI ảnh hưởng đến chất lượng thông tin. Một số bình luận viên chỉ ra rằng các bản tóm tắt do AI tạo ra thường xuyên chứa lỗi, xuyên tạc hoặc đơn giản hóa quá mức mà sẽ không thể tồn tại qua quy trình biên tập nghiêm ngặt của Wikipedia. Điều này tạo ra một nghịch lý khi các hệ thống AI được huấn luyện trên nội dung được quản lý cẩn thận của Wikipedia lại tạo ra thông tin kém tin cậy hơn chính nguồn tài liệu gốc.

Cuộc trò chuyện cũng làm nổi bật cách thức tóm tắt bằng AI thay đổi cách mọi người tương tác với tri thức. Các bài viết trên Wikipedia đã trở nên toàn diện hơn theo thời gian, nhưng các bản tóm tắt AI lại ưu tiên sự ngắn gọn hơn là chiều sâu. Sự thay đổi này hướng tới những mẩu thông tin dễ tiêu hóa có nguy cơ đánh mất bối cảnh, sắc thái và tính kỹ lưỡng vốn tạo nên giá trị của Wikipedia cho việc nghiên cứu và học tập nghiêm túc.

Tác động đến lưu lượng truy cập Wikipedia (tháng 3-8/2023):

  • Giảm lưu lượng truy cập: Giảm khoảng 20% so với cùng kỳ năm 2022
  • Lưu lượng bot: Một phần đáng kể "lưu lượng truy cập cao bất thường" được xác định là bot thu thập dữ liệu AI
  • Dòng thời gian: Hoạt động thu thập dữ liệu đạt đỉnh vào tháng 5/2023
  • Phát hiện: Wikipedia đã cập nhật hệ thống phát hiện xâm nhập để nhận diện và phân tích các mẫu hoạt động của bot

Hệ Lụy Rộng Hơn Đối Với Mạng Lưới

Tình huống thu thập dữ liệu từ Wikipedia phản ánh các xu hướng lớn hơn đang ảnh hưởng đến nhiều nền tảng trực tuyến. Các bình luận viên lưu ý các khuôn mẫu tương tự trong thương mại điện tử, nơi một tỷ lệ phần trăm đáng kể lưu lượng truy cập đến từ bot thay vì những khách hàng tiềm năng. Điều này cho thấy việc thu thập dữ liệu liên quan đến AI đang trở thành một vấn đề mang tính hệ thống trên toàn bộ mạng lưới, với các nền tảng ngày càng phục vụ người tiêu dùng là máy móc hơn là người dùng con người.

Cuộc thảo luận cũng tiết lộ những lo ngại về sức khỏe lâu dài của các nguồn tài nguyên web mở. Khi ngày càng nhiều công ty AI xây dựng các sản phẩm đóng gói lại nội dung từ các trang web như Wikipedia, Reddit và Stack Overflow, mối lo ngại ngày càng tăng về việc liệu các nguồn tài nguyên nền tảng của internet này có thể tự duy trì khi nội dung của chúng ngày càng được tiêu thụ một cách gián tiếp thông qua các giao diện AI thay vì các lượt truy cập trực tiếp.

Cuộc thảo luận đang diễn ra giữa những người đam mê công nghệ cho thấy những lo ngại sâu sắc về cách thức các hoạt động phát triển AI đang ảnh hưởng đến hệ sinh thái web mở. Khi trí tuệ nhân tạo ngày càng được tích hợp sâu hơn vào bối cảnh thông tin của chúng ta, việc tìm ra những cách bền vững để các công ty AI hợp tác với - thay vì chỉ đơn thuần khai thác từ - các nguồn tài nguyên dựa vào cộng đồng như Wikipedia sẽ là điều cốt yếu để duy trì sức khỏe của không gian kỹ thuật số chung của chúng ta.

Tham khảo: Wikipedia Seems Pretty Worried About AI