Nội dung do AI tạo ra gây khủng hoảng dữ liệu huấn luyện có thể làm sụp đổ các mô hình ngôn ngữ lớn

Nhóm Cộng đồng BigGo
Nội dung do AI tạo ra gây khủng hoảng dữ liệu huấn luyện có thể làm sụp đổ các mô hình ngôn ngữ lớn

Sự phát triển của AI tạo sinh đã tạo ra một vấn đề bất ngờ đe dọa chính nền tảng của cách thức các hệ thống này học hỏi và cải thiện. Khi ngày càng nhiều người sử dụng các công cụ AI để tạo nội dung cho các trang web, một vòng lặp phản hồi nguy hiểm đang xuất hiện có thể phá vỡ căn bản công nghệ hỗ trợ các hệ thống AI hiện đại.

Các Sự Kiện Quan Trọng Theo Thời Gian:

  • 1989: Tim Berners-Lee phát minh ra World Wide Web tại CERN
  • 1993: Trình duyệt web Mosaic được phát hành
  • 1995: Internet trở nên khả dụng thương mại
  • Tháng 11/2022: ChatGPT ra mắt, khởi đầu cuộc cách mạng GenAI
  • Tháng 7/2024: Nature công bố nghiên cứu về sự sụp đổ mô hình AI do huấn luyện đệ quy

Mô hình kinh doanh của Web đang bị đe dọa

Hệ sinh thái web truyền thống dựa trên một sự trao đổi đơn giản: người dùng truy cập các trang web để tìm thông tin, và các nhà quảng cáo trả tiền để tiếp cận những người dùng đó. Công cụ tìm kiếm của Google đã phát triển mạnh với mô hình này trong nhiều thập kỷ, hướng dẫn mọi người đến các trang web trong khi kiếm doanh thu từ quảng cáo. Tuy nhiên, các chatbot AI đang thay đổi động lực này bằng cách cung cấp câu trả lời trực tiếp cho các câu hỏi của người dùng, loại bỏ hoàn toàn nhu cầu truy cập các trang web.

Sự thay đổi này đe dọa nhiều hơn chỉ doanh thu quảng cáo. Khi mọi người ngừng truy cập các trang web, các nhà sáng tạo nội dung mất động lực để xuất bản tài liệu mới. Cuộc thảo luận cộng đồng tiết lộ một mối quan tâm chính về chu kỳ này - nếu web trở nên ít giá trị hơn đối với cả người dùng và nhà sáng tạo, toàn bộ hệ sinh thái thông tin có thể sụp đổ.

Các Mối Đe Dọa Đối Với Hệ Sinh Thái Web:

  • Mô Hình Doanh Thu: Tìm kiếm dựa trên quảng cáo trở nên kém khả thi khi người dùng bỏ qua các trang web
  • Tạo Nội Dung: Giảm động lực cho các nhà xuất bản tạo ra nội dung gốc
  • Dữ Liệu Huấn Luyện: Ít nguồn chất lượng cao do con người tạo ra hơn để huấn luyện AI
  • Chất Lượng Thông Tin: Tăng nguy cơ thông tin sai lệch và "ảo giác" do AI tạo ra

Sụp đổ mô hình: Khi AI huấn luyện trên AI

Một vấn đề kỹ thuật nghiêm trọng hơn đang xuất hiện khi nội dung do AI tạo ra tràn ngập internet. Nghiên cứu được xuất bản trên Nature vào tháng 7 năm 2024 tiết lộ rằng khi các mô hình ngôn ngữ lớn huấn luyện trên nội dung được tạo bởi các hệ thống AI khác, chúng bị sụp đổ mô hình - một sự suy thoái mà AI mất khả năng hiểu toàn bộ phạm vi biểu đạt và kiến thức của con người.

Hãy tưởng tượng AI nói với bạn rằng việc bảo quản thịt bằng phương pháp ngâm nước nóng để bảo quản thực phẩm là an toàn và phù hợp, và điều đó thực sự có nghĩa là gì khi bạn ăn thịt đóng hộp theo những hướng dẫn đó.

Cộng đồng đã xác định đây là một vấn đề an toàn quan trọng. Khi văn bản do AI tạo ra trở nên dễ sản xuất hơn so với việc viết của con người, các trang web ngày càng chứa đầy nội dung tổng hợp. Khi các hệ thống AI tương lai huấn luyện trên dữ liệu nhân tạo này, chúng mất liên lạc với kiến thức con người chính thống và có thể cung cấp thông tin sai lệch nguy hiểm.

Kết quả Nghiên cứu về Sự Sụp đổ Mô hình:

  • Tiêu đề Nghiên cứu: "AI Models Collapse when Trained on Recursively Generated Data"
  • Phát hiện Chính: "Việc sử dụng bừa bãi nội dung do mô hình tạo ra trong quá trình huấn luyện gây ra những khiếm khuyết không thể phục hồi trong các mô hình kết quả"
  • Tác động: Các hệ thống AI mất khả năng biểu diễn toàn bộ phạm vi nội dung gốc của con người
  • Giải pháp Tiềm năng: Thêm nội dung AI vào nội dung của con người thay vì thay thế hoàn toàn
Chiếc la bàn kỹ thuật số tượng trưng cho nhu cầu định hướng chính xác trong bối cảnh phức tạp của nội dung do AI tạo ra
Chiếc la bàn kỹ thuật số tượng trưng cho nhu cầu định hướng chính xác trong bối cảnh phức tạp của nội dung do AI tạo ra

Cái chết của chất lượng thông tin

Nhiều người trong cộng đồng công nghệ cho rằng chất lượng của web đã giảm đáng kể do các chiến thuật tối ưu hóa công cụ tìm kiếm và nội dung hướng quảng cáo. AI có thể chỉ đang đẩy nhanh một vấn đề hiện có thay vì tạo ra một vấn đề mới. Thách thức là các hệ thống AI cần nội dung do con người tạo ra chất lượng cao và đa dạng để hoạt động đúng cách, nhưng chúng đồng thời đang giảm động lực để tạo ra nội dung như vậy.

Một số chuyên gia đề xuất rằng các công ty AI cuối cùng sẽ cần phải trả tiền cho các nhà sáng tạo nội dung để có dữ liệu huấn luyện, tương tự như cách các dịch vụ streaming trả tiền cho nội dung âm nhạc và video. Tuy nhiên, mô hình miễn phí hiện tại của việc thu thập dữ liệu web khiến việc chuyển đổi này trở nên khó khăn về mặt kinh tế.

Xác minh trở nên quan trọng

Khi nội dung do AI tạo ra trở nên không thể phân biệt với văn bản của con người, khả năng xác minh các nguồn thông tin trở nên quan trọng hơn bao giờ hết. Cộng đồng nhấn mạnh rằng người dùng cần truy cập vào các nguồn gốc để kiểm tra thực tế các phản hồi của AI, nhưng nhiều người bỏ qua bước xác minh này vì sự tiện lợi.

Điều trớ trêu là trong khi AI hứa hẹn làm cho thông tin dễ tiếp cận hơn, nó thực sự có thể làm cho thông tin đáng tin cậy khó tìm hơn. Các thư viện và nguồn có thẩm quyền vẫn quan trọng, nhưng chúng không thể sánh với sự tiện lợi và khả năng sẵn có của các hệ thống AI - ngay cả khi những hệ thống đó cung cấp thông tin không chính xác.

Tương lai của web có thể phụ thuộc vào việc tìm ra các mô hình kinh tế mới thưởng cho việc tạo nội dung chất lượng trong khi duy trì khả năng tiếp cận đã làm cho internet trở nên cách mạng. Nếu không giải quyết được câu đố này, chúng ta có nguy cơ tạo ra một hệ sinh thái thông tin nơi các hệ thống AI trở nên kém tin cậy hơn theo thời gian, có thể dẫn đến thông tin sai lệch lan rộng và sự sụp đổ của các hệ thống kiến thức kỹ thuật số.

Tham khảo: Will AI Destroy the World Wide Web?

Mạng lưới nhà thông minh đại diện cho sự kết nối giữa các nguồn thông tin trong hành trình tìm kiếm dữ liệu đáng tin cậy trong bối cảnh thống trị bởi AI
Mạng lưới nhà thông minh đại diện cho sự kết nối giữa các nguồn thông tin trong hành trình tìm kiếm dữ liệu đáng tin cậy trong bối cảnh thống trị bởi AI