Máy chủ tiền ấn phẩm (preprint) học thuật arXiv đã thực hiện một thay đổi chính sách quan trọng đối với danh mục khoa học máy tính của mình, yêu cầu các bài báo tổng quan và bài báo thể hiện quan điểm phải trải qua quá trình bình duyệt thành công tại các tạp chí hoặc hội nghị trước khi nộp lên. Động thái này, được công bố vào cuối năm 2024, diễn ra trong bối cảnh nền tảng này đang phải đối mặt với một lượng lớn nội dung chất lượng thấp được khuếch đại bởi các mô hình ngôn ngữ lớn.
Mặc dù arXiv nhấn mạnh đây không phải là một thay đổi chính sách chính thức mà là việc thực thi nghiêm ngặt hơn các hướng dẫn hiện có, cộng đồng học thuật đã bùng nổ thảo luận về ý nghĩa của điều này đối với tương lai của giao tiếp học thuật trong kỷ nguyên nội dung được tạo bởi AI.
Vấn đề cốt lõi: Mô hình Ngôn ngữ Lớn làm tràn ngập arXiv với nội dung chất lượng thấp
Các điều phối viên của arXiv cho lĩnh vực khoa học máy tính nhận thấy họ đang chìm ngập trong hàng trăm bài báo tổng quan và bài báo thể hiện quan điểm mỗi tháng, nhiều bài trong số đó có vẻ là sản phẩm kém chất lượng được tạo bởi AI. Những bài báo này thường chỉ cung cấp không nhiều hơn một danh mục tài liệu tham khảo được chú thích mà không có thảo luận đáng kể về các vấn đề nghiên cứu mở hoặc những hiểu biết mới mẻ. Các điều phối viên tình nguyện của nền tảng, những người trước đây có quyền chấp nhận các bài tổng quan chất lượng cao theo quyết định của họ, không thể tiếp tục quản lý khối lượng công việc khổng lồ này trong khi vẫn duy trì sứ mệnh cốt lõi là chia sẻ nhanh chóng các bài nghiên cứu hợp lệ.
Cộng đồng nhận thấy đây là một phản ứng hợp lý trước một vấn đề ngày càng gia tăng. Như một bình luận viên nhận xét, các mô hình LLM sẽ rất sẵn lòng tạo ra cả hai loại [bài báo thể hiện quan điểm và bài tổng quan] này bởi vì chúng không yêu cầu bất kỳ đóng góp kỹ thuật, mã nguồn hoạt động, kết quả được xác thực, v.v. Điều này tạo ra một cơn bão hoàn hảo khi việc tạo ra nội dung trông có vẻ học thuật trở nên tầm thường, làm quá tải các hệ thống được xây dựng dựa trên các giả định về thiện chí của tác giả.
Thống kê Bài nộp arXiv (Tháng 10/2024)
- Tổng số bài nộp: 26.000 bài báo
- Danh mục Khoa học Máy tính: Khối lượng bài nộp cao nhất
- Bài báo tổng quan/bài báo định hướng: Hàng trăm bài được nhận mỗi tháng
Cộng đồng chia rẽ về Giải pháp và Hệ quả
Các phản ứng đối với cách tiếp cận mới của arXiv cho thấy sự chia rẽ sâu sắc trong cộng đồng học thuật. Một số hoan nghênh động thái này như một biện pháp kiểm soát chất lượng cần thiết, trong khi những người khác lo ngại về những hậu quả ngoài ý muốn đối với các nhà nghiên cứu chính đáng.
Những người ủng hộ lập luận rằng điều này sẽ giúp duy trì giá trị của arXiv như một nguồn tài nguyên. Một bình luận viên nhận xét: arXiv từ lâu đã phải chịu đựng những bài báo tự quảng cáo chất lượng kém trong lĩnh vực Khoa học Máy tính, và lưu ý rằng vấn đề này đã có từ trước thời LLM nhưng đã bị làm trầm trọng hơn đáng kể bởi chúng. Thay đổi này sẽ giúp người đọc tìm thấy nội dung có giá trị trong khi giải phóng các điều phối viên để tập trung vào các bài nghiên cứu thúc đẩy khám phá khoa học.
Tuy nhiên, những người chỉ trích nêu lên mối lo ngại về việc làm chậm lại sự phổ biến nhanh chóng vốn là giá trị của các máy chủ tiền ấn phẩm. Một bình luận viên chỉ ra: Một phần lợi thế của arXiv là bạn có thể có bài báo ngay lập tức dưới dạng bản in trước, nhấn mạnh rằng việc bắt buộc phải được chấp nhận bởi tạp chí hoặc hội nghị sẽ tạo ra những sự chậm trễ đáng kể. Những người khác lo ngại điều này chỉ đơn giản là đẩy nút thắt cổ chai nộp bài sang các hội nghị và tạp chí vốn đã quá tải.
Các Giải pháp Thay thế được Cộng đồng Đề xuất
Cuộc thảo luận đã khơi mào cho những suy nghĩ sáng tạo về cách giải quyết vấn đề cơ bản. Một số bình luận viên đề xuất các hệ thống uy tín, nơi các nhà nghiên cứu có thể xác nhận các bài báo, tạo ra một lựa chọn thay thế mạng lưới tin cậy cho bình duyệt truyền thống. Một số khác đề xuất phí nộp bài nhỏ như một biện pháp ngăn chặn thư rác, hoặc thậm chí các hình phạt hình sự đối với các ấn phẩm được tạo bởi AI nhưng không được tiết lộ.
Tôi đã từng hy vọng về một hệ thống mạng-lưới-tin-cậy để thay thế cho bình duyệt. Bất kỳ ai cũng có thể xác nhận một bài báo. Bạn có thể quyết định mình tin tưởng những người xác nhận nào, và thực hiện một số phép tính mạng lưới để tìm ra thứ bạn cho là đáng đọc.
Đề xuất hệ thống xác nhận phản ánh mong muốn rộng rãi hơn về đánh giá chất lượng phi tập trung, mặc dù những người chỉ trích nhanh chóng lưu ý về các lỗ hổng dễ bị tổ chức các vòng tròn trích dẫn và mạng lưới người xác nhận giả mạo. Thách thức cơ bản vẫn là phân biệt giữa chuyên môn của con người và nội dung do AI tạo ra mà bề ngoài trông giống như công trình học thuật.
Hệ quả Rộng hơn đối với Xuất bản Học thuật
Thay đổi chính sách này đánh dấu một thời điểm then chốt cho ngành xuất bản học thuật khi nó thích nghi với các công nghệ AI. Mặc dù hiện tại chỉ giới hạn ở danh mục Khoa học Máy tính của arXiv, thông báo lưu ý rằng các danh mục khác có thể làm theo nếu họ trải qua tình trạng nộp bài tràn ngập tương tự do LLM gây ra. Tình huống này làm nổi bật cách các công cụ AI đang buộc phải đánh giá lại các thực hành học thuật lâu đời và các cơ chế kiểm soát chất lượng.
Điểm căng thẳng cốt lõi nằm giữa việc phổ biến mở và đảm bảo chất lượng. arXiv xây dựng danh tiếng của mình dựa trên việc cho phép chia sẻ nghiên cứu nhanh chóng trước khi bình duyệt chính thức, nhưng giờ đây phải đối mặt với thực tế rằng sự cởi mở này có thể bị lợi dụng bởi nội dung do AI tạo ra. Như một bình luận viên đã nói ngắn gọn: Những kẻ gửi thư rác làm hỏng mọi thứ. Điều này cho phép những kẻ gửi thư rác có một lực lượng nhân lên.
Cộng đồng học thuật hiện đang phải đối mặt với thách thức phát triển các hệ thống mới vừa duy trì được lợi ích của tiền ấn phẩm mở, vừa triển khai được các biện pháp bảo vệ hiệu quả chống lại nội dung do AI tạo ra. Dù thông qua các giải pháp công nghệ, thay đổi chính sách, hay sự chuyển dịch văn hóa, cuộc trò chuyện được khơi mào bởi quyết định của arXiv rất có thể sẽ định hình ngành xuất bản học thuật trong nhiều năm tới.
Bài kiểm tra cuối cùng sẽ là liệu các biện pháp này có thành công trong việc lọc ra nội dung AI chất lượng thấp mà không cản trở một cách không cần thiết các nhà nghiên cứu chính đáng, đặc biệt là những người bên ngoài các tổ chức học thuật truyền thống - những người được hưởng lợi nhiều nhất từ các nền tảng xuất bản mở.
Tham khảo: Attention Authors: Updated Practice for Review Articles and Position Papers in arXiv CS Category
