Kỹ thuật LLM-Deflate đối mặt với chỉ trích về tích lũy ảo giác và thiếu xác thực

Nhóm Cộng đồng BigGo
Kỹ thuật LLM-Deflate đối mặt với chỉ trích về tích lũy ảo giác và thiếu xác thực

Một kỹ thuật mới có tên LLM-Deflate tuyên bố có thể trích xuất các tập dữ liệu có cấu trúc từ các mô hình ngôn ngữ đã được huấn luyện bằng cách đảo ngược quá trình nén của chúng. Tuy nhiên, phương pháp này đang gặp phải sự hoài nghi từ cộng đồng AI về những lo ngại cơ bản liên quan đến chất lượng dữ liệu và xác thực.

Quy trình kỹ thuật:

  • Sử dụng khám phá chủ đề theo cấu trúc phân cấp bắt đầu với các danh mục rộng
  • Tạo ra đệ quy các chủ đề phụ cụ thể hơn theo cấu trúc cây
  • Yêu cầu hàng nghìn lần gọi suy luận mô hình cho mỗi chủ đề
  • Trích xuất cả kiến thức thực tế và các mẫu lý luận

Tích lũy ảo giác làm dấy lên lo ngại về chất lượng

Chỉ trích chính tập trung vào cách các lỗi tích lũy trong quá trình tạo sinh đệ quy. Kỹ thuật này sử dụng khám phá chủ đề theo cấu trúc phân cấp, trong đó mỗi bước tạo sinh được xây dựng dựa trên các đầu ra trước đó. Các nhà phê bình lo ngại điều này tạo ra hiệu ứng tầng nối trong đó những sai sót nhỏ phát triển thành những biến dạng đáng kể khi hệ thống đi sâu hơn vào cây chủ đề.

Các thành viên cộng đồng chỉ ra rằng không giống như các phép biến đổi toán học được định nghĩa rõ ràng như nén JPEG, các mô hình ngôn ngữ bao gồm nhiều lớp biến đổi phi tuyến tính khiến việc lan truyền lỗi khó dự đoán hoặc kiểm soát. Sự không chắc chắn này khiến việc đánh giá độ tin cậy của dữ liệu được trích xuất trở nên khó khăn, đặc biệt là ở các nhánh sâu hơn của hệ thống phân cấp chủ đề.

Các Hạn Chế Chính Được Xác Định:

  • Tích tụ ảo giác trong quá trình tạo sinh đệ quy
  • Không có cơ chế xác thực cho kiến thức được trích xuất
  • Chi phí tính toán cao để đảm bảo phạm vi bao phủ toàn diện
  • Khả năng suy giảm chất lượng ở các nhánh chủ đề sâu hơn

Thiếu khung xác thực làm suy yếu các tuyên bố

Một lo ngại lớn khác là việc thivắng bằng chứng cho thấy quá trình giải nén có ý nghĩa thực sự đã xảy ra. Kỹ thuật này tạo ra các tập dữ liệu từ ba mô hình mã nguồn mở - Qwery-Coder , GPT-OS và Llama 2 - nhưng không cung cấp cơ chế xác thực nào để kiểm chứng rằng kiến thức được trích xuất có thể hiện chính xác dữ liệu huấn luyện gốc hay không.

Không có bằng chứng nào cho thấy bất cứ thứ gì đã được giải nén

Cộng đồng lưu ý rằng mặc dù phép ẩn dụ về giải nén rất hấp dẫn, nhưng các mô hình ngôn ngữ về cơ bản là các hệ thống nén có mất mát. Không giống như nén không mất mát trong đó dữ liệu gốc có thể được tái tạo hoàn hảo, các LLM loại bỏ thông tin không giúp dự đoán token tiếp theo trong quá trình huấn luyện.

Các mô hình được kiểm tra:

  • Qwery-Coder : Chuyên biệt cho việc tạo mã và các tác vụ lập trình
  • GPT-OS : Mô hình ngôn ngữ đa năng
  • Llama 2 : Được tối ưu hóa cho việc tuân theo hướng dẫn
  • Mỗi mô hình đã tạo ra hơn 10.000 ví dụ huấn luyện có cấu trúc

Hạn chế thực tế và lo ngại về chi phí

Kỹ thuật này yêu cầu hàng nghìn lần gọi suy luận mô hình cho mỗi chủ đề, khiến nó tốn kém về mặt tính toán ngay cả với cơ sở hạ tầng được tối ưu hóa. Điều này đặt ra câu hỏi về khả năng mở rộng thực tế, đặc biệt khi xem xét tiềm năng giảm lợi nhuận khi hệ thống khám phá các chủ đề phụ ngày càng hẹp.

Một số nhà nghiên cứu cho rằng các chu kỳ lặp đi lặp lại việc huấn luyện trên dữ liệu được trích xuất và sau đó trích xuất lại có thể dẫn đến suy thoái nhanh chóng, tương tự như cách sao chép lặp đi lặp lại một bản photocopy cuối cùng tạo ra kết quả không sử dụng được. Tuy nhiên, việc tiến hành các thí nghiệm như vậy sẽ tốn kém một cách cấm đoán.

Các phương pháp thay thế cho thấy triển vọng

Bất chấp những chỉ trích về việc trích xuất mô hình thuần túy, cộng đồng thấy giá trị trong các phương pháp lai ghép kết hợp tạo sinh LLM với xác thực bên ngoài. Những phương pháp này bao gồm việc tạo nội dung từ các mô hình nhưng sau đó xác minh độ chính xác thông qua thực thi mã, các nguồn bên ngoài, hoặc phản hồi của con người thay vì chỉ dựa vào kiến thức nội bộ của mô hình.

Cuộc thảo luận làm nổi bật một thách thức rộng lớn hơn trong nghiên cứu AI: phân biệt giữa việc trích xuất kiến thức thực sự và việc khớp mẫu tinh vi có thể không phản ánh sự hiểu biết thực sự hoặc việc lưu giữ thông tin chính xác.

Tham khảo: LLM-Deflate: Extracting LLMs Into Datasets