Cộng đồng tranh luận về MILS của Meta: Liệu LLM có thực sự "nhìn và nghe" mà không cần huấn luyện?

BigGo Editorial Team
Cộng đồng tranh luận về MILS của Meta: Liệu LLM có thực sự "nhìn và nghe" mà không cần huấn luyện?

FAIR (Facebook AI Research) của Meta gần đây đã công bố một bài báo có tựa đề LLMs can see and hear without any training, đã làm dấy lên cuộc tranh luận sôi nổi trong cộng đồng AI. Bài báo giới thiệu MILS, một phương pháp cho phép các mô hình ngôn ngữ thực hiện các tác vụ đa phương thức như mô tả hình ảnh, âm thanh và video mà không cần huấn luyện cụ thể cho các phương thức này. Tuy nhiên, phản ứng của cộng đồng cho thấy tựa đề có thể gây hiểu lầm hơn so với thành tựu kỹ thuật thực tế.

Kiến trúc Actor-Critic dưới một cái tên khác

Về cốt lõi, MILS sử dụng một thiết lập mà nhiều người trong cộng đồng ngay lập tức nhận ra là Actor-Critic, mặc dù thú vị là thuật ngữ này lại không xuất hiện trong bài báo. Hệ thống sử dụng một Generator (LLM) và một Scorer (như CLIP) trong một quá trình lặp đi lặp lại, trong đó LLM tạo ra các mô tả và nhận phản hồi từ các mô hình chấm điểm đã được huấn luyện trước.

Vâng, rõ ràng họ đã phát triển những tên gọi mới: Generator và Scorer. Điều này khá giống với hiện tượng Tai's Model

Cách tiếp cận này đã được so sánh với hiện tượng Tai's Model, nơi các khái niệm đã được thiết lập được đổi tên thương hiệu với thuật ngữ mới. Cộng đồng chỉ ra rằng mặc dù phương pháp này khá thông minh, cách trình bày của bài báo gợi ý nhiều tính mới lạ hơn so với thực tế.

Các Thành Phần Chính của Hệ Thống MILS

  • Generator: Một mô hình LLM (cụ thể là mô hình Llama 8B) tạo ra chú thích hoặc mô tả
  • Scorer: Các mô hình được huấn luyện trước như CLIP đánh giá đầu ra của Generator
  • Quy trình làm việc: Quy trình lặp lại trong đó LLM cải thiện đầu ra dựa trên phản hồi của scorer

Các Nhiệm Vụ Được Trình Bày Trong Bài Báo

  • Tạo chú thích cho hình ảnh
  • Tạo chú thích cho âm thanh
  • Tạo chú thích cho video
  • Tạo hình ảnh chất lượng cao
  • Chuyển đổi phong cách
  • Phép tính số học đa phương thức

Tựa đề vs. Thực tế: Hiểu rõ các tuyên bố

Nhiều người bình luận đã phản đối tựa đề của bài báo, cho rằng nó diễn đạt sai lệch những gì thực sự đang diễn ra. Hệ thống không thực sự cho phép LLM nhìn và nghe theo cách mà tựa đề gợi ý. Thay vào đó, nó tạo ra một vòng phản hồi trong đó LLM liên tục cải thiện đầu ra của mình dựa trên điểm số từ các mô hình đã được huấn luyện trên dữ liệu hình ảnh hoặc âm thanh.

Cách tiếp cận này có phần tương tự như một người mù chơi trò Marco Polo, nơi họ di chuyển về phía mục tiêu dựa trên phản hồi nóng hơn hoặc lạnh hơn. LLM không trực tiếp xử lý đầu vào hình ảnh hoặc âm thanh mà thay vào đó sử dụng phản hồi dạng văn bản về các phỏng đoán của nó để hội tụ vào các mô tả phù hợp.

Khả năng mới nổi hay kỹ thuật thông minh?

Một số người bảo vệ bài báo nhấn mạnh rằng cách tiếp cận này thể hiện khả năng mới nổi của LLM. Vì mô hình ngôn ngữ không được huấn luyện rõ ràng để diễn giải phản hồi từ các mô hình hình ảnh và điều chỉnh theo đó, khả năng làm được điều này có thể được coi là một tính chất mới nổi. LLM đang tìm cách hướng tới các mô tả chính xác mà không có ví dụ về nhiệm vụ cụ thể này trong dữ liệu huấn luyện của nó.

Tuy nhiên, những người phê bình chỉ ra rằng hệ thống vẫn phụ thuộc nhiều vào các mô hình đa phương thức đã được huấn luyện trước như CLIP, vốn đã được huấn luyện trên một lượng lớn dữ liệu hình ảnh. Cuộc tranh luận tập trung vào việc liệu without any training (không cần huấn luyện nào) có phải là một đặc điểm chính xác khi hệ thống phụ thuộc vào các thành phần đã được huấn luyện khác.

Nhân cách hóa khả năng AI

Một chủ đề lặp lại trong các bình luận là mối quan ngại về ngôn ngữ nhân cách hóa được sử dụng để mô tả các hệ thống AI. Một số người bình luận đã đưa ra những so sánh mang tính châm biếm với các thiết bị đơn giản như quang trở và bộ điều nhiệt có thể thấy bóng tối hoặc cảm nhận nhiệt độ mà không cần bất kỳ huấn luyện hoặc mã nào.

Mặc dù những so sánh này rõ ràng là phóng đại, chúng nhấn mạnh một mối quan ngại chính đáng về cách thức truyền đạt nghiên cứu AI. Việc sử dụng các thuật ngữ giống con người như nhìn và nghe có thể tạo ra những hiểu lầm về những gì các hệ thống này thực sự đang làm và cách chúng hoạt động.

Phản ứng của cộng đồng đối với bài báo này phản ánh những căng thẳng rộng lớn hơn trong truyền thông nghiên cứu AI, nơi áp lực tạo ra các tiêu đề thu hút sự chú ý đôi khi xung đột với các mô tả kỹ thuật chính xác. Khi các phòng thí nghiệm nghiên cứu lớn cạnh tranh để thu hút sự chú ý và tài trợ, có một mối quan ngại ngày càng tăng về việc thổi phồng không cần thiết trong cách khung khả năng AI.

Mặc dù có những lời chỉ trích này, cách tiếp cận kỹ thuật được mô tả trong bài báo đại diện cho một phương pháp thú vị để tận dụng LLM trong các tác vụ đa phương thức mà không cần tinh chỉnh cho từng tác vụ cụ thể, ngay cả khi tuyên bố without any training cần được xem xét một cách thận trọng.

Tham khảo: LLMs can see and hear without any training

Kho lưu trữ GitHub cho dự án MILS của Meta, minh họa nền tảng kỹ thuật đằng sau những tuyên bố gây tranh cãi về khả năng của LLM
Kho lưu trữ GitHub cho dự án MILS của Meta, minh họa nền tảng kỹ thuật đằng sau những tuyên bố gây tranh cãi về khả năng của LLM