Một bài nghiên cứu mới tuyên bố rằng các mô hình AI chỉ mô phỏng lý luận thay vì thực sự hiểu logic đã châm ngòi cho cuộc tranh luận gay gắt trong cộng đồng công nghệ. Trong khi các nhà nghiên cứu từ University of Arizona kết luận rằng lý luận chuỗi tư duy chỉ là ảo tưởng mong manh, nhiều chuyên gia đang đặt câu hỏi liệu những phát hiện dựa trên các mô hình thử nghiệm nhỏ bé có thể cho chúng ta biết điều gì có ý nghĩa về các hệ thống AI mạnh mẽ ngày nay.
Vấn Đề Mô Hình Đồ Chơi Chia Rẽ Các Chuyên Gia
Nghiên cứu này sử dụng các mô hình cực kỳ nhỏ chỉ với 4 lớp và 32 chiều ẩn - chỉ bằng một phần nhỏ kích thước của các hệ thống AI sản xuất. Điều này đã gây ra sự chỉ trích gay gắt từ cộng đồng, với nhiều người cho rằng việc rút ra kết luận về khả năng AI hiện đại từ những thử nghiệm hạn chế như vậy là gây hiểu lầm. Các nhà nghiên cứu đã thử nghiệm những mô hình thu nhỏ này trên các phép biến đổi văn bản đơn giản như xoay chữ cái và dịch chuyển theo chu kỳ, sau đó đo lường mức độ tổng quát hóa của chúng đối với các nhiệm vụ hơi khác biệt.
Các nhà phê bình chỉ ra rằng cách tiếp cận này có những khiếm khuyết cơ bản. Các mô hình nhỏ đã được biết là hoạt động rất khác so với các đối tác lớn hơn, và những nhiệm vụ cụ thể được chọn - như xoay chữ cái trong văn bản - là những lĩnh vực yếu đã biết đối với các mô hình ngôn ngữ dựa trên token. Một số thành viên cộng đồng lưu ý rằng những lo ngại tương tự đã xuất hiện với nghiên cứu trước đây về việc huấn luyện các mô hình AI trên chính đầu ra của chúng, nơi những tiêu đề báo động về sự sụp đổ thảm khốc sau đó được chứng minh là không áp dụng cho các hệ thống thực tế.
Thông số kỹ thuật của mô hình nghiên cứu:
- Kiến trúc: Mô hình GPT-2 chỉ có decoder
- Số lớp: 4 (so với hàng trăm lớp trong các mô hình sản xuất)
- Chiều ẩn: 32
- Số đầu attention: 4
- Tác vụ huấn luyện: Mã hóa ROT và dịch chuyển tuần hoàn
Hiệu Suất Thế Giới Thực Mâu Thuẫn Với Kết Quả Phòng Thí Nghiệm
Sự ngắt kết nối giữa kết quả phòng thí nghiệm và kinh nghiệm thực tế đã trở thành điểm tranh cãi chính. Nhiều nhà phát triển báo cáo thành công trong việc sử dụng các mô hình AI cho các nhiệm vụ lý luận phức tạp vượt xa việc khớp mẫu đơn giản. Những điều này bao gồm tạo mã cho các framework tùy chỉnh mà các mô hình chưa từng gặp và giải quyết các vấn đề mới đòi hỏi tổng hợp nhiều khái niệm không quen thuộc.
Tôi đã sử dụng LLM để tạo mã cho một framework serverless tùy chỉnh mà tôi viết từ đầu mà nó chưa từng thấy trước đây... Tôi biết chắc chắn rằng chúng có thể tổng hợp và hợp nhất các khái niệm không quen thuộc khác nhau theo những cách logic phức tạp để cung cấp khả năng mới.
Thành công thực tế này trái ngược hoàn toàn với các phát hiện nghiên cứu, khiến một số người đặt câu hỏi liệu môi trường phòng thí nghiệm được kiểm soát có nắm bắt được khả năng thực sự của các hệ thống AI hiện đại hay không.
Câu Hỏi Về Quy Mô Và Sự Xuất Hiện
Một sự bất đồng cơ bản đã xuất hiện về việc liệu kích thước mô hình chỉ đại diện cho một thay đổi tham số tầm thường hay một bước nhảy vọt về chất trong khả năng. Một số người cho rằng khả năng lý luận của các hệ thống AI chỉ xuất hiện ở những quy mô nhất định, khiến nghiên cứu mô hình nhỏ trở nên không liên quan để hiểu các hệ thống sản xuất. Những người khác cho rằng những hạn chế cơ bản nên nhất quán trên các kích thước mô hình, và những tuyên bố về hiệu ứng ngưỡng kỳ diệu là không có căn cứ.
Cuộc tranh luận chạm đến những câu hỏi sâu sắc hơn về cách các hệ thống AI hoạt động. Nghiên cứu gần đây cho thấy rằng các mô hình transformer với quá ít lớp so với độ dài chuỗi phải đối mặt với những hạn chế cơ bản, với một số nhiệm vụ trở nên không thể thực hiện khi số lượng lớp không đủ. Điều này đặt ra câu hỏi về việc liệu các mô hình 4 lớp được sử dụng trong nghiên cứu có thể thực hiện các nhiệm vụ lý luận mà chúng được yêu cầu thực hiện hay không.
Tác Động Ngành Và Hướng Tương Lai
Bất chấp cuộc tranh luận học thuật, những tác động thực tế vẫn đáng kể. Nghiên cứu này làm nổi bật những câu hỏi quan trọng về độ tin cậy của AI, đặc biệt trong các ứng dụng có cược cao như y học và tài chính. Tuy nhiên, sự đồng thuận của cộng đồng dường như đang chuyển hướng sang các cách tiếp cận tinh tế hơn kết hợp mạng nơ-ron với các hệ thống lý luận tượng trưng.
Cuộc tranh cãi cũng phản ánh những căng thẳng rộng lớn hơn trong nghiên cứu AI giữa các nghiên cứu phòng thí nghiệm được kiểm soát và triển khai thế giới thực. Trong khi các thử nghiệm được kiểm soát cẩn thận cung cấp những hiểu biết có giá trị, chúng có thể không nắm bắt được toàn bộ sự phức tạp của cách các hệ thống này hoạt động trong thực tế. Khi lĩnh vực này tiếp tục phát triển nhanh chóng, các nhà nghiên cứu phải đối mặt với thách thức phát triển các phương pháp đánh giá có thể theo kịp khả năng tiến bộ trong khi cung cấp những hiểu biết có ý nghĩa cho cả nhà phát triển và người dùng.
Tham khảo: LLMs' simulated reasoning abilities are a brittle mirage, researchers find