Cộng đồng AI đang tham gia vào một cuộc tranh luận sôi nổi về việc liệu lý luận chuỗi tư duy trong các mô hình ngôn ngữ lớn có đại diện cho khả năng lý luận thực sự hay chỉ là khớp mẫu tinh vi. Cuộc thảo luận này đã trở nên căng thẳng hơn sau các bài nghiên cứu gần đây đặt câu hỏi về bản chất cơ bản của khả năng lý luận AI.
Bất Đồng Cốt Lõi: Điều Gì Được Coi Là Lý Luận Thực Sự?
Cuộc tranh luận xoay quanh một câu hỏi cơ bản đã chia rẽ các nhà nghiên cứu và chuyên gia thực hành. Một bài báo gần đây từ Đại học Bang Arizona đã huấn luyện một mô hình nhỏ 600.000 tham số trên các tác vụ biến đổi bảng chữ cái đơn giản, phát hiện rằng mô hình gặp khó khăn khi đối mặt với các thao tác ngoài dữ liệu huấn luyện của nó. Các nhà nghiên cứu kết luận rằng lý luận chuỗi tư duy có thể là một ảo ảnh - có vẻ thực nhưng thực tế chỉ là các mẫu được ghi nhớ.
Tuy nhiên, những người chỉ trích cho rằng kết luận này có sai sót. Họ chỉ ra rằng nghiên cứu đã sử dụng các tác vụ về cơ bản là tính toán chứ không phải lý luận. Lý luận thực sự đòi hỏi khả năng thay đổi hướng, quay lại và xem xét nhiều cách tiếp cận - những khả năng mà các phép biến đổi bảng chữ cái đơn giản không kiểm tra được.
Thông số nghiên cứu của Arizona State University:
- Kích thước mô hình: ~600.000 tham số (4 lớp)
- Loại tác vụ: Các phép biến đổi bảng chữ cái (ví dụ: "A B C D [M1]" → "B C D E")
- Dữ liệu huấn luyện: Nhiều loại phép toán với các ví dụ suy luận theo chuỗi
- Phát hiện chính: Hiệu suất giảm đáng kể với các tổ hợp phép toán chưa từng thấy hoặc thay đổi định dạng
Vấn Đề So Sánh Với Con Người
Một trong những lập luận phản bác thuyết phục nhất tập trung vào cách lý luận của con người thực sự hoạt động trong thực tế. Những người chỉ trích lưu ý rằng con người cũng phụ thuộc rất nhiều vào các mẫu đã học, bao gồm các chi tiết không liên quan trong lý luận của họ, và gặp khó khăn khi làm việc ngoài lĩnh vực chuyên môn của họ. Người lý luận có nguyên tắc lý tưởng mà một số bài báo so sánh các mô hình AI đơn giản là không tồn tại trong thực tế.
Các LLM xây dựng các chuỗi logic hời hợt dựa trên các liên kết token đã học, thường thất bại trong các tác vụ lệch khỏi các phương pháp heuristic thông thường hoặc các mẫu quen thuộc
Lời chỉ trích này cũng áp dụng tương tự cho những người lý luận là con người, đặt ra câu hỏi về việc liệu chúng ta có đang đặt AI vào một tiêu chuẩn bất khả thi hay không.
Hạn Chế Kỹ Thuật Của Các Nghiên Cứu Hiện Tại
Cộng đồng đã xác định được một số vấn đề kỹ thuật với các nghiên cứu lý luận gần đây. Nghiên cứu của Đại học Bang Arizona đã sử dụng một mô hình cực kỳ nhỏ thiếu khả năng cho lý luận tinh vi. Các khả năng lý luận hiện đại dường như là những thuộc tính nổi lên chỉ biểu hiện trong các mô hình lớn hơn nhiều.
Ngoài ra, các tác vụ được sử dụng trong nhiều nghiên cứu không đòi hỏi lý luận thực sự. Các phép biến đổi đơn giản như tiến mỗi chữ cái lên một là các tác vụ tính toán với đường dẫn đúng duy nhất, không giống như các vấn đề lý luận thực sự liên quan đến việc khám phá nhiều giải pháp tiềm năng.
Những hạn chế nghiên cứu được cộng đồng xác định:
- Mô hình quá nhỏ để có khả năng lý luận nổi sinh
- Các nhiệm vụ mang tính tính toán hơn là dựa trên lý luận
- Không có so sánh với hiệu suất lý luận của con người
- Thiếu cơ chế để quay lại hoặc thay đổi hướng
- Không có định nghĩa triết học rõ ràng về khái niệm lý luận "thực sự"
Sự Chia Rẽ Giữa Triết Học và Thực Hành
Cuộc thảo luận tiết lộ một căng thẳng sâu sắc hơn giữa các định nghĩa triết học về lý luận và các ứng dụng thực tế. Một số thành viên cộng đồng lập luận tập trung vào lý luận nhân quả thay vì tương quan thống kê, trong khi những người khác đặt câu hỏi liệu những phân biệt như vậy có quan trọng hay không nếu các đầu ra hữu ích.
Cuộc tranh luận cũng chạm đến những câu hỏi cơ bản về ý thức và trí thông minh mà triết học đã vật lộn trong nhiều thế kỷ. Không có định nghĩa rõ ràng về điều gì cấu thành lý luận thực sự, việc trả lời một cách dứt khoát liệu các hệ thống AI có sở hữu khả năng này hay không trở nên gần như bất khả thi.
Các Cải Tiến Đề Xuất Cho Nghiên Cứu Tương Lai:
- Sử dụng các mô hình lớn hơn (1B+ tham số) nơi khả năng lý luận xuất hiện
- Thiết kế các nhiệm vụ yêu cầu nhiều đường giải quyết và khả năng quay lui
- Bao gồm so sánh cơ sở con người cho các nhiệm vụ lý luận
- Tập trung vào các vấn đề yêu cầu khám phá các lựa chọn thay thế thay vì tính toán đơn đường
- Tích hợp các mô hình toán học dựa trên nghiên cứu khoa học nhận thức
Hướng Nghiên Cứu Tương Lai
Cộng đồng đang kêu gọi các cách tiếp cận tinh vi hơn để nghiên cứu lý luận AI. Các đề xuất bao gồm phát triển các mô hình có thể xử lý thông tin theo thời gian trong không gian tiềm ẩn thay vì bị hạn chế trong việc tạo ra từng token, và tạo ra các tiêu chuẩn đánh giá tốt hơn thực sự đòi hỏi lý luận thay vì tính toán.
Cũng có sự quan tâm ngày càng tăng đối với các mô hình toán học về lý luận dựa trên khoa học nhận thức, có thể cung cấp các khung làm việc nghiêm ngặt hơn để hiểu và cải thiện khả năng lý luận AI.
Cuộc tranh luận cuối cùng làm nổi bật cách phát triển AI đang buộc chúng ta phải xem xét lại các giả định cơ bản về trí thông minh, lý luận và ý thức - những câu hỏi có thể đòi hỏi cả đổi mới kỹ thuật và sự rõ ràng triết học để giải quyết.
Tham khảo: Is chain-of-thought AI reasoning a mirage?