Một bài luận gần đây cho rằng các mô hình ngôn ngữ lớn ( LLMs ) thiếu mô hình thế giới thực sự đã khơi mào cuộc thảo luận sôi nổi trong cộng đồng AI . Cuộc tranh luận tập trung vào việc liệu các hệ thống AI hiện tại có thực sự hiểu thế giới xung quanh chúng hay chỉ đơn giản là xuất sắc trong việc khớp mẫu và tạo văn bản.
Tranh cãi bắt đầu khi một nhà phát triển chia sẻ trải nghiệm về việc LLMs thất bại trong trò chơi cờ vua cơ bản, mất dấu vị trí quân cờ từ nước đi thứ 9 và thực hiện những nước đi bất hợp pháp. Điều này đã khơi dậy những câu hỏi rộng hơn về điều gì tạo nên một mô hình thế giới và liệu LLMs có sở hữu sự hiểu biết thực sự về các lĩnh vực mà chúng hoạt động hay không.
Thử thách cờ vua tiết lộ những hạn chế cơ bản
Ví dụ về cờ vua đã trở thành tâm điểm của cuộc tranh luận. Những người chỉ trích chỉ ra rằng LLMs gặp khó khăn với các quy tắc cờ vua cơ bản, thất bại trong việc theo dõi vị trí quân cờ và tạo ra các nước đi hợp pháp một cách nhất quán. Tuy nhiên, nghiên cứu gần đây cho thấy câu chuyện này có thể đã lỗi thời. Các nghiên cứu cho thấy rằng các mô hình tiên tiến nhất có thể đạt được hiệu suất cờ vua ở mức chuyên nghiệp, với những cải tiến đáng kể xảy ra khi độ chính xác nước đi hợp pháp đạt 99.8%.
Sự khác biệt này làm nổi bật một vấn đề quan trọng: các mô hình cũ và những mô hình không có đào tạo chuyên biệt thường thất bại ở các nhiệm vụ đòi hỏi lý luận không gian và theo dõi trạng thái. Tuy nhiên, các hệ thống mới hơn cho thấy những cải tiến đáng kể, đặt ra câu hỏi về việc liệu những hạn chế này là cơ bản hay chỉ đơn giản là sản phẩm phụ của các phương pháp đào tạo.
Chỉ số Hiệu suất Cờ vua:
- Ngưỡng xếp hạng cấp độ chuyên nghiệp: dưới 1800 ELO
- Điểm đột phá độ chính xác nước đi hợp lệ: 99,8%
- Những cải thiện đáng kể về xếp hạng ELO xảy ra sau khi đạt được độ chính xác nước đi hợp lệ cao
Ngoài trò chơi: Ứng dụng thực tế cho thấy kết quả hỗn hợp
Cuộc tranh luận mở rộng ra ngoài cờ vua đến các ứng dụng thực tế. Các ví dụ bao gồm LLMs giải thích sai về alpha blending trong phần mềm chỉnh sửa hình ảnh, tuyên bố rằng việc pha trộn màu sắc không liên quan đến các phép tính toán học. Những lỗi như vậy tiết lộ khoảng trống trong hiểu biết về các khái niệm cơ bản về cách máy tính xử lý thông tin hình ảnh.
Tuy nhiên, các thành viên cộng đồng lưu ý rằng những thất bại này thường phụ thuộc vào mô hình nào được sử dụng và cách các câu hỏi được đặt ra. Các mô hình có khả năng lý luận hiện đại như GPT-5 Thinking và Claude with Extended Thinking cho thấy hiệu suất tốt hơn đáng kể trên các nhiệm vụ tương tự, cho thấy rằng bối cảnh đang phát triển nhanh chóng.
Các mô hình LLM được tham chiếu trong thảo luận:
- ChatGPT (nhiều phiên bản khác nhau bao gồm GPT-5 Thinking)
- Claude (với khả năng Extended Thinking)
- Grok
- Google AI Overviews
- Gemini 2.5 Flash và các biến thể Pro
Yếu tố Token hóa và bối cảnh lịch sử
Một khía cạnh thú vị của cuộc thảo luận liên quan đến token hóa - cách các mô hình chia nhỏ văn bản thành các khối có thể xử lý được. Một số thất bại, như đếm chữ cái trong từ, xuất phát từ hạn chế kỹ thuật này hơn là thiếu hiểu biết. Các thành viên cộng đồng đã lưu ý rằng những gì từng là các trường hợp thất bại đáng tin cậy, chẳng hạn như đếm chữ B trong blueberry, không còn làm khó các mô hình hiện tại nữa.
Nó đã được thảo luận và tái hiện trên GPT-5 trên HN vài ngày trước... Người đăng anh em có thể đang nhầm lẫn với vấn đề strawberry từ năm 2024 trên các mô hình LLM cũ hơn.
Chu kỳ cải tiến nhanh chóng này khiến việc rút ra kết luận lâu dài về những hạn chế cơ bản so với những trở ngại kỹ thuật tạm thời trở nên khó khăn.
Các Ví dụ Thất bại Phổ biến của LLM:
- Cờ vua: Mất dấu vị trí quân cờ từ nước đi thứ 9
- Pha trộn alpha: Khẳng định sai rằng việc pha trộn màu sắc không sử dụng công thức toán học
- Đếm chữ cái: Các vấn đề lịch sử với việc đếm các chữ cái cụ thể trong từ (đã được giải quyết phần lớn ở các mô hình mới hơn)
- Thread safety: Nhầm lẫn về các thao tác danh sách Python và hành vi GIL
Vấn đề hạn chế học tập
Có lẽ ràng buộc quan trọng nhất được xác định là khả năng không thể học hỏi của LLMs trong quá trình suy luận. Không giống như con người có thể xây dựng hiểu biết về các codebase hoặc lĩnh vực mới thông qua tương tác, các mô hình hiện tại không thể cập nhật kiến thức của chúng trong thời gian thực. Hạn chế này ảnh hưởng đến khả năng phát triển hiểu biết tinh tế về các tình huống mới hoặc các lĩnh vực chuyên biệt.
Cuộc thảo luận tiết lộ một cộng đồng đang vật lộn với các khả năng phát triển nhanh chóng. Trong khi những người hoài nghi chỉ ra những hạn chế cơ bản trong cách LLMs xử lý thông tin, những người khác lập luận rằng những đột phá gần đây trong lý luận toán học và giải quyết vấn đề cho thấy khả năng mô hình hóa thế giới thực sự. Sự thật có thể nằm ở đâu đó giữa các vị trí này, với các hệ thống hiện tại cho thấy khả năng đáng chú ý trong một số lĩnh vực trong khi duy trì những điểm mù đáng kể ở những lĩnh vực khác.
Khi khả năng AI tiếp tục phát triển với tốc độ chóng mặt, cuộc tranh luận về các mô hình thế giới phản ánh những câu hỏi rộng hơn về bản chất của trí thông minh và sự hiểu biết trong các hệ thống nhân tạo.
Tham khảo: LLMs aren't world models