Các LLM gặp khó khăn với khả năng suy luận không gian trong game giải đố bất chấp những khả năng tiên tiến

Nhóm Cộng đồng BigGo
Các LLM gặp khó khăn với khả năng suy luận không gian trong game giải đố bất chấp những khả năng tiên tiến

Các nhà nghiên cứu đã biến game giải đố nổi tiếng Baba is You thành một bộ tiêu chuẩn đánh giá AI có tên Baba is Eval để kiểm tra khả năng xử lý các tác vụ suy luận không gian phức tạp của các mô hình ngôn ngữ lớn. Kết quả cho thấy những hạn chế đáng kể trong các hệ thống AI hiện tại, ngay cả những mô hình tiên tiến như Claude , khi xử lý việc giải đố dựa trên lưới.

Dự án này chứng minh một thách thức cơ bản mà AI hiện đại đang đối mặt: trong khi các hệ thống này xuất sắc trong các tác vụ ngôn ngữ và thậm chí có thể tạo ra mã code, chúng lại gặp khó khăn đáng kể với các bài toán suy luận không gian mà con người thấy trực quan. Hạn chế này trở nên đặc biệt rõ ràng trong các game giải đố nơi việc hiểu các mối quan hệ 2D và lập kế hoạch cho các giải pháp nhiều bước là điều cần thiết.

Kết quả hiệu suất của Claude:

  • Giải thành công Level 0 (8 nước đi đúng)
  • Thất bại ở tất cả các cấp độ tiếp theo
  • Không thể theo dõi luật chơi một cách đáng tin cậy
  • Gặp khó khăn trong việc xác định đường đi bị chặn
  • Kém trong việc lập kế hoạch nhiều bước
  • Khó khăn trong việc nhận biết điều kiện thắng/thua

Vấn đề biểu diễn lưới văn bản

Một trong những vấn đề được thảo luận nhiều nhất trong cộng đồng tập trung vào cách các LLM xử lý thông tin không gian được trình bày dưới dạng lưới văn bản. Cách tiếp cận hiện tại là biểu diễn trạng thái game dưới dạng lưới ASCII dường như tạo ra những rào cản đáng kể cho việc hiểu của AI. Các mô hình dường như gặp khó khăn đặc biệt trong việc phát hiện cột so với hàng, có thể do quá trình huấn luyện của chúng xử lý mọi thứ như văn bản tuần tự thay vì sắp xếp không gian.

Hạn chế kiến trúc này cho thấy rằng các mô hình transformer tiêu chuẩn, xử lý thông tin một cách tuyến tính, có thể không phù hợp về cơ bản đối với các tác vụ đòi hỏi hiểu biết không gian thực sự. Một số nhà nghiên cứu đề xuất các giải pháp như embedding văn bản 2D bổ sung thông tin vị trí cho cả tọa độ X và Y, mặc dù điều này vẫn chủ yếu mang tính thử nghiệm.

Các Giải Pháp Đề Xuất cho Lý Luận Không Gian:

  • Nhúng văn bản 2D (thêm mã hóa vị trí X,Y)
  • Cấu trúc tọa độ dựa trên JSON
  • Biểu diễn dựa trên đồ thị
  • Mô tả tọa độ ngữ nghĩa
  • Token hóa chuyên biệt cho dữ liệu không gian
  • Công cụ trừu tượng hóa di chuyển (ví dụ: các hàm move_to())

Cuộc tranh luận giữa ghi nhớ và suy luận

Một mối quan tâm đáng kể được cộng đồng nêu ra liên quan đến việc liệu các LLM có thực sự giải đố thông qua suy luận hay chỉ đơn giản là nhớ lại các giải pháp từ dữ liệu huấn luyện của chúng. Vì các giải pháp Baba is You có sẵn rộng rãi trực tuyến, có lo ngại chính đáng rằng bất kỳ thành công rõ ràng nào cũng có thể phản ánh việc ghi nhớ thay vì khả năng giải quyết vấn đề thực sự.

Tuy nhiên, ngay cả khi được kiểm tra trên các level có giải pháp đã biết, các mô hình hiện tại như Claude vẫn không thể giải được những câu đố cơ bản ngoài các level hướng dẫn đơn giản nhất. Điều này cho thấy rằng ngay cả việc ghi nhớ cũng không hoạt động hiệu quả, làm nổi bật những vấn đề sâu xa hơn về cách các hệ thống này xử lý và áp dụng suy luận không gian.

So sánh với các hệ thống AI chuyên biệt cho game

Cuộc thảo luận tiết lộ một sự tương phản thú vị giữa các LLM đa mục đích và các hệ thống AI chuyên biệt. Trong khi một mạng neural chuyên dụng được huấn luyện cụ thể trên các game giải đố có thể vượt trội hơn Claude đáng kể, mục tiêu không chỉ là giải game mà là kiểm tra khả năng trí tuệ tổng quát.

Một mạng neural feed-forward đơn giản với đủ huấn luyện có thể giải các level tốt hơn Claude rất nhiều.

Quan sát này nhấn mạnh một điểm quan trọng: thách thức không phải là tạo ra một AI có thể đánh bại các game giải đố, mà là phát triển các hệ thống thể hiện trí tuệ tổng quát thực sự bằng cách xử lý các tác vụ đa dạng mà không cần huấn luyện chuyên biệt.

Chi tiết triển khai kỹ thuật:

  • Trạng thái game được lấy thông qua các hook của Lua mod
  • Các lệnh được thực thi với độ trễ 50-150ms
  • Sử dụng máy chủ MCP ( Model Context Protocol )
  • Biểu diễn lưới văn bản cho dữ liệu không gian
  • Điều hướng cấp độ thông qua mô phỏng nhấn phím
  • Kích thước nhị phân của game: 8MB với các script Lua

Ý nghĩa đối với việc đánh giá AI

Dự án Baba is Eval gia nhập một bộ sưu tập ngày càng tăng các tiêu chuẩn được thiết kế để kiểm tra khả năng AI vượt ra ngoài các tác vụ ngôn ngữ truyền thống. Không giống như một số tiêu chuẩn hiện có, các game giải đố mang lại lợi thế có các quy tắc được định nghĩa rõ ràng và tiêu chí thành công rõ ràng, khiến chúng có thể trở thành công cụ có giá trị để đo lường tiến bộ của AI.

Cuộc thảo luận cộng đồng cho thấy rằng những thách thức suy luận không gian này có thể đại diện cho một bài kiểm tra trí tuệ cơ bản hơn so với các tiêu chuẩn hiện tại. Khả năng hiểu và thao tác các mối quan hệ không gian, lập kế hoạch giải pháp nhiều bước, và thích ứng với các bộ quy tắc thay đổi phản ánh nhiều tình huống giải quyết vấn đề trong thế giới thực.

Nghiên cứu này làm nổi bật một khoảng cách quan trọng giữa khả năng AI hiện tại và suy luận giống con người. Trong khi các LLM tiếp tục cải thiện trong các tác vụ dựa trên ngôn ngữ, việc chúng gặp khó khăn với suy luận không gian cho thấy rằng việc đạt được trí tuệ nhân tạo tổng quát thực sự có thể đòi hỏi những thay đổi kiến trúc cơ bản thay vì chỉ đơn giản mở rộng quy mô các cách tiếp cận hiện có.

Tham khảo: Baba is Eval