Một đánh giá mới cho thấy rằng ngay cả những mô hình ngôn ngữ lớn tiên tiến nhất cũng có hiệu suất kém đáng ngạc nhiên trong các game phiêu lưu dựa trên văn bản, mặc dù có khả năng đã tiếp cận với các hướng dẫn chơi và lời giải game trong dữ liệu huấn luyện của chúng. Nghiên cứu đã thử nghiệm các mô hình phổ biến như GPT-5 , Claude và Gemini trên các tựa game tiểu thuyết tương tác cổ điển, phát hiện rằng không mô hình nào đạt được kết quả ấn tượng.
Phương pháp đánh giá
- Các phiên chơi game giới hạn lượt với những thành tựu được định trước
- Điểm thành tựu được nhóm xung quanh tiến trình đầu game
- Điều chỉnh hồi quy tuyến tính cho các biến thể độ khó của game
- Thử nghiệm trên 7 tựa game tiểu thuyết tương tác kinh điển bao gồm " Lost Pig ", " Plundered Hearts ", và " 9:05 "
Khoảng cách trí tuệ cơ bản
Hiệu suất kém này làm nổi bật sự khác biệt quan trọng giữa xử lý ngôn ngữ và khả năng lý luận thực sự. Các LLM hiện tại hoạt động như những hệ thống khớp mẫu tinh vi hơn là những động cơ mô hình hóa thế giới có khả năng hiểu các mối quan hệ không gian, chuỗi nguyên nhân-kết quả và cơ chế game. Hạn chế này trở nên rõ ràng khi các mô hình gặp phải môi trường tương tác đòi hỏi lập kế hoạch nhiều bước và theo dõi trạng thái.
Nhìn vào đánh giá này, thật thú vị khi thấy các mô hình này hoạt động tệ như thế nào ngay cả với những game cũ hàng thập kỷ mà gần như chắc chắn có các hướng dẫn chơi rải rác khắp dữ liệu huấn luyện của chúng.
Nghiên cứu sử dụng hệ thống chấm điểm dựa trên thành tựu, thiết lập giới hạn lượt chơi và đo lường có bao nhiêu mục tiêu được định nghĩa trước mà mỗi mô hình có thể hoàn thành. Các game như Lost Pig và Plundered Hearts tỏ ra phù hợp hơn cho việc đánh giá do các chuỗi mở đầu tuyến tính của chúng, trong khi các tựa game có nhiều lựa chọn khám phá cho thấy sự biến động cao giữa các lần chạy.
Những Thông Tin Hiệu Suất Quan Trọng
- Sự biến động cao trong điểm số đối với các trò chơi tập trung vào khám phá như " So Far "
- Các trò chơi mở đầu tuyến tính như " Lost Pig " cung cấp các chỉ số đánh giá nhất quán hơn
- Không có mô hình nào đạt được kết quả ấn tượng một cách nhất quán trên tất cả các trò chơi được thử nghiệm
- Ý nghĩa thống kê bị hạn chế do cỡ mẫu nhỏ trên nhiều mô hình
Phân tích hiệu suất-chi phí tiết lộ người chiến thắng rõ ràng
Trong số các mô hình được thử nghiệm, Gemini 2.5 Flash nổi lên như người thể hiện xuất sắc khi xem xét cả khả năng và hiệu quả chi phí. Mô hình này đạt được hiệu suất ngang bằng hoặc vượt trội so với các lựa chọn thay thế đắt tiền hơn đáng kể trong khi duy trì thời gian phản hồi nhanh hơn. Phát hiện này thách thức giả định rằng các mô hình tầng cao cấp tự động mang lại kết quả vượt trội cho các tác vụ tương tác.
Phương pháp đánh giá đã điều chỉnh độ khó của game bằng hồi quy tuyến tính, cung cấp các hệ số tính đến mức độ thách thức khác nhau giữa các tựa game khác nhau. Hầu hết sự khác biệt hiệu suất của mô hình thiếu ý nghĩa thống kê do kích thước mẫu hạn chế, nhưng kết quả cung cấp những hiểu biết định hướng có giá trị cho việc lựa chọn mô hình.
Các Mô Hình Hiệu Suất Cao Nhất (Điều Chỉnh Theo Chi Phí)
- Gemini 2.5 Flash : Tỷ lệ chi phí-hiệu suất tốt nhất
- Claude 4 Sonnet : Hiệu suất mạnh nhưng chi phí cao hơn
- GPT-5 Chat : Tham chiếu hiệu suất cơ bản
- Hầu hết các mô hình cao cấp không cho thấy lợi thế đáng kể so với các lựa chọn thay thế rẻ hơn
Ý nghĩa đối với phát triển AI
Đánh giá game phiêu lưu văn bản phơi bày những hạn chế quan trọng trong khả năng duy trì mô hình thế giới mạch lạc và thực hiện các tác vụ lý luận tuần tự của các hệ thống AI hiện tại. Không giống như các benchmark tĩnh mà các mô hình có thể ghi nhớ, các game tương tác đòi hỏi sự thích ứng thời gian thực với các trạng thái thay đổi và tình huống mới.
Nghiên cứu này bổ sung vào bằng chứng ngày càng tăng rằng việc đạt được trí tuệ nhân tạo tổng quát đòi hỏi nhiều hơn là mở rộng quy mô các mô hình ngôn ngữ. Việc không thể xuất sắc trong các game được thiết kế cho giải trí con người - mặc dù có khả năng tiếp cận với các lời giải trong quá trình huấn luyện - cho thấy những khoảng trống cơ bản trong cách các hệ thống này xử lý và áp dụng kiến thức trong bối cảnh động.
Những phát hiện này có ý nghĩa thực tế cho việc triển khai LLM trong các ứng dụng đòi hỏi lý luận bền vững qua nhiều chu kỳ tương tác, chẳng hạn như dịch vụ khách hàng, khắc phục sự cố kỹ thuật hoặc các tình huống dạy kèm giáo dục.
Tham khảo: Evaluating LLMs Playing Text Adventures