Các mô hình ngôn ngữ lớn đang gặp phải một lỗi kỳ lạ khiến chúng rơi vào các vòng lặp hỗn loạn khi người dùng hỏi về emoji con cá ngựa. Vấn đề ở đây? Không có emoji con cá ngựa nào trong Unicode, mặc dù cả hệ thống AI và nhiều con người đều tin rằng nó tồn tại.
Khi được hỏi về sự tồn tại của emoji con cá ngựa, các mô hình AI phổ biến như GPT-4 , Claude , và Gemini đều tự tin trả lời có và cố gắng hiển thị nó. Tuy nhiên, vì emoji này không tồn tại, chúng xuất ra các lựa chọn thay thế không chính xác như emoji con ngựa hoặc con cá. Khi nhìn thấy đầu ra sai của chính mình, các mô hình nhận ra lỗi và điên cuồng cố gắng tự sửa chữa, thường xuyên rơi vào vòng lặp vô tận của việc xin lỗi và các nỗ lực thất bại.
Nguyên Nhân Gốc Rễ: Sự Bất Khớp Giữa Niềm Tin Và Thực Tế
Giải thích kỹ thuật tiết lộ một cái nhìn hấp dẫn về cách các mô hình AI hoạt động bên trong. Sử dụng một kỹ thuật được gọi là logit lens, các nhà nghiên cứu phát hiện ra rằng các mô hình xây dựng chính xác một biểu diễn nội bộ của cá ngựa + emoji trong các lớp xử lý của chúng. Khái niệm này tồn tại mạnh mẽ trong kiến thức đã học của chúng vì cá ngựa là những sinh vật hấp dẫn mà về mặt logic nên có biểu diễn emoji.
Vấn đề xảy ra ở giai đoạn đầu ra cuối cùng. Thành phần đầu ngôn ngữ của mô hình phải chuyển đổi các khái niệm nội bộ thành các token thực tế có thể được hiển thị. Khi nó tìm kiếm một token emoji cá ngựa và không tìm thấy, nó chọn kết quả khớp gần nhất - thường là emoji con ngựa hoặc con cá. Điều này tạo ra một vòng lặp phản hồi nơi mô hình nhìn thấy đầu ra không chính xác của chính mình và cố gắng sửa chữa nó nhiều lần.
Logit lens: Một kỹ thuật nghiên cứu kiểm tra những gì một mô hình AI đang suy nghĩ ở mỗi lớp xử lý bằng cách kiểm tra những từ hoặc token nào nó sẽ dự đoán ở giai đoạn đó.
Quy trình kỹ thuật đằng sau lỗi:
- Mô hình nhận câu hỏi về emoji cá ngựa
- Các lớp nội bộ xây dựng chính xác khái niệm "cá ngựa + emoji"
- Đầu ngôn ngữ tìm kiếm token emoji phù hợp
- Không tồn tại token emoji cá ngựa trong từ vựng
- Hệ thống xuất ra lựa chọn thay thế gần nhất (emoji ngựa/cá)
- Mô hình nhận ra đầu ra không khớp với ý định
- Cố gắng sửa lỗi, tạo ra vòng lặp phản hồi
Tại Sao Các Mô Hình Tin Rằng Emoji Tồn Tại
Niềm tin rộng rãi về một emoji cá ngựa không tồn tại không chỉ giới hạn ở các hệ thống AI. Nhiều con người cũng khăng khăng rằng họ nhớ đã sử dụng emoji như vậy, mô tả nó có màu xanh nhạt hoặc cam hồng và hướng về bên trái. Hiện tượng này, tương tự như Hiệu ứng Mandela, có thể đã ảnh hưởng đến dữ liệu huấn luyện AI.
Vì vậy nó không thực sự ảo giác - nó biểu diễn chính xác 'emoji cá ngựa' bên trong, nhưng khái niệm đó không có token tương ứng. lm_head chỉ chọn thứ gần nhất và mô hình không nhận ra cho đến khi quá muộn.
Một số yếu tố góp phần vào niềm tin sai lầm này. Cá ngựa là những sinh vật biển được yêu thích mà có vẻ như là ứng cử viên emoji hiển nhiên. Một emoji cá ngựa thực sự đã được đề xuất cho Unicode vào năm 2018 nhưng bị từ chối. Ngoài ra, một số nền tảng như Slack có các phản ứng cá ngựa tùy chỉnh không phải là một phần của tiêu chuẩn Unicode chính thức.
![]() |
---|
Bài đăng trên Reddit ghi lại sự nhầm lẫn của người dùng về emoji cá ngựa không tồn tại, minh họa hiện tượng tương tự như Hiệu ứng Mandela |
Các Mô Hình Khác Nhau, Phản Ứng Khác Nhau
Thử nghiệm trên các hệ thống AI khác nhau tiết lộ những khác biệt hành vi thú vị. GPT-4 và Claude Sonnet trả lời có 100% thời gian khi được hỏi liệu emoji cá ngựa có tồn tại không. Llama-3-70b đồng ý 83% thời gian, trong khi Mistral-tiny chỉ đồng ý 17% thời gian.
Các chiến lược phục hồi cũng khác nhau. Một số mô hình như Claude cuối cùng nhận ra lỗi của chúng giữa chừng phản hồi và tự sửa chữa. Những mô hình khác như GPT-4 có thể xoay vòng lâu hơn nhiều trước khi bỏ cuộc. Các mô hình có khả năng lý luận mới hơn có thể suy nghĩ nội bộ trước khi phản hồi xử lý câu hỏi tốt hơn nhiều, thường cung cấp thông tin chính xác về việc emoji không tồn tại.
Độ chính xác của các mô hình trên câu hỏi emoji con cá ngựa (100 lần kiểm tra cho mỗi mô hình):
- GPT-4 : 100% "Có" (không chính xác)
- Claude 4.5 Sonnet : 100% "Có" (không chính xác)
- Llama-3-70b : 83% "Có" (không chính xác)
- Mistral-tiny : 17% "Có" (không chính xác)
Một Cửa Sổ Nhìn Vào Các Hạn Chế Của AI
Lỗi emoji cá ngựa này làm nổi bật những thách thức cơ bản trong các hệ thống AI hiện tại. Các mô hình xuất sắc trong việc khớp mẫu và tạo ra các phản hồi hợp lý dựa trên dữ liệu huấn luyện, nhưng chúng gặp khó khăn với kiến thức phủ định xác định - biết những gì không tồn tại.
Vấn đề này cũng chứng minh cách các hệ thống AI có thể kế thừa các quan niệm sai lầm của con người từ dữ liệu huấn luyện của chúng. Khi số lượng lớn người tin vào điều gì đó sai, niềm tin sai đó trở thành được nhúng vào cơ sở kiến thức của mô hình.
Trong khi lỗi cụ thể này có thể có vẻ vô hại, nó tiết lộ những hiểu biết quan trọng về độ tin cậy của AI và nhu cầu về các cơ chế nền tảng tốt hơn. Một số nhà nghiên cứu cho rằng đây là lý do tại sao học tăng cường giúp các hệ thống AI - nó cung cấp cho chúng phản hồi về đầu ra thực tế của chúng thay vì chỉ các biểu diễn nội bộ.
Hiện tại, giải pháp đơn giản nhất có thể là thêm một emoji cá ngựa vào Unicode, mặc dù điều đó về cơ bản có nghĩa là thay đổi thực tế để phù hợp với cả kỳ vọng của con người và AI.