Mô Hình Ngôn Ngữ Fibonacci Của Tiểu Thuyết Gia Gây Tranh Luận Về Nhận Dạng Mẫu So Với Pareidolia Trong AI

Nhóm Cộng đồng BigGo
Mô Hình Ngôn Ngữ Fibonacci Của Tiểu Thuyết Gia Gây Tranh Luận Về Nhận Dạng Mẫu So Với Pareidolia Trong AI

Cách tiếp cận thử nghiệm của một tiểu thuyết gia đối với mô hình hóa ngôn ngữ sử dụng dãy số Fibonacci đã châm ngòi cho cuộc thảo luận sôi nổi trong cộng đồng công nghệ về việc liệu các mẫu toán học trong văn bản có mang ý nghĩa thực sự hay chỉ là trường hợp nhìn thấy các mẫu ở nơi không tồn tại.

Gabriel Smith , chỉ làm việc với 4MB dữ liệu văn xuôi, đã tạo ra thứ mà ông gọi là FMLLM (Fibonacci Language Model) - một hệ thống phân tích các từ xuất hiện tại các khoảng cách Fibonacci (cách nhau 2, 3, 5, 8, 13, 21 vị trí) thay vì các từ liền kề như các mô hình ngôn ngữ truyền thống. Cách tiếp cận này xuất phát từ nền tảng của ông với tư cách là một tiểu thuyết gia, nơi ông theo dõi các vị trí từ quan trọng trong bảng tính và nhận thấy chúng thường tạo thành các mẫu xo螺旋.

Khoảng cách Fibonacci được sử dụng: Các vị trí cách từ mục tiêu 2, 3, 5, 8, 13, 21, v.v.

Sự Hoài Nghi Của Cộng Đồng Về Tính Hợp Lệ Của Mẫu

Cộng đồng công nghệ đã đặt ra những câu hỏi nghiêm túc về việc liệu tính mạch lạc rõ ràng trong đầu ra của mô hình có đến từ chính các khoảng cách Fibonacci hay từ các quy trình lọc mạnh mẽ. Các nhà phê bình chỉ ra rằng hệ thống sử dụng sentence transformers để lọc một cách quyết liệt các ứng viên được tạo ra, có khả năng tạo ra ảo giác về ý nghĩa thông qua xử lý hậu kỳ thay vì cách tiếp cận toán học cơ bản.

Một lời phê bình đặc biệt sắc sảo cho rằng đây có thể là trường hợp pareidolia ngôn ngữ - tương tự như việc nhìn thấy khuôn mặt trong mây - nơi bộ não con người tạo ra các kết nối có ý nghĩa giữa các từ được liên kết ngẫu nhiên. Mối quan ngại là bất kỳ tính mạch lạc ngữ nghĩa nào cũng có thể là kết quả của khả năng khớp mẫu của bộ não thay vì cấu trúc ngôn ngữ thực sự.

Lọc dữ liệu: Sử dụng NLTK cho stop-words, Spacy cho gắn thẻ từ loại, và sentence transformers cho xếp hạng tính mạch lạc

Triển Khai Kỹ Thuật Đặt Ra Câu Hỏi

Mô hình hoạt động bằng cách xây dựng các bảng dự đoán hai chiều: nếu từ X xuất hiện tại vị trí N, những từ nào xuất hiện ở khoảng cách Fibonacci về phía trước và phía sau? Trong quá trình tạo sinh, các từ chỉ được chọn nếu chúng cho thấy xác suất theo cả hai hướng. Tuy nhiên, một số thành viên cộng đồng đã lưu ý rằng điều này nghe có vẻ rất giống với chuỗi Markov, một kỹ thuật tạo văn bản đã được thiết lập tốt.

Việc thiếu các đối chứng phù hợp đã thu hút sự chỉ trích đáng kể. Các thành viên cộng đồng đang kêu gọi so sánh giữa các khoảng cách Fibonacci và các khoảng cách ngẫu nhiên để xác định xem dãy số toán học có cung cấp bất kỳ lợi thế thực sự nào so với việc chọn lựa ngẫu nhiên hay không.

Phương pháp tạo sinh: Xác thực hai chiều yêu cầu các từ phải thể hiện xác suất theo cả hai hướng tiến và lùi

Kết Quả Trái Chiều Thúc Đẩy Tranh Luận Thêm

Các ví dụ của Smith cho thấy những đầu ra thú vị như việc biến đổi television thành các từ liên quan theo chủ đề bao gồm producer, channels, và electromagnetic impulses. Đối với đầu vào sarah loves my french toast, hệ thống đã tạo ra sarah loves my french toast a piney connubial produit - mà Smith diễn giải là tham chiếu đến xi-rô maple (piney), tình yêu (connubial), và từ tiếng Pháp có nghĩa là sản phẩm.

Tuy nhiên, những người hoài nghi lập luận rằng những diễn giải này thể hiện thiên kiến xác nhận thay vì sự hiểu biết thực sự của AI. Mô hình dấu câu, được huấn luyện trên cùng bộ dữ liệu 4MB, cho thấy kết quả trái chiều - đặt đúng một số dấu phẩy và dấu chấm trong khi mắc lỗi rõ ràng ở những chỗ khác.

Ví dụ Đầu vào/Đầu ra: "television" → "television producer widest impunity exposure autobiographical suffering scrutinizing vulgarity worship america..."

Ý Nghĩa Rộng Lớn Hơn Đối Với Nghiên Cứu AI

Cuộc tranh luận làm nổi bật những câu hỏi cơ bản về nhận dạng mẫu trong phát triển AI. Trong khi cách tiếp cận của Smith về việc nhìn ra ngoài các từ liền kề thách thức tư duy thông thường về mô hình hóa ngôn ngữ, cộng đồng vẫn chia rẽ về việc liệu dãy số Fibonacci có đại diện cho một bước đột phá có ý nghĩa hay là một trường hợp phức tạp của việc tìm kiếm mẫu trong tiếng ồn.

Cuộc thảo luận đã thu hút sự so sánh với các nỗ lực tìm kiếm mẫu khác như chiêm tinh học và mã Bible, cho thấy một số người xem điều này là khoa học giả tạo thay vì nghiên cứu AI hợp pháp. Những người khác thấy cách tiếp cận này đủ thú vị để đáng được điều tra thêm với các đối chứng khoa học phù hợp.

Tính đến tháng 8 năm 2025, Smith đã công bố một số mã nguồn và tiến hành một nghiên cứu nhỏ cho thấy các đám mây từ được tạo bởi Fibonacci có thể cải thiện các nhiệm vụ viết sáng tạo khi được thêm vào các lời nhắc. Tuy nhiên, quy mô mẫu vẫn còn quá nhỏ để có kết luận chắc chắn, khiến cộng đồng công nghệ chia rẽ giữa sự tò mò và hoài nghi về cách tiếp cận phi truyền thống này đối với mô hình hóa ngôn ngữ.

Tham khảo: FMLLM