Mô Hình Siêu Nhỏ 7 Triệu Tham Số Tuyên Bố Vượt Trội Các Mô Hình Ngôn Ngữ Lớn Trong Các Tác Vụ Lý Luận Phức Tạp

Nhóm Cộng đồng BigGo
Mô Hình Siêu Nhỏ 7 Triệu Tham Số Tuyên Bố Vượt Trội Các Mô Hình Ngôn Ngữ Lớn Trong Các Tác Vụ Lý Luận Phức Tạp

Một bài nghiên cứu mới đã gây ra cuộc tranh luận sôi nổi trong cộng đồng AI khi tuyên bố rằng một mô hình siêu nhỏ với 7 triệu tham số có thể vượt trội các mô hình ngôn ngữ khổng lồ trong các tác vụ lý luận phức tạp. Mô hình Tiny Recursion Model ( TRM ) được báo cáo đạt độ chính xác 45% trên benchmark ARC-AGI-1 và 8% trên ARC-AGI-2 , sử dụng ít hơn 0.01% số tham số có trong các mô hình như DeepSeek R1 hoặc Gemini 2.5 Pro .

So sánh hiệu suất TRM với các mô hình ngôn ngữ lớn

Mô hình Tham số Độ chính xác ARC-AGI-1 Độ chính xác ARC-AGI-2
TRM 7M 45% 8%
DeepSeek R1 ~70B+ Thấp hơn TRM* Thấp hơn TRM*
Gemini 2.5 Pro ~1.5T+ Thấp hơn TRM* Thấp hơn TRM*
o3-mini Không rõ Thấp hơn TRM* Thấp hơn TRM*

*Điểm số cụ thể không được cung cấp trong tài liệu nguồn

Một bài nghiên cứu thảo luận về Tiny Recursion Model ( TRM ) và hiệu suất đáng ngạc nhiên của nó trong các tác vụ lý luận phức tạp chỉ với 7 triệu tham số
Một bài nghiên cứu thảo luận về Tiny Recursion Model ( TRM ) và hiệu suất đáng ngạc nhiên của nó trong các tác vụ lý luận phức tạp chỉ với 7 triệu tham số

Cộng Đồng Hoài Nghi Về Điều Kiện Đánh Giá

Cộng đồng nghiên cứu AI đã nêu ra những lo ngại đáng kể về các phương pháp đánh giá được sử dụng trong nghiên cứu này. Các nhà phê bình chỉ ra một phân tích chi tiết của các tổ chức ARC-AGI cho thấy những tuyên bố đột phá tương tự từ Hierarchical Reasoning Model ( HRM ) trước đó là gây hiểu lầm. Khi được kiểm tra trong điều kiện tiêu chuẩn được sử dụng bởi các mô hình ngôn ngữ thương mại, những cải thiện hiệu suất phần lớn đã biến mất. Cộng đồng lưu ý rằng cả HRM và TRM đều sử dụng các thiết lập huấn luyện chuyên biệt bao gồm tăng cường dữ liệu và huấn luyện thời gian kiểm tra mà thường không có sẵn cho các mô hình đa mục đích.

Benchmark ARC-AGI , tập trung vào các tác vụ lý luận không gian, đã trở thành nguồn gây tranh cãi do những gì một số người coi là các tuyên bố thổi phồng. Một thành viên cộng đồng lưu ý rằng khi một transformer tiêu chuẩn được kiểm tra trong cùng điều kiện chuyên biệt như HRM , nó đạt được hiệu suất tương đương, cho thấy kiến trúc bản thân không phải là yếu tố then chốt.

Phạm Vi Hạn Chế và Ứng Dụng Thực Tế

Mặc dù kết quả có vẻ ấn tượng trên giấy tờ, các chuyên gia nhấn mạnh những hạn chế đáng kể làm hạn chế tính hữu dụng trong thế giới thực. Mô hình xuất sắc đặc biệt trong các câu đố lý luận không gian nhưng chưa chứng minh được khả năng rộng rãi cần thiết cho các ứng dụng AI tổng quát. Không giống như các mô hình ngôn ngữ lớn có thể xử lý các tác vụ đa dạng từ viết lách đến câu hỏi thực tế, những mô hình đệ quy nhỏ này sẽ yêu cầu hệ thống bộ nhớ ngoài và không thể dựa vào kiến thức được lưu trữ.

Nó sẽ không tốt chút nào với các câu hỏi thực tế, ngay từ đầu; nó sẽ phải dựa vào bộ nhớ ngoài. Mọi thứ sẽ phải được lý luận từ các nguyên tắc đầu tiên, không có kiến thức.

Hạn chế này có nghĩa là cách tiếp cận này có thể hoạt động tốt nhất như một mô-đun lý luận chuyên biệt thay vì thay thế cho các hệ thống AI đa mục đích. Cộng đồng đề xuất những mô hình này có thể phục vụ như các công cụ chuyên dụng cho các tác vụ logic cụ thể trong khi các mô hình lớn hơn xử lý truy xuất kiến thức và tạo ngôn ngữ.

Thông số kỹ thuật chính

  • Kiến trúc: Mạng nhỏ đơn lẻ chỉ có 2 lớp
  • Dữ liệu huấn luyện: Bộ dữ liệu nhỏ (~1000 ví dụ)
  • Quy trình đệ quy: Tối đa K bước cải thiện với cập nhật trạng thái tiềm ẩn
  • Chuyên môn hóa: Các tác vụ lý luận không gian (điểm chuẩn ARC-AGI )
  • Hạn chế: Không lưu trữ kiến thức thực tế, yêu cầu hệ thống bộ nhớ ngoài

Tác Động Kinh Tế và Kỹ Thuật

Bất chấp sự hoài nghi, một số thành viên cộng đồng thấy tiềm năng cho những thay đổi đáng kể trong kinh tế AI nếu cách tiếp cận này chứng minh khả thi ở quy mô lớn. Khả năng đạt được hiệu suất lý luận mạnh mẽ với tài nguyên tính toán tối thiểu có thể định hình lại các khoản đầu tư trung tâm dữ liệu và làm cho AI dễ tiếp cận hơn. Tuy nhiên, những người khác lập luận rằng ngay cả với các mô hình hiệu quả hơn, nhu cầu về sức mạnh tính toán sẽ đơn giản chuyển sang các ứng dụng khác như tạo video.

Cuộc thảo luận tiết lộ một căng thẳng rộng lớn hơn trong phát triển AI giữa việc mở rộng quy mô các kiến trúc hiện có và khám phá các cách tiếp cận hoàn toàn khác biệt. Trong khi các mô hình ngôn ngữ hiện tại dựa vào các tập dữ liệu khổng lồ và sức mạnh tính toán, những phương pháp lý luận đệ quy này cố gắng đạt được trí thông minh thông qua đổi mới kiến trúc thay vì mở rộng quy mô bằng sức mạnh thô.

Nghiên cứu này đại diện cho một hướng thú vị cho phát triển AI, nhưng sự đồng thuận của cộng đồng cho thấy cần có đánh giá nghiêm ngặt hơn trong điều kiện tiêu chuẩn trước khi đưa ra kết luận về tiềm năng thực sự của nó.

Tham khảo: Less is More: Recursive Reasoning with Tiny Networks