Một thí nghiệm thú vị đã thu hút sự chú ý của các nhà nghiên cứu AI và những người đam mê: mô hình ngôn ngữ mạnh nhất mà bạn có thể huấn luyện trên một chiếc laptop thông thường chỉ trong 5 phút là gì? Mặc dù nghe có vẻ như một câu hỏi ngớ ngẩn lúc đầu, nhưng kết quả đã khơi dậy những cuộc thảo luận có ý nghĩa về khả năng tiếp cận AI, hiệu quả và tương lai của việc huấn luyện mô hình cục bộ.
Thử thách này xuất phát từ một sự tò mò đơn giản nhưng đã tiết lộ những hiểu biết quan trọng về phát triển AI quy mô nhỏ. Trong thời đại mà các mô hình khổng lồ thống trị các tiêu đề báo chí, thí nghiệm này đặt câu hỏi liệu phần cứng hàng ngày có thể vẫn đóng góp một cách có ý nghĩa vào nghiên cứu và phát triển AI hay không.
Điểm tối ưu: 1.8 triệu tham số
Cấu hình chiến thắng hóa ra là một mô hình transformer nhỏ gọn với khoảng 1.8 triệu tham số, được huấn luyện trên 20 triệu token từ bộ dữ liệu TinyStories . Thiết lập này đạt được điểm perplexity là 9.6, tạo ra những câu chuyện mạch lạc dù đơn giản nhưng tuân theo các quy tắc ngữ pháp cơ bản và cấu trúc tường thuật.
Việc lựa chọn bộ dữ liệu đã chứng minh là rất quan trọng. Các thí nghiệm ban đầu với Simple English Wikipedia tạo ra đầu ra bị nhầm lẫn về mặt sự kiện, với mô hình bị ám ảnh bởi danh từ riêng và tạo ra những câu như Paris, France là một thành phố ở North Carolina . Bộ dữ liệu TinyStories , chứa những câu chuyện đơn giản được viết ở mức đọc của trẻ 4 tuổi, đã cung cấp kết quả tốt hơn nhiều cho các mô hình nhỏ để học hỏi.
TinyStories: Một bộ dữ liệu tổng hợp gồm các câu chuyện ngắn, đơn giản được thiết kế đặc biệt để huấn luyện các mô hình ngôn ngữ nhỏ
Cấu hình huấn luyện tối ưu trong 5 phút
- Kích thước mô hình: ~1.8M tham số
- Tập dữ liệu: TinyStories (20M token)
- Kiến trúc: transformer kiểu GPT với kích hoạt SwiGLU
- Số lớp: 2-3 lớp là tối ưu
- Tốc độ học: 0.001-0.002
- Perplexity cuối cùng: ~9.6
- Tốc độ huấn luyện: ~56k token/giây cho mô hình 2.5M tham số
Giới hạn phần cứng thúc đẩy đổi mới
Ràng buộc 5 phút đã buộc phải có các chiến lược tối ưu hóa sáng tạo. Các cải tiến hiệu suất truyền thống như tích lũy gradient và tối ưu hóa toán học thực sự làm chậm quá trình huấn luyện ở quy mô này. Nút thắt cổ chai lớn nhất hóa ra lại là việc khởi chạy GPU - chi phí phụ của việc nói cho bộ xử lý đồ họa biết phải làm gì.
Các cuộc thảo luận cộng đồng đã làm nổi bật cách ràng buộc này phản ánh các tình huống thực tế nơi các nhà nghiên cứu có ngân sách tính toán hạn chế hoặc cần chu kỳ lặp lại nhanh chóng. Thí nghiệm chứng minh rằng nghiên cứu AI có ý nghĩa không phải lúc nào cũng cần đến tài nguyên điện toán đám mây đắt tiền.
So sánh Hiệu suất Phần cứng
- MacBook Pro (MPS): ~3000 token/giây ở mức cơ bản
- MLX so với PyTorch: Không có sự khác biệt đáng kể về hiệu suất
- Tích lũy gradient: Làm chậm quá trình huấn luyện theo bậc độ lớn
- torch.compile và float16: Không có cải thiện đáng kể ở quy mô nhỏ
- Nút thắt cổ chai chính: Chi phí khởi động GPU, không phải khả năng tính toán
Quy luật mở rộng áp dụng ngay cả ở quy mô nhỏ
Có lẽ đáng ngạc nhiên nhất là các quy luật mở rộng Chinchilla nổi tiếng vẫn đúng ngay cả ở quy mô thu nhỏ này. Những quy luật này dự đoán kích thước mô hình tối ưu dựa trên các token huấn luyện có sẵn, và kết quả thí nghiệm khớp chặt chẽ với các dự đoán lý thuyết. Đối với các mô hình được huấn luyện với khoảng 30 triệu token trong 5 phút, kích thước tối ưu nằm trong khoảng 1-1.5 triệu tham số.
Phát hiện này cho thấy rằng các nguyên tắc AI cơ bản vẫn nhất quán trên các quy mô khác nhau rất lớn, từ các mô hình hàng tỷ tham số xuống các thí nghiệm cỡ laptop.
Xác thực Định luật Tỷ lệ Chinchilla
- Kích thước mô hình tối ưu = Tổng số token huấn luyện ÷ 20
- Mô hình 2.5M tham số: 56k token/giây → 16.8M token trong 5 phút → Kích thước tối ưu: 0.84M tham số
- Mô hình 1M tham số: 100k token/giây → 30M token trong 5 phút → Kích thước tối ưu: 1.5M tham số
- Kết quả thực nghiệm khớp chặt chẽ với các dự đoán lý thuyết
Những tác động rộng lớn hơn
Thí nghiệm đã tạo tiếng vang với cộng đồng AI vì nhiều lý do ngoài sự tò mò đơn thuần. Các nhà nghiên cứu so sánh các nghiên cứu mô hình nhỏ với việc sử dụng các sinh vật đơn giản như nấm men trong nghiên cứu sinh học - chúng cung cấp môi trường được kiểm soát để hiểu các hành vi cơ bản có thể bị che khuất trong các hệ thống lớn hơn, phức tạp hơn.
Huấn luyện mô hình nhỏ được tối ưu hóa không chỉ quan trọng cho khả năng sẵn có mà còn cho việc nghiên cứu khoa học về LLM. Chúng ta cũng cần nghiên cứu các transformer đơn giản nhất có thể thể hiện các hành vi quan tâm từ các mô hình lớn hơn nếu chúng ta hy vọng hiểu được LLM và có nhiều quyền kiểm soát hơn đối với hành vi của chúng.
Yếu tố khả năng tiếp cận cũng có ý nghĩa quan trọng. Trong khi điện toán đám mây cung cấp các lựa chọn thay thế mạnh mẽ hơn, huấn luyện cục bộ loại bỏ các lo ngại về quyền riêng tư dữ liệu, chi phí bất ngờ và quy trình phê duyệt của công ty. Đối với nhiều nhà nghiên cứu và người đam mê, việc có thể thử nghiệm ngay lập tức trên phần cứng có sẵn sẽ loại bỏ những rào cản quan trọng để tham gia.
Năng lượng so với thời gian: Một góc nhìn mới
Cuộc thảo luận cũng đã đặt ra câu hỏi về cách chúng ta đo lường hiệu quả huấn luyện AI. Một số thành viên cộng đồng cho rằng tiêu thụ năng lượng có thể là một ràng buộc có ý nghĩa hơn so với thời gian, vì nó sẽ tạo ra các so sánh công bằng hơn giữa các cấu hình phần cứng khác nhau và khuyến khích các phương pháp thực sự hiệu quả.
Góc nhìn này có thể dẫn đến các hướng nghiên cứu mới tập trung vào các phương pháp huấn luyện tiết kiệm năng lượng, điều này sẽ có lợi cho cả người dùng laptop và các trung tâm dữ liệu quy mô lớn quan tâm đến tác động môi trường.
Nhìn về tương lai
Mặc dù huấn luyện laptop 5 phút rõ ràng không thể cạnh tranh với phát triển AI quy mô công nghiệp, thí nghiệm chứng minh rằng nghiên cứu và thử nghiệm có ý nghĩa vẫn có thể thực hiện được trên phần cứng tiêu dùng. Khi bộ xử lý laptop trở nên mạnh mẽ hơn và các kỹ thuật huấn luyện hiệu quả hơn, khả năng của huấn luyện cục bộ nhanh chóng có thể sẽ tiếp tục cải thiện.
Thí nghiệm này phục vụ như một lời nhắc nhở rằng đổi mới trong AI không phải lúc nào cũng cần đến ngân sách lớn nhất hoặc phần cứng mạnh nhất. Đôi khi những hiểu biết thú vị nhất đến từ việc làm việc trong những ràng buộc chặt chẽ và tìm ra các giải pháp sáng tạo cho những thách thức dường như không thể.
Tham khảo: What's the strongest AI model you can train on a laptop in five minutes?