Cộng đồng AI đặt câu hỏi về việc mở rộng quy mô RL khổng lồ sau khi Grok 4 cho thấy cải tiến tối thiểu bất chấp đầu tư tính toán khổng lồ

Nhóm Cộng đồng BigGo
Cộng đồng AI đặt câu hỏi về việc mở rộng quy mô RL khổng lồ sau khi Grok 4 cho thấy cải tiến tối thiểu bất chấp đầu tư tính toán khổng lồ

Cộng đồng trí tuệ nhân tạo đang vật lộn với một câu hỏi đáng lo ngại: việc đầu tư khối lượng tính toán khổng lồ vào học tăng cường có thực sự hiệu quả không? Cuộc tranh luận này đã trở nên gay gắt hơn sau những báo cáo về hiệu suất của Grok 4 , dường như chỉ cho thấy những cải tiến nhỏ bất chấp những nỗ lực mở rộng quy mô đáng kể.

Cuộc thảo luận tập trung xung quanh một thách thức cơ bản trong phát triển AI - liệu việc mở rộng quy mô học tăng cường lên mức sức mạnh tính toán chưa từng có, cụ thể là 10^26 FLOPs, có thể mang lại những tiến bộ có ý nghĩa hay không. FLOPs, hay các phép toán dấu phẩy động trên giây, được sử dụng như tiêu chuẩn đo lường cường độ tính toán trong các mô hình học máy.

Tham chiếu Quy mô Tính toán:

  • Quy mô Mục tiêu: 10^26 FLOPs (phép toán dấu phẩy động)
  • Các Mô hình Thú vị Hiện tại: trong khoảng 10-20K FLOPs
  • Tăng Quy mô: Cần có bước nhảy vọt nhiều bậc độ lớn
  • Đo lường: FLOPs đóng vai trò là tiêu chuẩn đánh giá cho kích thước mô hình

Kết quả thực tế thách thức lý thuyết mở rộng quy mô

Bằng chứng nổi bật nhất đến từ dữ liệu hiệu suất của Grok 4 . Theo các cuộc thảo luận trong cộng đồng, Grok 4 đại diện cho việc mở rộng quy mô học tăng cường khổng lồ so với người tiền nhiệm Grok 3 . Tuy nhiên, những cải tiến trên các bài kiểm tra tiêu chuẩn lại nhỏ một cách đáng thất vọng, và người dùng báo cáo sự khác biệt trải nghiệm tối thiểu.

Điều này đặt ra những câu hỏi nghiêm túc về việc liệu những lợi ích lý thuyết của việc mở rộng quy mô có chuyển đổi thành những cải tiến thực tế hay không. Khoảng cách giữa đầu tư tính toán và mức tăng hiệu suất thực tế cho thấy rằng việc đơn giản chỉ thêm sức mạnh xử lý có thể không phải là giải pháp thần kỳ mà nhiều người hy vọng.

So sánh mô hình Grok:

  • Grok 3: Mô hình cơ sở với triển khai RL tiêu chuẩn
  • Grok 4: Phiên bản RL được mở rộng quy mô lớn của Grok 3
  • Khoảng cách hiệu suất: Cải thiện tối thiểu trên các bài kiểm tra chuẩn mặc dù mở rộng quy mô đáng kể
  • Trải nghiệm người dùng: Những khác biệt về trải nghiệm được báo cáo là không đáng kể

Các phương pháp kỹ thuật đang bị xem xét kỹ lưỡng

Cộng đồng nghiên cứu AI đang khám phá các giải pháp kỹ thuật khác nhau để làm cho việc mở rộng quy mô RL hiệu quả hơn. Một phương pháp đầy hứa hẹn bao gồm việc cho phép các mô hình suy nghĩ trước khi đưa ra dự đoán trong quá trình huấn luyện. Phương pháp này sẽ cho phép các mô hình sử dụng các token tính toán bổ sung cho lý luận nội bộ, với các hình phạt được áp dụng để ngăn chặn việc lạm dụng các tài nguyên suy nghĩ này.

Một cách rất dài để nói rằng trong quá trình tiền huấn luyện, hãy để các mô hình suy nghĩ trước khi tiếp tục dự đoán token tiếp theo và sau đó áp dụng những tổn thất đó cho các gradient token suy nghĩ cũng vậy.

Kỹ thuật này có thể giúp các mô hình sử dụng tốt hơn ngân sách tính toán của chúng, có khả năng dẫn đến những cải tiến có ý nghĩa hơn khi mở rộng quy mô.

Nút thắt cổ chai dữ liệu nổi lên như thách thức chính

Ngoài việc mở rộng quy mô tính toán, các nhà nghiên cứu đối mặt với một vấn đề cơ bản hơn: tìm đủ dữ liệu huấn luyện chất lượng cao ở đâu. Phương pháp truyền thống tạo ra các môi trường huấn luyện tùy chỉnh, dù được tạo thủ công hay tự động, đã chứng minh là không đủ cho yêu cầu dữ liệu khổng lồ của các hệ thống RL được mở rộng quy mô.

Vấn đề khan hiếm dữ liệu này trở nên quan trọng hơn khi các mô hình phát triển lớn hơn. Không có đủ dữ liệu huấn luyện, ngay cả những tài nguyên tính toán mạnh nhất cũng có thể thất bại trong việc mang lại những cải tiến mong đợi.

Các Thách Thức Kỹ Thuật Đã Được Xác Định:

  • Thiếu hụt dữ liệu để huấn luyện ở quy mô lớn
  • Hiệu quả hạn chế của việc tạo ra môi trường (thủ công/tự động)
  • Khoảng cách giữa đầu tư tính toán và mức tăng hiệu suất
  • Cần có các thuật toán tốt hơn ngoài việc mở rộng quy mô thô

Cộng đồng tìm kiếm sự rõ ràng về sự khác biệt giữa các mô hình

Cuộc tranh luận về mở rộng quy mô cũng đã làm nổi bật việc công chúng biết quá ít về sự khác biệt kỹ thuật giữa các mô hình AI lớn. Các thành viên cộng đồng đang yêu cầu tính minh bạch hơn về cách các mô hình khác nhau tiếp cận việc mở rộng quy mô và những kỹ thuật cụ thể mà mỗi mô hình sử dụng.

Việc thiếu thông tin rõ ràng khiến việc đánh giá liệu những thất bại trong mở rộng quy mô là do hạn chế lý thuyết hay vấn đề triển khai trở nên khó khăn. Sự không chắc chắn này làm phức tạp những nỗ lực xác định con đường tốt nhất cho việc phát triển RL .

Tình hình hiện tại cho thấy rằng lĩnh vực AI có thể cần phải suy nghĩ lại cách tiếp cận của mình đối với việc mở rộng quy mô. Thay vì đơn giản chỉ tăng sức mạnh tính toán, các nhà nghiên cứu có thể cần tập trung vào các thuật toán hiệu quả hơn, sử dụng dữ liệu tốt hơn, và các kỹ thuật huấn luyện mới có thể mang lại những cải tiến có ý nghĩa mà không cần yêu cầu nhiều tài nguyên hơn theo cấp số nhân.

Tham khảo: How to scale RL to 10^26 FLOPs