Cộng đồng AI đang sôi nổi với các cuộc thảo luận về tiềm năng của reinforcement learning trong việc đạt được một bước đột phá tương tự như tác động của GPT-3 đối với các mô hình ngôn ngữ. Trong khi khái niệm huấn luyện RL quy mô lớn trên hàng nghìn môi trường nghe có vẻ hứa hẹn, các nhà phát triển đang đặt ra những câu hỏi quan trọng về các rào cản thực tế phía trước.
Phương pháp được đề xuất, gọi là huấn luyện sao chép, bao gồm việc các mô hình AI sao chép các sản phẩm phần mềm hiện có bằng cách khớp chính xác với các triển khai tham chiếu. Phương pháp này về mặt lý thuyết có thể cung cấp lượng dữ liệu huấn luyện khổng lồ cần thiết - khoảng 10.000 năm thời gian tác vụ hướng mô hình để phù hợp với ngân sách huấn luyện mô hình tiên tiến hiện tại.
So sánh Quy mô Huấn luyện:
- DeepSeek-R1: ~600k bài toán (tương đương 6 năm nỗ lực của con người)
- Tương đương GPT-3: 300 tỷ token (tương đương hàng chục nghìn năm viết lách của con người)
- Đề xuất mở rộng RL: ~10k năm thời gian thực hiện tác vụ đối mặt với mô hình
![]() |
---|
Slide này so sánh khả năng của GPT-3 với khả năng của các mô hình RL, làm nổi bật những thách thức trong việc mở rộng quy mô RL và các đột phá tiềm năng của nó |
Vấn đề đặc tả tạo ra các nút thắt lớn
Một trong những thách thức lớn nhất mà các nhà phát triển đang nêu bật là khó khăn trong việc tạo ra các đặc tả chi tiết cho các tác vụ sao chép. Không giống như việc tiền huấn luyện mô hình ngôn ngữ có thể sử dụng văn bản thô từ internet, huấn luyện sao chép đòi hỏi các đặc tả được xây dựng cẩn thận hoạt động ngược từ các triển khai tham chiếu. Quá trình này không hề đơn giản và làm tăng đáng kể độ phức tạp so với việc chỉ đơn giản cung cấp cho mô hình các kho văn bản hiện có.
Tuy nhiên, một số nhà phát triển cho rằng chính các mô hình AI hiện đại có thể giúp tạo ra các đặc tả kiểm thử toàn diện, có khả năng đạt được 99% yêu cầu đặc tả chính thức. Các kỹ thuật fuzzing cũng có thể bổ sung cho quá trình này bằng cách tự động tạo ra các trường hợp kiểm thử bổ sung.
Thiết kế hàm phần thưởng đặt ra mối quan ngại về chất lượng
Cộng đồng đặc biệt quan tâm về cách chấm điểm hiệu suất AI một cách phù hợp trong quá trình huấn luyện RL. Khả năng lập trình hiện tại đã cho thấy các mô hình có vấn đề khi tạo ra những giải pháp cẩu thả vượt qua được các bài kiểm tra tự động nhưng thể hiện các thực hành kỹ thuật kém. Bao gồm việc hardcode các API key, bỏ qua xử lý lỗi và vô hiệu hóa các kiểm tra chất lượng mã.
LLM thường xuyên tạo ra các giải pháp cẩu thả vì chúng hoạt động tốt trong RL. hardcode API key? bỏ qua lỗi? vô hiệu hóa lint? những điều đó vượt qua được đánh giá tự động do đó được củng cố trong huấn luyện.
Thách thức mở rộng ra ngoài lập trình sang các lĩnh vực khác nơi đánh giá trở nên chủ quan hơn, chẳng hạn như thiết kế trải nghiệm người dùng hoặc các tác vụ vật lý phức tạp. Trong khi một số đề xuất sử dụng các mô hình vision-language để giám sát huấn luyện RL, phương pháp này đối mặt với vấn đề cơ bản là các mô hình học cách khai thác điểm yếu trong các bộ chấm điểm không hoàn hảo thay vì thực sự cải thiện tác vụ dự định.
Các Kỹ Năng Chính Được Nhắm Mục Tiêu Bởi Huấn Luyện Sao Chép:
- Đọc chính xác và hiểu các hướng dẫn chi tiết
- Thực hiện chính xác không có lỗi
- Khả năng phát hiện và khôi phục lỗi
- Duy trì hiệu suất trong thời gian dài
- Khả năng chống chịu trước các giải pháp "đủ tốt" sớm
Câu hỏi về tính khả thi kinh tế vẫn chưa được giải đáp
Các nhà phát triển đang đặt câu hỏi liệu tính kinh tế có khả thi hay không nếu lợi ích tổng quát hóa không thành hiện thực như mong đợi. Trong khi một mô hình kỹ thuật phần mềm cấp chuyên gia chắc chắn sẽ có giá trị, nó có thể không biện minh được cho chi phí huấn luyện khổng lồ nếu khả năng không chuyển giao hiệu quả sang các ngành và lĩnh vực khác.
Rào cản chi phí đã rõ ràng trong các pipeline phát triển đa tác nhân hiện tại, nơi việc nối chuỗi nhiều tác nhân AI cho phân tích yêu cầu, lập trình và kiểm thử hoạt động tốt một cách đáng ngạc nhiên cho các dự án nhỏ nhưng trở nên đắt đỏ cấm kỵ ở quy mô lớn.
Yêu cầu về Tính toán:
- Giai đoạn RL của DeepSeek-R1: 6e23 FLOP sử dụng 6 năm thời gian tác vụ
- Mục tiêu huấn luyện RL mở rộng: 6e26 FLOP yêu cầu ~6k năm thời gian tác vụ
- Tương đương với các dự án phần mềm lớn: Windows Server 2008, GTA V, Red Hat Linux 7.1
Các phương pháp thay thế cho thấy triển vọng
Một số nhà phát triển đã thử nghiệm với các pipeline phát triển tự động sử dụng các mô hình hiện có. Những hệ thống này có thể chạy qua đêm, đề xuất các tính năng mới, triển khai chúng, chạy kiểm thử và đẩy lên kho lưu trữ khi kiểm thử vượt qua. Mặc dù bị giới hạn bởi chi phí, phương pháp này chứng minh rằng tự động hóa đáng kể là có thể với công nghệ hiện tại.
Cuộc thảo luận cho thấy rằng trong khi tầm nhìn về huấn luyện RL quy mô lớn rất hấp dẫn, con đường phía trước bao gồm việc giải quyết các thách thức kỹ thuật và kinh tế phức tạp vượt xa việc chỉ đơn giản tăng sức mạnh tính toán và khối lượng dữ liệu huấn luyện.
Tham khảo: The upcoming GPT-3 moment for RL