Một nhà phát triển đã tạo ra một hạ tầng học tăng cường ấn tượng có tên Terminal-Bench-RL để huấn luyện các AI agent thực hiện các tác vụ terminal, nhưng dự án này làm nổi bật một thách thức ngày càng gia tăng trong phát triển AI: chi phí cấm đoán để thực sự huấn luyện các mô hình cạnh tranh.
Dự án này thể hiện thành tựu kỹ thuật trong việc xây dựng hạ tầng huấn luyện có thể mở rộng, có khả năng xử lý hơn 1 triệu bước mỗi giây trên nhiều node tính toán. Tuy nhiên, cuộc thảo luận trong cộng đồng đã tiết lộ một sự phân biệt quan trọng ban đầu khiến nhiều người quan sát bối rối.
Thông số kỹ thuật hạ tầng đào tạo:
- Khả năng mở rộng: >1 triệu bước/giây trên 8+ nút
- Thuật toán: Group Relative Policy Optimization ( GRPO )
- Hỗ trợ phần cứng: Cấu hình 4-32 GPU
- Độ dài chuỗi: Tối đa 12.710 token
- Thời gian đào tạo: 15 phút mỗi lần xử lý tập dữ liệu
- Bộ nhớ: 1,5GB tensor mỗi instance
Thành tựu thực tế so với tuyên bố marketing
Các thành viên cộng đồng đã nhanh chóng làm rõ những gì thực sự đã đạt được so với những gì dự án có vẻ như đang tuyên bố. Nhà phát triển đã xây dựng hạ tầng huấn luyện tinh vi nhưng thực tế không sử dụng nó để huấn luyện mô hình do hạn chế về chi phí. Thay vào đó, họ đạt được điểm số 13.75% trên Terminal-Bench bằng cách sử dụng kỹ thuật prompt engineering và scaffolding tùy chỉnh với mô hình Qwen3-32B - không có việc huấn luyện nào được thực hiện.
Sự phân biệt này quan trọng vì nó cho thấy sự khác biệt giữa việc có khả năng kỹ thuật để xây dựng hệ thống huấn luyện và việc có nguồn lực để thực sự vận hành chúng. Bản thân hạ tầng này đại diện cho công việc kỹ thuật đáng kể, bao gồm nhiều bộ kỹ năng từ điện toán phân tán đến học tăng cường.
Kết quả Hiệu suất:
- Điểm Terminal-Bench: 13.75% (chỉ sử dụng kỹ thuật prompt engineering)
- Mô hình Cơ sở: Qwen3-32B
- Phương pháp: Scaffolding tùy chỉnh và system prompts
- Chi phí Huấn luyện: Vài nghìn USD (chỉ chi phí hạ tầng)
- Huấn luyện Thực tế: Không hoàn thành do hạn chế về chi phí
Vấn đề nghèo GPU
Dự án này phơi bày những gì một số người trong cộng đồng gọi là nghèo GPU - thực tế là các nhà phát triển cá nhân và các nhóm nhỏ thường thiếu nguồn lực tính toán để cạnh tranh với các phòng thí nghiệm AI lớn hơn. Mặc dù nhà phát triển đã chi ra những gì có vẻ như hàng nghìn đô la Mỹ cho dự án, nhưng vẫn không đủ để tiến hành các lần chạy huấn luyện có ý nghĩa.
Việc bạn đã chi ra hàng nghìn đô la (theo như có vẻ), và thành công vượt qua GPT4.1 là một cái nhìn sâu sắc tuyệt vời về rào cản của các phòng thí nghiệm AI lớn.
Bình luận này làm nổi bật cách rào cản chi phí tạo ra một rào cản đáng kể xung quanh các công ty AI lớn, có khả năng hạn chế sự đổi mới chỉ dành cho các tổ chức được tài trợ tốt.
![]() |
---|
Các chỉ số hiệu suất cho GPU NVIDIA H100 , minh họa những thách thức về tính khả dụng của tài nguyên trong việc huấn luyện AI |
Hạ tầng kỹ thuật và sự quan tâm của cộng đồng
Bất chấp những hạn chế về chi phí, công việc kỹ thuật đã tạo ra sự quan tâm thực sự. Hệ thống sử dụng VERL (framework học tăng cường của Volcengine) bên dưới và triển khai Group Relative Policy Optimization (GRPO) để huấn luyện. Hạ tầng hỗ trợ các cấu hình phần cứng khác nhau và bao gồm các hệ thống giám sát và đánh giá toàn diện.
Một số thành viên cộng đồng đề xuất crowdfunding như một giải pháp tiềm năng, với ước tính rằng 30,000-50,000 đô la Mỹ có thể đủ cho các lần chạy huấn luyện có ý nghĩa. Đề xuất này phản ánh sự quan tâm ngày càng tăng trong việc dân chủ hóa quyền truy cập vào nguồn lực huấn luyện AI.
Ước tính Chi phí:
- Chi tiêu Hiện tại: Hàng nghìn USD ở mức thấp
- Ước tính Chi phí Đào tạo: 30.000-50.000 USD
- Hạ tầng: Tích hợp framework VERL
- Triển khai: Quản lý môi trường dựa trên Docker
![]() |
---|
Giao diện giám sát hiển thị trạng thái và các chỉ số hiệu suất của nhiều GPU, làm nổi bật cơ sở hạ tầng đằng sau việc đào tạo AI |
Tác động đối với phát triển AI
Dự án minh họa một xu hướng rộng lớn hơn nơi các nhà phát triển cá nhân có thể xây dựng hạ tầng AI tinh vi nhưng gặp khó khăn trong việc chi trả để sử dụng nó một cách hiệu quả. Điều này tạo ra một hệ thống hai tầng nơi đổi mới kỹ thuật là có thể nhưng ứng dụng thực tế vẫn bị hạn chế bởi nguồn lực tài chính.
Công việc này cũng chứng minh rằng những cải tiến hiệu suất đáng kể vẫn có thể đạt được thông qua kỹ thuật prompt engineering thông minh và thiết kế hệ thống, ngay cả khi không có các lần chạy huấn luyện đắt đỏ. Điều này cho thấy rằng sự đổi mới trong AI không phải lúc nào cũng yêu cầu ngân sách tính toán khổng lồ, mặc dù nó có hạn chế trần của những gì có thể đạt được.
Tham khảo: Terminal-Bench-RL: Training Long-Horizon Terminal Agents with Reinforcement Learning
![]() |
---|
Biểu đồ hiển thị sự tiến triển điểm số qua các bước, làm nổi bật những cải thiện hiệu suất có thể đạt được mà không cần tài nguyên huấn luyện phức tạp |