Một bài báo gần đây tuyên bố rằng robotics đã được giải quyết một cách tình cờ thông qua V-JEPA 2 , một mô hình AI dựa trên video được huấn luyện trên hàng triệu giờ nội dung YouTube , đã gây ra cuộc tranh luận gay gắt trong cộng đồng công nghệ. Mặc dù nghiên cứu này trình bày những tiến bộ thú vị trong điều khiển robot, các chuyên gia đang đặt câu hỏi về cả độ chính xác của các tuyên bố và liệu đột phá này có thực sự mang tính cách mạng như đã trình bày hay không.
Thông số kỹ thuật của mô hình:
- Bộ mã hóa: ViT-g với 1 tỷ tham số
- Bộ dự đoán: transformer 300 triệu tham số (biến thể V-JEPA 2-AC)
- Dữ liệu huấn luyện: 22 triệu video + 1 triệu hình ảnh
- Huấn luyện robot: 62 giờ quay phim cánh tay robot Franka
Độ Chính xác Kỹ thuật Bị Chỉ trích
Các thành viên cộng đồng đã xác định nhiều lỗi thực tế và sự không nhất quán trong báo cáo gốc. Một vấn đề đặc biệt rõ ràng liên quan đến dữ liệu mâu thuẫn về kích thước bộ dữ liệu huấn luyện - bài báo đề cập đến cả 22 triệu video và một tỷ video YouTube mà không có sự làm rõ. Như một độc giả đã chỉ ra, sự nhầm lẫn xuất phát từ việc hiểu sai rằng YT-Temporal-1B đề cập đến một tỷ khung hình video, không phải một tỷ video riêng biệt.
Chính phong cách viết đã làm dấy lên những cờ đỏ trong số các độc giả, với một số người lưu ý rằng việc sử dụng thường xuyên các meme internet lỗi thời và các giải thích kỹ thuật không nhất quán cho thấy bài báo có thể đã được tạo ra hoặc chỉnh sửa nhiều bởi các công cụ AI . Sự hiện diện của các cụm từ như ngmi (not gonna make it) và các tham chiếu đến doge memes trong năm 2025 khiến nhiều người cảm thấy được chèn một cách giả tạo hơn là viết kỹ thuật tự nhiên.
Tuyên bố về Hiệu suất Bị Đặt câu hỏi
Mặc dù V-JEPA 2 thực sự cho thấy kết quả đầy hứa hẹn trong các nhiệm vụ điều khiển robot, cộng đồng đang phản đối lại câu chuyện robotics đã được giải quyết. Tỷ lệ thành công được báo cáo là 65% cho việc nắm cốc và 65-80% cho các hoạt động nhặt và đặt, mặc dù đáng chú ý, vẫn chưa đạt đến đột phá cách mạng mà tiêu đề gợi ý.
Họ đang đạt được 65% thành công trên các nhiệm vụ rất đơn giản.
Các nhà phê bình cũng lưu ý rằng hiệu suất tương tự hoặc tốt hơn đã được đạt được bởi các phương pháp khác, bao gồm các mô hình học tập bắt chước flow-matching và các mô hình nền tảng thế giới của NVIDIA . Cái nhìn sâu sắc cốt lõi về việc dự đoán trong không gian biểu diễn thay vì pixel thô đã là một thực hành tiêu chuẩn trong thị giác máy tính từ năm 2014, khiến cho tính mới lạ được tuyên bố trở nên đáng ngờ.
Chỉ số hiệu suất của V-JEPA 2:
- Các tác vụ với tay: Tỷ lệ thành công 100%
- Cầm nắm cốc: Tỷ lệ thành công 65%
- Nhặt và đặt: Tỷ lệ thành công 65-80%
- Tốc độ lập kế hoạch: 16 giây mỗi hành động (so với 4 phút đối với các mô hình khuếch tán)
Hạn chế Thực tế Bị Bỏ qua
Nghiên cứu tiết lộ những hạn chế thực tế đáng kể không được nhấn mạnh đầy đủ trong báo cáo gốc. Hệ thống cho thấy độ nhạy cảm cực kỳ cao với việc định vị camera - di chuyển camera chỉ 10 độ có thể khiến robot nhầm lẫn các hướng cơ bản. Ngoài ra, mô hình gặp khó khăn với việc lập kế hoạch dài hạn, gặp phải sự trôi dạt khi cố gắng lập kế hoạch nhiều hơn một vài bước.
Có lẽ hạn chế nhất là yêu cầu hiện tại về đặc tả mục tiêu trực quan. Người dùng phải cung cấp hình ảnh của các kết quả mong muốn thay vì các lệnh ngôn ngữ tự nhiên, hạn chế nghiêm trọng các ứng dụng thực tế. Việc không thể hiểu các lệnh như làm cho tôi một chiếc bánh sandwich mà không có các minh họa trực quan đi kèm làm nổi bật khoảng cách giữa khả năng hiện tại và robotics thực sự được giải quyết.
Những Hạn Chế Chính:
- Độ nhạy cảm của tư thế camera (chuyển động 10 độ gây ra sự nhầm lẫn)
- Sự trôi dạt trong lập kế hoạch tầm xa
- Yêu cầu đặc tả mục tiêu bằng hình ảnh (không có lệnh ngôn ngữ tự nhiên)
- Giới hạn ở các tác vụ thao tác đơn giản
Thiếu Bối cảnh Rộng hơn
Cuộc thảo luận cũng đã làm nổi bật những lo ngại về nguồn dữ liệu và các tác động pháp lý. Điều khoản dịch vụ của YouTube thường cấm việc thu thập dữ liệu quy mô lớn, mặc dù khả năng thực thi pháp lý của các hạn chế như vậy đối với việc huấn luyện AI vẫn chưa rõ ràng. Điều này phản ánh những căng thẳng rộng hơn trong ngành AI xung quanh bản quyền và sử dụng hợp lý cho dữ liệu huấn luyện.
Phản ứng của cộng đồng nhấn mạnh sự mệt mỏi ngày càng tăng với các thông báo AI được thổi phồng quá mức. Mặc dù V-JEPA 2 đại diện cho tiến bộ thực sự trong việc học robot dựa trên video, khoảng cách giữa các tiến bộ nghiên cứu gia tăng và các đột phá mang tính chuyển đổi tiếp tục bị trình bày sai trong báo cáo phổ biến.
Bản thân nghiên cứu có vẻ vững chắc và đóng góp những hiểu biết có giá trị cho lĩnh vực robotics và thị giác máy tính. Tuy nhiên, phản ứng phê bình của cộng đồng phục vụ như một lời nhắc nhở rằng các tuyên bố phi thường đòi hỏi bằng chứng phi thường - và báo cáo cẩn thận, chính xác.
Tham khảo: how we accidentally solved robotics by watching 1 million hours of YouTube