Mô hình AI Video Wan2.2 chạy trên GPU tiêu dùng với 6GB VRAM nhờ tối ưu hóa từ cộng đồng

Nhóm Cộng đồng BigGo
Mô hình AI Video Wan2.2 chạy trên GPU tiêu dùng với 6GB VRAM nhờ tối ưu hóa từ cộng đồng

Việc phát hành Wan2.2 , một mô hình AI tạo video tiên tiến, đã thu hút sự quan tâm lớn từ cộng đồng không chỉ vì khả năng kỹ thuật của nó, mà còn vì tốc độ mà các nhà phát triển đã làm cho nó trở nên dễ tiếp cận với người dùng có thiết lập phần cứng khiêm tốn. Trong khi bản phát hành chính thức nhắm đến các hệ thống cao cấp, các dự án cộng đồng đã xuất hiện để đưa công nghệ này đến với người tiêu dùng thông thường.

Phân tích so sánh các chỉ số tính toán cho các mô hình tạo video khác nhau, nhấn mạnh những cải tiến về hiệu quả
Phân tích so sánh các chỉ số tính toán cho các mô hình tạo video khác nhau, nhấn mạnh những cải tiến về hiệu quả

Yêu cầu GPU giảm xuống mức tiêu dùng

Sự phát triển nổi bật nhất đến từ những nỗ lực tối ưu hóa của cộng đồng đã giảm đáng kể yêu cầu phần cứng. Dự án Wan2GP đã thành công trong việc điều chỉnh mô hình để chạy trên các card đồ họa chỉ với 6GB VRAM , giúp người dùng có phần cứng cũ hơn hoặc thân thiện với ngân sách có thể tiếp cận. Điều này đại diện cho một bước đột phá đáng kể, vì mô hình gốc được thiết kế cho các hệ thống có từ 24GB đến 80GB VRAM .

Những thành tựu tối ưu hóa mở rộng hơn cả việc chỉ giảm bộ nhớ. Các nhà phát triển cộng đồng đã tạo ra các kỹ thuật tăng tốc giảm thời gian xử lý từ hơn 30 bước xuống chỉ 4-8 bước trong khi vẫn duy trì chất lượng video. Điều này có nghĩa là người dùng có thể tạo video trong vài phút thay vì hàng giờ trên phần cứng tiêu dùng.

VRAM (Video Random Access Memory) là bộ nhớ chuyên dụng trên card đồ họa được sử dụng để xử lý dữ liệu hình ảnh.

So sánh Yêu cầu Phần cứng

Cấu hình VRAM Yêu cầu Hiệu suất
Official Wan2.2 TOI-5B 24GB (RTX 4090) Tạo video 720p
Official High-end Model 80GB+ Độ phân giải đầy đủ, xử lý nhanh nhất
Community Wan2GP Tối thiểu 6GB Được tối ưu hóa cho GPU tầm trung
RTX 5090 Performance Cao cấp 3-4 phút mỗi video + 2-3 phút nâng cấp chất lượng
So sánh hiệu suất của các mô hình tạo video khác nhau, thể hiện những tiến bộ về khả năng tiếp cận và hiệu quả
So sánh hiệu suất của các mô hình tạo video khác nhau, thể hiện những tiến bộ về khả năng tiếp cận và hiệu quả

Hiệu suất khác nhau trên các cấp độ phần cứng

Thử nghiệm thực tế cho thấy các mẫu hiệu suất thú vị trên các cấu hình GPU khác nhau. Người dùng có card cao cấp như RTX 5090 báo cáo tạo video trong 3-4 phút, với việc nâng cấp thêm lên độ phân giải 4K mất thêm 2-3 phút. Tuy nhiên, cộng đồng đã chỉ ra rằng ngay cả người dùng có phần cứng kém mạnh hơn đáng kể cũng có thể tham gia vào việc tạo video AI thông qua các kỹ thuật tối ưu hóa khác nhau.

Tính linh hoạt của mô hình trong việc hỗ trợ cả tạo video từ văn bản và tạo video từ hình ảnh trong một khung làm việc duy nhất đã thu hút sự chú ý từ cả các nhà nghiên cứu và người tạo nội dung. Khả năng tạo video 720p ở 24 khung hình mỗi giây trên phần cứng tiêu dùng đánh dấu một cột mốc quan trọng cho việc tạo video AI dễ tiếp cận.

Kiến trúc kỹ thuật thúc đẩy hiệu quả

Wan2.2 giới thiệu kiến trúc Mixture-of-Experts ( MoE ) được điều chỉnh đặc biệt cho việc tạo video. Hệ thống này sử dụng hai mô hình chuyên biệt: một tập trung vào bố cục giai đoạn đầu và một khác cho việc tinh chỉnh chi tiết. Trong khi tổng số tham số đạt 2,7 tỷ, chỉ có 1,6 tỷ tham số hoạt động trong mỗi bước xử lý, giữ cho yêu cầu tính toán ở mức có thể quản lý được.

Mô hình cũng kết hợp các kỹ thuật nén tiên tiến, đạt tỷ lệ lên đến 64:1 trong khi vẫn duy trì chất lượng video. Việc nén này, kết hợp với các tối ưu hóa từ cộng đồng, cho phép giảm đáng kể yêu cầu phần cứng đã làm cho công nghệ trở nên dễ tiếp cận với đối tượng rộng hơn.

Thông số kỹ thuật của mô hình

  • Tổng số tham số: 2.7B (kiến trúc MoE)
  • Tham số hoạt động: 1.6B cho mỗi bước xử lý
  • Đầu ra video: Lên đến 720p ở 24fps
  • Tỷ lệ nén: Lên đến 64:1
  • Các bước xử lý: Giảm từ 30+ xuống còn 4-8 bước (tối ưu hóa từ cộng đồng)
  • Các tác vụ được hỗ trợ: Text-to-Video, Image-to-Video, Text-to-Image-to-Video

Tích hợp cộng đồng tăng tốc việc áp dụng

Việc tích hợp nhanh chóng Wan2.2 vào các nền tảng phổ biến như ComfyUI đã tăng tốc việc áp dụng trong số các người tạo nội dung và nhà phát triển. Các cập nhật hàng ngày và đóng góp từ cộng đồng đã mở rộng khả năng của mô hình vượt ra ngoài bản phát hành gốc, thêm các tính năng như thuật ngữ truyền thông chuyên nghiệp và cải thiện độ chính xác cho các hành động phức tạp.

Có rất nhiều người tập trung vào hiệu suất, các phương pháp khác nhau, cũng như có rất nhiều người tập trung vào các vấn đề không liên quan đến hiệu suất như tinh chỉnh để thêm các khía cạnh mà các mô hình thiếu.

Cách tiếp cận phát triển dựa trên cộng đồng này đã tạo ra một hệ sinh thái nơi người dùng có thể truy cập không chỉ mô hình cơ bản, mà còn nhiều biến thể chuyên biệt được tối ưu hóa cho các trường hợp sử dụng và cấu hình phần cứng khác nhau.

Những cải tiến về khả năng tiếp cận đại diện cho một xu hướng rộng hơn trong phát triển AI , nơi tối ưu hóa cộng đồng thường làm cho công nghệ tiên tiến có sẵn cho người dùng vượt xa đối tượng mục tiêu ban đầu. Khi yêu cầu phần cứng tiếp tục giảm thông qua các nỗ lực của cộng đồng, việc tạo video AI đang chuyển đổi từ một công cụ chuyên biệt thành một công nghệ dễ tiếp cận với các nhà sáng tạo hàng ngày.

Tham khảo: Wan2.2