Một dự án gần đây của cha con nhằm tạo ra một đoạn hoạt hình chủ đề Minecraft dài một phút bằng công cụ AI đã khơi mào các cuộc thảo luận về chi phí thực tế và rào cản kỹ thuật đằng sau công nghệ video sinh tạo tưởng chừng dễ tiếp cận. Dự án này đã biến đổi một bức ảnh duy nhất của cô bé Kate 7 tuổi thành một câu chuyện hoạt hình hoàn chỉnh, đòi hỏi 20 giờ làm việc và tiết lộ một số bài học quan trọng về khả năng tạo video AI hiện tại.
Phân tích thời gian thực hiện dự án:
- Vẽ storyboard: 1 giờ
- Xây dựng quy trình làm việc: 4 giờ
- Render: 15 giờ (trên 2 GPU H100)
- Lựa chọn kết quả: 1 giờ
- Tổng cộng: 20 giờ
Chi Phí Thực Sự Của Việc Tạo Video AI
Mặc dù dự án có vẻ hiệu quả về chi phí trên bề mặt, các cuộc thảo luận trong cộng đồng nhanh chóng làm nổi bật một sự thiếu sót đáng kể trong báo cáo chi phí. Người tạo ra đã đề cập chỉ chi 3 euro cho việc truy cập API để tạo storyboard, nhưng không tính đến tài nguyên tính toán đáng kể cần thiết. Dự án đã tiêu thụ 15 giờ GPU trên bộ xử lý H100 cao cấp, điều này thường sẽ tốn hàng trăm hoặc hàng nghìn đô la Mỹ trong các dịch vụ đám mây thương mại. Người tạo ra sau đó đã làm rõ việc có quyền truy cập miễn phí vào một cụm H100, khiến dự án này chỉ khả thi về mặt tài chính do có quyền truy cập đặc biệt vào phần cứng đắt tiền.
Tiết lộ này nhấn mạnh một vấn đề phổ biến trong các showcase dự án AI, nơi chi phí tính toán thực sự vẫn bị che giấu, tạo ra kỳ vọng không thực tế cho người dùng thông thường phải trả giá thị trường cho thời gian GPU.
Các công cụ AI được sử dụng:
- Flux Kontext: Tính nhất quán của nhân vật và tạo storyboard (3 EUR qua API)
- Wan Video FLF2V-148: Tạo video từ khung hình đầu/cuối
- Florence: Mô tả và phân tích hình ảnh
- DeepSeek R1-Distill-Llama-70B: Tạo prompt cho chuyển cảnh video
- Self Forcing: Tối ưu hóa tốc độ (không tương thích với mô hình đã chọn)
Vấn Đề Tương Thích Kỹ Thuật Gây Khó Khăn Cho Các Tính Năng Nâng Cao
Dự án gặp phải những thách thức kỹ thuật đáng kể, đặc biệt với các công cụ tối ưu hóa tốc độ. Self Forcing, một kỹ thuật có thể tăng tốc tạo video lên đến 5 lần, đã tỏ ra không tương thích với mô hình FLF2V-148 được chọn. Điều này buộc người tạo ra phải lựa chọn giữa thời gian tạo nhanh hơn và khả năng mô hình cụ thể, cuối cùng dẫn đến thời gian render lâu hơn nhiều.
Tuy nhiên, phản hồi từ cộng đồng về Self Forcing vẫn còn trái chiều. Một số người dùng báo cáo cải thiện chất lượng đáng kể, trong khi những người khác cảnh báo không nên sử dụng nó cho các cảnh phức tạp, lưu ý về sự suy giảm chất lượng đáng kể đối với bất cứ thứ gì phức tạp hơn các hành động đơn giản.
Thông số kỹ thuật:
- Độ dài video: 1 phút (13 cảnh, mỗi cảnh ~5 giây)
- Biến thể kết xuất: 4-8 biến thể cho mỗi cảnh
- Yêu cầu GPU: Phần cứng loại H100
- Cải thiện tốc độ với Self Forcing: Lên đến 5 lần (khi tương thích)
- Tốc độ khung hình: 16fps, 81 khung hình cho mỗi clip 5 giây
Sự Tham Gia Của Trẻ Em và Quy Trình Sáng Tạo
Bất chấp những rào cản kỹ thuật, khía cạnh hợp tác đã tỏ ra thành công. Người tham gia nhỏ tuổi đã thể hiện sự nhiệt tình đặc biệt đối với việc tạo storyboard với Flux Kontext và lựa chọn những clip video tốt nhất từ nhiều biến thể được tạo ra. Điều này phản ánh kinh nghiệm từ các dự án video AI khác của cha mẹ và con cái, mặc dù khả năng tập trung thay đổi đáng kể giữa các người dùng trẻ.
Quy trình làm việc kết hợp nhiều công cụ AI: Flux Kontext để thiết kế nhân vật nhất quán trên các khung hình storyboard, Florence để mô tả hình ảnh, và DeepSeek để tạo ra các gợi ý chuyển tiếp giữa các khung hình chính. Cách tiếp cận đa công cụ này, mặc dù hiệu quả, đã thêm vào sự phức tạp và các điểm lỗi tiềm ẩn.
Mối Quan Ngại Của Cộng Đồng Về Chất Lượng Nội Dung
Dự án cũng đã thu hút sự chỉ trích từ một số thành viên cộng đồng, những người xem nội dung được tạo bởi AI như vậy là việc tìm đường tắt thay vì công việc sáng tạo thực sự. Điều này phản ánh các cuộc tranh luận rộng lớn hơn về giá trị và tính xác thực của các dự án sáng tạo có sự hỗ trợ của AI, đặc biệt khi được trình bày như những thành tựu kỹ thuật thay vì nỗ lực nghệ thuật.
Cuộc thảo luận làm nổi bật những căng thẳng đang diễn ra giữa các quy trình sáng tạo truyền thống và việc tạo nội dung được tăng tốc bởi AI, với những câu hỏi về việc liệu các công cụ như vậy có tăng cường hay thay thế sự sáng tạo của con người vẫn còn gây tranh cãi trong cộng đồng công nghệ.
Lưu ý: H100 đề cập đến GPU trung tâm dữ liệu cao cấp của NVIDIA được thiết kế cho khối lượng công việc AI, thường có giá từ 25.000-40.000 đô la Mỹ mỗi đơn vị.
Tham khảo: Short Animation with Wan Video, Flux Kontext, and DeepSeek