Việc phát hành gần đây của Ovi, một mô hình AI mã nguồn mở có khả năng tạo ra các clip video và âm thanh đồng bộ 5 giây từ lời nhắc văn bản hoặc hình ảnh, đã châm ngòi cho những cuộc thảo luận sôi nổi về tương lai của sáng tạo video. Khi công nghệ này thể hiện những khả năng đáng ngạc nhiên—tạo ra nội dung độ phân giải cao mặc dù được huấn luyện trên dữ liệu độ phân giải thấp hơn—cộng đồng đang vật lộn để hiểu điều này có ý nghĩa gì đối với các nhà làm phim, bối cảnh cạnh tranh và chính bản chất của biểu đạt sáng tạo.
Thách thức Mã nguồn Mở đối với các Gã Khổng lồ Công nghệ
Sự xuất hiện của các mô hình mã nguồn mở có năng lực như Ovi đại diện cho một sự thay đổi đáng kể trong lĩnh vực tạo video bằng AI. Được xây dựng dựa trên các nền tảng như Wan 2.2 cho video và MMAudio cho xử lý âm thanh, các dự án do cộng đồng dẫn dắt này đang chứng minh rằng việc tạo video chất lượng cao không phải là độc quyền của các phòng thí nghiệm tập đoàn được tài trợ tốt. Khả năng chạy mô hình trên phần cứng tiêu dùng như RTX 5090 với 32GB VRAM, hoặc thông qua việc thuê đám mây với chi phí dưới 0,50 đô la Mỹ mỗi giờ, giúp việc sáng tạo video tinh vi trở nên dễ tiếp cận hơn với các cá nhân sáng tạo thay vì chỉ các hãng phim lớn.
Thật tuyệt khi thấy các mô hình mở linh hoạt thể hiện mạnh mẽ trước các đối thủ cạnh tranh mã đóng được tài trợ khổng lồ như OpenAI và Runway.
Khả năng tiếp cận này tạo ra áp lực mới lên các bên đã có chỗ đứng. Trong khi các công ty như OpenAI và Google tiếp tục phát triển các mô hình độc quyền với khả năng ấn tượng, sự tiến bộ nhanh chóng của các giải pháp thay thế mã nguồn mở cho thấy khoảng cách có thể đang được thu hẹp nhanh hơn dự kiến.
Khả năng Kỹ thuật và Ứng dụng Sáng tạo
Thông số kỹ thuật của Ovi tiết lộ cả khả năng hiện tại và những hạn chế. Mô hình tạo video 5 giây ở tốc độ 24 khung hình/giây với các tỷ lệ khung hình khác nhau, với điểm mạnh đặc biệt trong việc xử lý độ phân giải cao hơn so với dữ liệu nó được huấn luyện. Khả năng nâng cấp độ phân giải này duy trì tính nhất quán về thời gian và không gian, cho phép đầu ra như độ phân giải 1280×704 và 1344×704 từ dữ liệu huấn luyện 720×720.
Quy trình sáng tạo liên quan đến định dạng lời nhắc chuyên biệt, sử dụng các thẻ như <SPEECH> cho đoạn hội thoại và <AUDIODESCRIPTION> cho hiệu ứng âm thanh. Cách tiếp cận có cấu trúc này cho phép người sáng tạo hướng dẫn cả yếu tố hình ảnh và âm thanh đồng thời, mặc dù đầu ra hiện tại vẫn cho thấy các lỗi khiến chúng rơi vào cái mà những người bình luận mô tả là thung lũng kỳ lạ—gần giống thực nhưng chưa đủ thuyết phục để đánh lừa nhận thức của con người một cách nhất quán.
Thông số kỹ thuật của Mô hình Ovi
- Độ dài video: 5 giây
- Tốc độ khung hình: 24 FPS
- Độ phân giải huấn luyện: 720×720
- Độ phân giải đầu ra: Hỗ trợ lên đến 960×960 và nhiều tỷ lệ khung hình khác nhau (16:9, 1:1, 7:16)
- Tùy chọn đầu vào: Chỉ văn bản hoặc điều kiện văn bản+hình ảnh
- Tích hợp âm thanh: Đồng bộ hóa giọng nói và tạo hiệu ứng âm thanh
- Yêu cầu phần cứng: Chạy trên GPU tiêu dùng như RTX 5090 (32GB VRAM)
Tương lai của Làm phim và Sáng tạo Nội dung
Có lẽ cuộc thảo luận sôi nổi nhất xoay quanh việc công nghệ này có thể biến đổi ngành giải trí như thế nào. Một số người hình dung một tương lai gần nơi các cá nhân có thể tạo ra những bộ phim ngắn tinh vi từ chính tầng hầm của họ, trong khi những người khác vẫn hoài nghi về việc liệu nội dung được tạo bởi AI có bao giờ đạt được sự chấp nhận chính thống hay không.
Cuộc tranh luận tiết lộ sự chia rẽ giữa các thế hệ trong cách mọi người nhận thức sự sáng tạo của AI. Một số lập luận rằng sự kháng cự lại nghệ thuật AI sẽ phai nhạt khi các thế hệ trẻ lớn lên cùng công nghệ trở thành khán giả chính. Những người khác cho rằng việc biết nội dung được tạo ra bằng thuật toán về cơ bản làm suy yếu giá trị nghệ thuật của nó, bất kể chất lượng kỹ thuật.
Những hạn chế hiện tại về tính nhất quán của nhân vật xuyên suốt các cảnh và việc kể chuyện bằng hình ảnh mạch lạc vẫn là những rào cản đáng kể. Như một người bình luận đã lưu ý, Việc có cùng một nhân vật, mặc cùng một bộ quần áo, quay lại các môi trường, với cùng ánh sáng và xử lý hậu kỳ là rất khác so với việc tạo các clip riêng lẻ. Những thách thức về tính liên tục này cho thấy các bộ phim dài được tạo bởi AI vẫn còn ở phía trước, mặc dù các định dạng ngắn hơn có thể xuất hiện sớm hơn.
Những Hạn Chế Hiện Tại Được Cộng Đồng Ghi Nhận
- Vấn đề nhất quán về nhân vật giữa các cảnh quay
- Thỉnh thoảng xuất hiện các lỗi hình ảnh (ví dụ: chi thừa trong nội dung được tạo ra)
- Hiệu ứng "thung lũng kỳ dị" trong việc tái hiện hình ảnh con người
- Giới hạn ở các đoạn video ngắn (5 giây)
- Thách thức về sự liên kết giữa các cảnh tuần tự
Hàm ý Đạo đức và Ngành công nghiệp
Khả năng tiếp cận của công nghệ này đặt ra những câu hỏi quan trọng về tính xác thực và quyền sở hữu sáng tạo. Khả năng tạo nội dung video thuyết phục một cách dễ dàng có thể làm gia tăng lo ngại về thông tin sai lệch, đồng thời dân chủ hóa biểu đạt sáng tạo. Sự căng thẳng giữa những khả năng này phản ánh các cuộc trò chuyện rộng hơn trong xã hội về vai trò của AI trong các ngành công nghiệp sáng tạo.
Đối với các nhà làm phim chuyên nghiệp, việc tạo video bằng AI có thể trở thành một công cụ khác trong quy trình sản xuất hơn là một sự thay thế cho sự sáng tạo của con người. Giống như CGI trong những thập kỷ trước, các triển khai thành công nhất có lẽ sẽ pha trộn khả năng của AI với sự chỉ đạo nghệ thuật của con người thay vì thay thế hoàn toàn.
Sự tiến bộ nhanh chóng của các mô hình tạo video mã nguồn mở như Ovi báo hiệu một thời khắc then chốt đối với công nghệ sáng tạo. Mặc dù vẫn còn những hạn chế về kỹ thuật, việc dân chủ hóa các công cụ tạo video tinh vi dường như là không thể tránh khỏi. Cuộc trò chuyện đang diễn ra cho thấy cả sự phấn khích về những khả năng sáng tạo mới và mối quan ngại về cách những công nghệ này có thể định hình lại giải trí, tính xác thực và biểu đạt nghệ thuật trong những năm tới.
Tham khảo: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
