Google đã giới thiệu một bản cập nhật quan trọng cho nền tảng AI Gemini , cho phép người dùng chuyển đổi các bức ảnh tĩnh thành nội dung video động với âm thanh đồng bộ. Cải tiến này mang khả năng tạo video tiên tiến trực tiếp vào giao diện Gemini , giúp việc tạo video bằng AI trở nên dễ tiếp cận hơn cho các thuê bao.
Được Hỗ Trợ Bởi Công Nghệ Mô Hình Video Veo 3
Tính năng chuyển đổi ảnh thành video mới tận dụng mô hình video Veo 3 của Google , đại diện cho tiến bộ mới nhất của công ty trong công nghệ tạo video AI. Người dùng có thể biến đổi hình ảnh tham chiếu thành các clip video dài tám giây hoàn chỉnh với các yếu tố âm thanh do AI tạo ra, bao gồm tiếng ồn nền, âm thanh môi trường và lời nói. Tính năng này ban đầu được trình diễn tại hội nghị nhà phát triển thường niên của Google vào tháng 5 nhưng trước đây chỉ có sẵn thông qua Flow , ứng dụng làm phim độc lập của Google .
Thông số kỹ thuật Video:
- Thời lượng: Tối đa 8 giây
- Độ phân giải: 720p
- Định dạng: Tệp MP4 ở định dạng ngang 16:9
- Âm thanh: Tiếng ồn nền được tạo bằng AI, âm thanh môi trường và giọng nói
- Đóng dấu bản quyền: Watermark hiển thị + watermark kỹ thuật số SynthID ẩn
Truy Cập Được Tối Ưu Hóa Thông Qua Giao Diện Gemini
Các thuê bao Google AI Ultra và Pro hiện có thể truy cập tính năng này trực tiếp thông qua giao diện chat Gemini mà không cần chuyển sang các ứng dụng riêng biệt. Người dùng chỉ cần nhấp vào tùy chọn công cụ trong thanh nhắc, chọn video và tải lên ảnh của họ cùng với mô tả văn bản chỉ định chuyển động và yếu tố âm thanh mong muốn. Hệ thống tạo ra các tệp MP4 ở độ phân giải 720p theo định dạng ngang 16:9, với Google hứa hẹn rằng mô tả âm thanh cho đối thoại, hiệu ứng âm thanh và tiếng ồn xung quanh sẽ được đồng bộ hoàn hảo với hình ảnh.
Yêu cầu truy cập:
- Đăng ký: Gói Google AI Ultra hoặc Pro
- Khả năng sử dụng: Ban đầu chỉ ở một số khu vực được chọn
- Nền tảng: Phiên bản web (triển khai trước), ứng dụng di động (cuối tuần này)
- Phương thức truy cập: Tools → Video → Upload photo + mô tả văn bản
Chi Tiết Triển Khai và Tính Khả Dụng
Tính năng này hiện đang được triển khai tại các khu vực được chọn, bắt đầu với phiên bản web của Gemini và mở rộng ra các thiết bị di động trong suốt tuần. Việc triển khai từng bước này cho phép Google theo dõi hiệu suất và phản hồi của người dùng khi công nghệ tiếp cận đối tượng rộng hơn. Đồng thời, Google thông báo rằng Flow sẽ được ra mắt tại thêm 75 quốc gia, mở rộng hệ sinh thái tạo video AI của công ty trên toàn cầu.
Hạn Chế Hiện Tại và Vấn Đề Hiệu Suất
Việc thử nghiệm đã tiết lộ một số hạn chế trong triển khai hiện tại. Đánh giá của Bloomberg phát hiện rằng AI đôi khi thay đổi khuôn mặt của mọi người hoặc thay đổi chủng tộc của họ khi tạo video nói từ ảnh. Các lời nhắc phức tạp, chẳng hạn như làm cho ai đó nhảy breakdance, thường tạo ra kết quả bất ngờ như cử chỉ vẫy tay đơn giản thay vì các hành động được yêu cầu. Google thừa nhận những vấn đề này, với một phát ngôn viên giải thích rằng AI không được lập trình để thay đổi ngoại hình và công nghệ này tiếp tục phát triển.
Hạn chế Nội dung:
- Không có người nổi tiếng, chính trị gia, hoặc nhân vật công chúng
- Không có nội dung bạo lực hoặc bắt nạt
- Hiệu suất tốt nhất: Cảnh thiên nhiên, bản vẽ, đồ vật
- Vấn đề đã biết: Thay đổi khuôn mặt, thay đổi chủng tộc trong video nói chuyện
Biện Pháp An Toàn và Hướng Dẫn Nội Dung
Google đã triển khai các hướng dẫn nghiêm ngặt để ngăn chặn việc lạm dụng công nghệ tạo video. Hệ thống cấm tạo video sử dụng hình ảnh của người nổi tiếng, chính trị gia hoặc các nhân vật công chúng khác, và từ chối tạo ra nội dung khuyến khích bạo lực hoặc bắt nạt. Tất cả các video được tạo ra đều bao gồm hình mờ hiển thị cho biết việc tạo ra bằng AI, cộng với hình mờ kỹ thuật số SynthID vô hình để nhận dạng và theo dõi bổ sung.
Định Vị Cạnh Tranh Trong Thị Trường Video AI
Bản cập nhật này định vị Google để cạnh tranh hiệu quả hơn với các đối thủ bao gồm OpenAI , Runway , Alibaba và Kuaishou trong thị trường tạo video AI đang phát triển nhanh chóng. Bằng cách tích hợp khả năng tạo video trực tiếp vào Gemini , Google giảm ma sát cho người dùng trong khi mở rộng các ứng dụng thực tế của nền tảng AI. Công ty cho biết rằng các cải tiến về hoạt hình khuôn mặt và hiệu suất tổng thể được lên kế hoạch cho các bản cập nhật trong tương lai khi công nghệ trưởng thành.