Imagen 4 Fast của Google gặp khó khăn với việc tuân thủ lệnh mặc dù tuyên bố về tốc độ

Nhóm Cộng đồng BigGo
Imagen 4 Fast của Google gặp khó khăn với việc tuân thủ lệnh mặc dù tuyên bố về tốc độ

Google đã ra mắt Imagen 4 Fast , một mô hình AI chuyển văn bản thành hình ảnh mới được thiết kế để tạo ảnh nhanh chóng với giá 0,02 đô la Mỹ mỗi hình ảnh. Tuy nhiên, phản ứng của cộng đồng khá thờ ơ, với người dùng chỉ ra những vấn đề đáng kể về khả năng tuân theo các hướng dẫn chi tiết của mô hình.

Bảng giá và tính năng của dòng Imagen 4

  • Imagen 4 Fast: 0,02 USD mỗi hình ảnh, được tối ưu hóa cho tốc độ và các tác vụ khối lượng lớn
  • Imagen 4: Mô hình tiêu chuẩn để tạo ra hình ảnh chất lượng cao với khả năng hiển thị văn bản được cải thiện
  • Imagen 4 Ultra: Mô hình cao cấp để tuân thủ nghiêm ngặt lời nhắc và chi tiết cao nhất
  • Độ phân giải: Hỗ trợ độ phân giải lên đến 2K cho Imagen 4 và Imagen 4 Ultra
  • Đóng dấu nước: Tất cả hình ảnh đều bao gồm dấu nước SynthID không thể nhận thấy

Việc tuân thủ lệnh kém làm dấy lên lo ngại về chất lượng

Vấn đề rõ ràng nhất dường như là khả năng không thể tuân thủ các hướng dẫn cụ thể trong lệnh của Imagen 4 Fast . Người dùng khi kiểm tra chính những ví dụ quảng cáo của Google đã phát hiện nhiều lỗi, đặc biệt trong một minh họa truyện tranh bốn ô. Mô hình đã không tuân theo các hướng dẫn rõ ràng về nội dung ô truyện, vị trí nhân vật và định dạng văn bản. Trong một ví dụ, lệnh yêu cầu một con mèo và con chó đập tay trong ô cuối cùng, nhưng hình ảnh được tạo ra lại cho thấy con mèo đang đập tay với chính nó.

Các thành viên cộng đồng đã so sánh Imagen 4 Fast một cách không thuận lợi với các mô hình cạnh tranh như GPT-Image-1 của OpenAI , với nhiều người dùng báo cáo kết quả tốt hơn từ các nền tảng thay thế khi được đưa ra những lệnh giống hệt nhau. Trong khi Google định vị Imagen 4 Ultra là giải pháp cho việc tuân thủ nghiêm ngặt các lệnh, nhiều người đặt câu hỏi liệu phiên bản Fast có cung cấp đủ giá trị ngay cả ở mức giá thấp của nó hay không.

Hạn chế kỹ thuật và vấn đề tài liệu

Ngoài các vấn đề tuân thủ lệnh, người dùng đã phát hiện những hạn chế kỹ thuật đáng lo ngại. Mô hình đôi khi chỉ xuất ra văn bản thay vì hình ảnh, có thể dừng tạo ảnh giữa chừng, và hiện tại thiếu chức năng chuyển đổi từ hình ảnh sang hình ảnh mà các đối thủ cạnh tranh cung cấp. Ngoài ra, tài liệu của Google có vẻ chưa hoàn chỉnh, với các liên kết dẫn đến những trang không ghi chép các mô hình Imagen mới nhất.

Mô hình cũng cho thấy xu hướng tạo ra những đầu ra giống hoạt hình hơn là hình ảnh thực tế, điều này đã làm thất vọng các nhà phát triển đang làm việc trên các dự án yêu cầu hình ảnh thực tế. Một số người dùng báo cáo rằng Imagen 4 có vẻ miễn cưỡng tạo ra bất cứ thứ gì có thể bị nhầm lẫn với một bức ảnh thực tế.

Những Hạn Chế Kỹ Thuật Chính

  • Có thể chỉ xuất ra văn bản thay vì hình ảnh
  • Quá trình tạo có thể dừng lại giữa chừng
  • Hiện tại chưa hỗ trợ chức năng chuyển đổi từ hình ảnh sang hình ảnh
  • Có xu hướng tạo ra đầu ra giống hoạt hình hơn là ảnh thực tế
  • Tuân thủ kém các hướng dẫn chi tiết trong prompt
  • Tài liệu không đầy đủ và các liên kết bị hỏng trong tài nguyên chính thức
Hình ảnh minh họa loại hình ảnh tuyệt đẹp mà người dùng hy vọng đạt được với việc tạo ảnh bằng AI, làm nổi bật sự khác biệt giữa kỳ vọng và thực tế
Hình ảnh minh họa loại hình ảnh tuyệt đẹp mà người dùng hy vọng đạt được với việc tạo ảnh bằng AI, làm nổi bật sự khác biệt giữa kỳ vọng và thực tế

Vị thế thị trường và kỳ vọng của người dùng

Mặc dù có những hạn chế này, một số thành viên cộng đồng cho rằng ngay cả kết quả không hoàn hảo cũng có thể mang lại giá trị ở mức 0,02 đô la Mỹ mỗi hình ảnh, đặc biệt cho việc tạo mẫu nhanh hoặc phát triển ý tưởng. Cách tiếp cận ba tầng với Imagen 4 Fast , Imagen 4 tiêu chuẩn và Imagen 4 Ultra cho phép người dùng cân bằng tốc độ, chi phí và chất lượng dựa trên nhu cầu cụ thể của họ.

Tuy nhiên, sự đón nhận trái chiều của cộng đồng làm nổi bật thách thức đang diễn ra mà việc tạo hình ảnh AI phải đối mặt: cân bằng tốc độ và chi phí với độ tin cậy và tuân thủ lệnh. Như một người dùng đã lưu ý, sự tiến bộ từ điều đó là không thể đến việc chỉ trích những khiếm khuyết nhỏ cho thấy kỳ vọng đã phát triển nhanh chóng như thế nào trong lĩnh vực này.

Việc ra mắt thể hiện nỗ lực của Google nhằm cạnh tranh trong thị trường tạo hình ảnh AI ngày càng đông đúc, nhưng phản hồi sớm của cộng đồng cho thấy cần có những cải tiến đáng kể trước khi Imagen 4 Fast có thể đáp ứng kỳ vọng của người dùng được thiết lập bởi các nền tảng cạnh tranh.

Tham khảo: Announcing Imagen 4 Fast and the generally availability of the Imagen 4 family in the Gemini API