Một so sánh toàn diện giữa các mô hình AI tạo hình ảnh hàng đầu đã khơi lên cuộc thảo luận sôi nổi trong giới công nghệ. Đánh giá do một bên thứ ba độc lập thực hiện đã kiểm tra nhiều mô hình khác nhau với các prompt sáng tạo và đầy thách thức để đánh giá hiệu suất, mức độ tuân thủ prompt và tính hữu ích tổng thể của chúng. Phân tích từ cộng đồng tiết lộ những hiểu biết thú vị về cách các hệ thống AI này hoạt động và điểm mạnh, điểm yếu của chúng.
Tranh Luận về Phương Pháp Luận: Nhiều Lần Thử và Quy Trình Ẩn
Các thành viên cộng đồng ngay lập tức đặt câu hỏi liệu phương pháp kiểm tra có phản ánh chính xác trải nghiệm của người dùng thông thường hay không. Một số bình luận viên lưu ý rằng các mô hình có lẽ tạo ra nhiều hình ảnh nội bộ và chỉ cho người dùng thấy kết quả tốt nhất, tạo ra ấn tượng có thể gây hiểu lầm về khả năng của chúng. Cuộc thảo luận cũng đề cập đến việc liệu các mô hình có hệ thống nâng cao prompt tích hợp sẵn để sửa đổi đầu vào của người dùng trước khi tạo hay không. Một bình luận viên nhận xét rằng mô hình 4o của OpenAI dường như đã hạ thấp nhiệt độ (temperature) để đảm bảo tuân thủ prompt tối đa, trong khi các đối thủ như Midjourney dường như ưu tiên đầu ra đẹp mắt và sáng tạo hơn ngay cả khi chúng lệch nhẹ so với thông số kỹ thuật của prompt.
Tôi cho rằng đằng sau hậu trường, các mô hình tạo ra nhiều lần và chỉ cho người dùng thấy kết quả tốt nhất, điều đó là thông minh, để làm cho mô hình của họ có vẻ tốt hơn những mô hình khác.
Các Nhận Xét Chính Từ Cộng Đồng:
- Nghi ngờ có nhiều lần tạo nội bộ trước khi hiển thị kết quả tốt nhất
- Đặt câu hỏi liệu các mô hình có hệ thống cải thiện prompt tích hợp sẵn hay không
- Lưu ý sự nhầm lẫn giữa khả năng tạo hình ảnh và chỉnh sửa hình ảnh
- Xác định các lỗi tuân thủ prompt cụ thể (con rối xúc tu, giờ trên đồng hồ)
- Suy đoán về cài đặt temperature ảnh hưởng đến tính sáng tạo so với độ tuân thủ
Sự Nhầm Lẫn giữa Chỉnh Sửa và Tạo Ảnh
Một điểm gây nhầm lẫn đáng kể trong cộng đồng nảy sinh xung quanh sự khác biệt giữa khả năng tạo ảnh và chỉnh sửa ảnh. Tiêu đề bài báo gốc đề cập đến chỉnh sửa hình ảnh, nhưng nội dung thực tế lại tập trung vào tạo ảnh từ văn bản (text-to-image). Như một bình luận viên đã làm rõ, Midjourney và Flux Dev không phải là mô hình chỉnh sửa ảnh. Chỉnh sửa ảnh là một tác vụ khác biệt với tạo ảnh. Sự phân biệt này quan trọng vì các mô hình chỉnh sửa làm việc với hình ảnh có sẵn thay vì tạo mới từ đầu. Cộng đồng nhanh chóng xác định rằng một so sánh về chỉnh sửa ảnh riêng biệt và gần đây hơn đã có sẵn, làm nổi bật sự tiến hóa nhanh chóng trong lĩnh vực này và nhu cầu phân loại rõ ràng các khả năng của AI.
Các Lỗi và Thành Công với Prompt Cụ Thể
Phân tích chi tiết về phản hồi của từng prompt đã tiết lộ các mẫu hình thú vị trong hiệu suất mô hình. Prompt Buổi Trình Diễn Rối Bạch Tuộc (Cephalopodic Puppet Show), yêu cầu mỗi xúc tu phải được phủ bằng một con rối tất, đặc biệt khó khăn. Nhiều bình luận viên lưu ý rằng chỉ Gemini đáp ứng thành công yêu cầu cụ thể này, trong khi các mô hình khác, kể cả 4o của OpenAI, đã thất bại trong việc đặt con rối lên tất cả các xúc tu. Tương tự, prompt Ủy Ban Kỷ Luật Nàng Tiên Cá (Mermaid Disciplinary Committee) tạo ra một số đầu ra mà người bình luận cho là có khả năng không phù hợp với môi trường chuyên nghiệp, làm dấy lên câu hỏi về bộ lọc nội dung và các biện pháp an toàn trên các nền tảng khác nhau.
Các Thách Thức Đáng Chú Ý Đã Được Xác Định Với Prompt:
- Cephalopodic Puppet Show: Chỉ có Gemini đáp ứng yêu cầu "mỗi xúc tu được bao phủ"
- Bài kiểm tra đồng hồ kim: Hầu hết các mô hình gặp khó khăn với các thời gian khác vị trí 10:10
- Nội dung kỷ luật nàng tiên cá: Một số đầu ra được cho là có khả năng không phù hợp
- Cưỡi trong túi kangaroo: Các mô hình diffusion thuần túy được cho là gặp khó khăn với prompt này
Góc Nhìn Kỹ Thuật và Hướng Phát Triển Tương Lai
Cuộc thảo luận mở rộng sang các cân nhắc kỹ thuật có thể giải thích sự khác biệt về hiệu suất. Các bình luận viên suy đoán về việc cài đặt nhiệt độ ảnh hưởng đến sự sáng tạo so với tuân thủ, các quy trình xử lý hậu kỳ tiềm năng, và liệu tông màu sepia trong một số đầu ra là kết quả của tham số tạo ảnh hay chỉnh sửa sau. Cuộc trò chuyện cũng chạm đến những thách thức kinh điển trong tạo ảnh AI, chẳng hạn như khó khăn trong việc tạo ra các đồng hồ analog hiển thị thời gian cụ thể khác vị trí 10:10 phổ biến thường thấy trong quảng cáo đồng hồ. Như một bình luận viên đề xuất, việc khắc phục những vấn đề như vậy có thể đòi hỏi dữ liệu đào tạo mục tiêu được thiết kế đặc biệt để vượt qua các thành kiến này.
Cuộc đào sâu của cộng đồng vào các so sánh tạo ảnh AI này cho thấy cả sự tinh vi của các mô hình hiện tại và những thách thức còn tồn tại. Mặc dù công nghệ đã tiến bộ đáng kể, người dùng ngày càng trở nên am hiểu hơn về các phương pháp kiểm tra và các yếu tố ẩn ảnh hưởng đến kết quả. Khi lĩnh vực này tiếp tục phát triển, cả nhà phát triển và người dùng sẽ cần xây dựng những cách tinh vi hơn để đánh giá và so sánh các hệ thống đang được cải thiện nhanh chóng này.
Tham khảo: GenAI Image Showdown
