Alibaba đã phát hành Qwen-Image-Edit, một công cụ chỉnh sửa ảnh mã nguồn mở được hỗ trợ bởi AI có thể gây ra sự đột phá trong thị trường chỉnh sửa ảnh truyền thống do Adobe Photoshop thống trị. Mô hình mới này đại diện cho một bước tiến đáng kể trong việc tạo nội dung hình ảnh được điều khiển bởi AI, cung cấp khả năng chỉnh sửa tinh vi thông qua các lệnh ngôn ngữ tự nhiên.
![]() |
---|
Minh họa các phép biến đổi phong cách đa dạng được thực hiện bởi công cụ Qwen-Image-Edit của Alibaba |
Khả Năng Chỉnh Sửa Kép Tiên Tiến
Qwen-Image-Edit giới thiệu một cách tiếp cận cách mạng trong việc thao tác hình ảnh bằng cách kết hợp chỉnh sửa ngữ nghĩa và ngoại hình trong một nền tảng duy nhất. Mô hình được xây dựng dựa trên mô hình nền tảng Qwen-Image 20B tham số của Alibaba, mở rộng khả năng hiển thị văn bản của nó vào lĩnh vực chỉnh sửa ảnh toàn diện. Hệ thống xử lý hình ảnh đầu vào thông qua cả Qwen2.5-VL để kiểm soát ngữ nghĩa hình ảnh và VAE Encoder để kiểm soát ngoại hình hình ảnh, cho phép tính linh hoạt chưa từng có trong các hoạt động chỉnh sửa.
Chức năng chỉnh sửa ngữ nghĩa cho phép người dùng sửa đổi nội dung hình ảnh trong khi vẫn bảo tồn ý nghĩa và bối cảnh hình ảnh gốc. Người dùng có thể yêu cầu các phép biến đổi phức tạp như thay đổi hướng đối tượng, thêm các yếu tố mới, hoặc áp dụng chuyển đổi phong cách nghệ thuật trong khi vẫn duy trì tính nhất quán của nhân vật và điều chỉnh ánh sáng tự nhiên. Khả năng này đặc biệt có giá trị cho việc tạo nội dung IP, nơi việc duy trì tính nhất quán thương hiệu qua các tình huống khác nhau trở nên dễ dàng.
Thông số kỹ thuật của mô hình
- Mô hình cơ sở: Mô hình Qwen-Image với 20 tỷ tham số
- Kiến trúc: Xử lý đường kép với Qwen2.5-VL và VAE Encoder
- Hỗ trợ ngôn ngữ: Chỉnh sửa văn bản tiếng Trung và tiếng Anh
- Hiệu suất: Kết quả SOTA trên nhiều bộ tiêu chuẩn công khai
![]() |
---|
Biểu diễn trực quan của tổng hợp góc nhìn mới thể hiện các góc nhìn khác nhau thông qua các kỹ thuật thao tác hình ảnh tiên tiến |
Chỉnh Sửa Văn Bản Chính Xác và Hỗ Trợ Đa Ngôn Ngữ
Một trong những tính năng nổi bật của Qwen-Image-Edit là độ chính xác xuất sắc trong việc chỉnh sửa văn bản, hỗ trợ cả tiếng Trung và tiếng Anh. Hệ thống có thể sửa đổi, thêm hoặc xóa các yếu tố văn bản trong hình ảnh trong khi vẫn bảo tồn phông chữ, kích thước và các yếu tố phong cách gốc. Chức năng này mở rộng đến các tình huống phức tạp như sửa lỗi thư pháp trong chữ viết Trung Quốc truyền thống, nơi mô hình có thể thực hiện các sửa chữa theo chuỗi để dần dần tinh chỉnh độ chính xác của ký tự.
Mô hình thể hiện khả năng đáng chú ý trong việc xử lý các tình huống văn bản phức tạp, từ việc sửa đổi biển hiệu đơn giản đến chỉnh sửa poster phức tạp. Người dùng có thể chỉ định các thay đổi văn bản chính xác, và hệ thống tạo ra kết quả phù hợp với bối cảnh, bao gồm các phản chiếu và bóng đổ tự nhiên phù hợp với môi trường xung quanh.
Tính năng chính
- Chỉnh sửa giao diện cấp thấp (thêm, xóa, sửa đổi các phần tử)
- Chỉnh sửa ngữ nghĩa cấp cao (tạo IP, xoay đối tượng, chuyển đổi phong cách)
- Chỉnh sửa văn bản chính xác với bảo toàn phông chữ/kiểu dáng
- Hiệu chỉnh theo chuỗi cho các tình huống văn bản phức tạp
- Tạo ánh sáng và phản chiếu tự nhiên
![]() |
---|
Ví dụ về chỉnh sửa văn bản sáng tạo sử dụng công nghệ AI để sửa đổi các chữ cái trong bảng chữ cái |
Hiệu Suất Hàng Đầu và Khả Năng Tiếp Cận
Các đánh giá benchmark cho thấy Qwen-Image-Edit đạt được hiệu suất hàng đầu (SOTA) trên nhiều bộ dữ liệu chỉnh sửa ảnh công khai. Mô hình xuất sắc trong việc duy trì tính nhất quán của chủ thể trong khi cho phép các biến thể tự nhiên về ánh sáng và kết cấu dựa trên thay đổi cảnh. Thử nghiệm cho thấy hiệu suất mạnh mẽ trong việc thêm và xóa đối tượng, thay đổi góc nhìn, sửa đổi nền và điều chỉnh các yếu tố chi tiết.
Hiện tại, người dùng có thể truy cập Qwen-Image-Edit thông qua Qwen Chat tại chat.qwen.ai bằng cách chọn chức năng Image Editing. Mô hình cũng có sẵn trên các nền tảng ModelScope, Hugging Face và GitHub, mặc dù việc sử dụng miễn phí có một số hạn chế về số lượng thao tác.
Thông tin Truy cập
- Giao diện Chính: Qwen Chat (chat.qwen.ai)
- ModelScope: https://modelscape.cn/models/Qwen/Qwen-Image-Edit
- Hugging Face: https://huggingface.co/Qwen/Qwen-Image-Edit
- GitHub: https://github.com/QwenLM/Qwen-Image
- Sử dụng: Miễn phí với giới hạn về số lượng thao tác
Ứng Dụng Thực Tế và Tiềm Năng Sáng Tạo
Các ứng dụng thực tế của Qwen-Image-Edit trải rộng trên nhiều ngành công nghiệp sáng tạo. Những người tạo nội dung có thể tạo ra các tình huống đa dạng cho các nhân vật sở hữu trí tuệ, như được thể hiện qua việc Alibaba tạo ra các gói biểu cảm theo chủ đề MBTI sử dụng linh vật chuột lang nước của họ. Công cụ này cho phép tổng hợp góc nhìn mới, cho phép người dùng xoay các đối tượng 90 hoặc 180 độ để tiết lộ các góc nhìn khác nhau, và hỗ trợ chuyển đổi phong cách toàn diện bao gồm các phong cách nghệ thuật phổ biến như hoạt hình Studio Ghibli.
Các ứng dụng chuyên nghiệp bao gồm các tình huống giao tiếp ảo, mô hình sản phẩm và tạo mẫu nhanh cho tài liệu tiếp thị. Khả năng duy trì tính nhất quán của hệ thống trong khi cho phép tính linh hoạt sáng tạo làm cho nó đặc biệt có giá trị cho các thương hiệu yêu cầu danh tính hình ảnh gắn kết trên nhiều nền tảng và bối cảnh.
Hạn Chế Hiện Tại và Triển Vọng Tương Lai
Mặc dù có những khả năng ấn tượng, Qwen-Image-Edit vẫn phải đối mặt với một số thách thức. Thư pháp phức tạp và các phong cách chữ viết tay phức tạp có thể gây khó khăn cho việc nhận dạng và sửa đổi ký tự chính xác. Các phiên chỉnh sửa nhiều vòng có thể gặp phải độ chính xác và tính nhất quán giảm trong quá trình sử dụng kéo dài. Ngoài ra, quyền truy cập miễn phí hiện tại bao gồm các hạn chế sử dụng giới hạn việc thử nghiệm rộng rãi.
Việc phát hành Qwen-Image-Edit báo hiệu một sự thay đổi đáng kể hướng tới việc dân chủ hóa các khả năng chỉnh sửa ảnh cấp chuyên nghiệp. Bằng cách hạ thấp các rào cản kỹ thuật cho việc tạo nội dung hình ảnh, cách tiếp cận mã nguồn mở này có thể đẩy nhanh sự đổi mới trong các ngành công nghiệp sáng tạo trong khi thách thức các giải pháp thương mại đã được thiết lập. Khi công nghệ tiếp tục phát triển, nó hứa hẹn sẽ định hình lại cách các nhà sáng tạo, nhà tiếp thị và nhà thiết kế tiếp cận việc sản xuất nội dung hình ảnh.