Krea Phát Hành Mô Hình FLUX Mã Nguồn Mở Để Chống Lại "Vẻ Ngoài AI" Trong Hình Ảnh Được Tạo Ra

Nhóm Cộng đồng BigGo
Krea Phát Hành Mô Hình FLUX Mã Nguồn Mở Để Chống Lại "Vẻ Ngoài AI" Trong Hình Ảnh Được Tạo Ra

Krea đã phát hành trọng số mở cho FLUX | Krea , một mô hình tạo hình ảnh có 12 tỷ tham số được thiết kế để giải quyết một trong những vấn đề dai dẳng nhất trong hình ảnh được tạo bởi AI: vẻ ngoài AI đặc trưng khiến hình ảnh tổng hợp dễ dàng bị nhận diện. Mô hình này, được phát triển hợp tác với Black Forest Labs , đại diện cho nỗ lực tập trung tạo ra hình ảnh được tạo ra trông tự nhiên hơn thông qua việc tuyển chọn dữ liệu cẩn thận và các lựa chọn thẩm mỹ có quan điểm rõ ràng.

Thông số kỹ thuật của mô hình:

  • Tham số: 12 tỷ (12B)
  • Kích thước tệp: 23.8 GB
  • Độ chính xác: bfloat16 (16 bit cho mỗi tham số)
  • Yêu cầu VRAM: ~24 GB
  • Kiến trúc: Mô hình rectified flow, tương thích với FLUX
  • Dữ liệu huấn luyện: <1M mẫu cho quá trình hậu huấn luyện

| Tổng quan về việc phát hành mô hình FLUX | Krea của Krea , nhấn mạnh cam kết về chủ nghĩa hiện thực ảnh và tính thẩm mỹ | |:--:| | Tổng quan về việc phát hành mô hình FLUX | Krea của Krea , nhấn mạnh cam kết về chủ nghĩa hiện thực ảnh và tính thẩm mỹ |

Thoát Khỏi Vẻ Ngoài AI

Công ty xác định một số dấu hiệu đặc trưng làm hại các bộ tạo hình ảnh AI hiện tại: nền quá mờ, kết cấu da như sáp, và bố cục nhàm chán. Những vấn đề này đã trở nên phổ biến đến mức chúng tạo thành cái mà ngành công nghiệp hiện gọi là vẻ ngoài AI. Cách tiếp cận của Krea thách thức việc tập trung thông thường vào các tiêu chuẩn kỹ thuật và tuân thủ lời nhắc, lập luận rằng các phương pháp đánh giá hiện tại không phù hợp với những gì người dùng thực sự muốn từ các công cụ tạo hình ảnh.

Nhóm phát hiện ra rằng các mô hình chấm điểm thẩm mỹ phổ biến như LAION Aesthetics , thường được sử dụng để lọc dữ liệu huấn luyện, thực sự tạo ra những thiên vị có hại. Những mô hình này ưa chuộng hình ảnh mô tả phụ nữ, nền mờ, và kết cấu quá mềm - chính xác là những đặc điểm góp phần tạo nên vẻ ngoài nhân tạo mà người dùng muốn tránh.

Cận cảnh một con chim có vẻ ngoài độc đáo và nổi bật, tượng trưng cho mục tiêu của Krea trong việc đạt được hình ảnh do AI tạo ra tự nhiên và hấp dẫn hơn về mặt thị giác
Cận cảnh một con chim có vẻ ngoài độc đáo và nổi bật, tượng trưng cho mục tiêu của Krea trong việc đạt được hình ảnh do AI tạo ra tự nhiên và hấp dẫn hơn về mặt thị giác

Kiến Trúc Kỹ Thuật và Tính Tương Thích

FLUX | Krea được xây dựng như một mô hình guidance-distilled hoàn toàn tương thích với hệ sinh thái FLUX hiện có. Tính tương thích này có nghĩa là các nhà phát triển có thể tích hợp nó một cách liền mạch vào quy trình làm việc hiện có, mã fine-tuning, và các công cụ được thiết kế ban đầu cho FLUX.1 dev . Tệp mô hình có kích thước 23.8 GB, sử dụng độ chính xác floating point 16-bit tương đương khoảng 2 GB cho mỗi tỷ tham số.

Nhóm phát triển nhấn mạnh rằng họ bắt đầu với một mô hình cơ sở thô từ Black Forest Labs có tên flax-deit-v3-large . Mô hình được huấn luyện trước này cung cấp kiến thức thế giới cần thiết trong khi vẫn giữ nguyên trạng - không có những thiên vị thẩm mỹ làm hại nhiều mô hình trọng số mở hiện có đã trải qua quá trình post-training rộng rãi.

Cách Tiếp Cận Chất Lượng Dữ Liệu Hơn Số Lượng

Một trong những phát hiện quan trọng nhất từ quá trình phát triển của Krea là kết quả chất lượng cao có thể đạt được với bộ dữ liệu nhỏ một cách đáng ngạc nhiên. Nhóm đã sử dụng ít hơn một triệu mẫu cho post-training, tập trung mạnh mẽ vào chất lượng dữ liệu thay vì quy mô. Cách tiếp cận hai giai đoạn của họ bao gồm supervised fine-tuning theo sau là reinforcement learning từ phản hồi của con người sử dụng kỹ thuật họ gọi là TPO (biến thể của họ về tối ưu hóa sở thích).

Bạn thực sự có thể sử dụng ít hơn < 1 triệu mẫu để tăng cường đáng kể tính thẩm mỹ. Chất lượng quan trọng RẤT NHIỀU.

Công ty đã có cách tiếp cận có quan điểm rõ ràng về sở thích thẩm mỹ, phản đối thực hành thông thường là huấn luyện trên sở thích người dùng toàn cầu. Họ phát hiện rằng việc cố gắng thỏa mãn các khẩu vị thẩm mỹ đa dạng đồng thời dẫn đến một mô hình bị pha loãng không làm hài lòng hoàn toàn ai cả.

Phương pháp đào tạo:

  • Trọng tâm tiền đào tạo: Bao phủ chế độ và hiểu biết về thế giới
  • Trọng tâm hậu đào tạo: Thu hẹp chế độ hướng tới tính thẩm mỹ mong muốn
  • Giai đoạn 1: Tinh chỉnh có giám sát (SFT) với các hình ảnh chất lượng cao được tuyển chọn
  • Giai đoạn 2: Học tăng cường từ phản hồi của con người (RLHF) sử dụng kỹ thuật TPO
  • Mô hình cơ sở: flax-deit-v3-large từ Black Forest Labs

Phản Hồi Cộng Đồng và Ứng Dụng Kinh Doanh

Phản hồi ban đầu của cộng đồng khá trái chiều nhưng tích cực tham gia. Người dùng đã chú ý đến một số đặc điểm kỳ quặc, chẳng hạn như xu hướng của mô hình tạo ra bàn tay giống con người trong những bối cảnh bất ngờ, phản ánh bản chất có quan điểm rõ ràng mà nhóm đã mô tả. Mô hình yêu cầu tài nguyên tính toán đáng kể, với 12 tỷ tham số đòi hỏi khoảng 24 GB VRAM để hoạt động.

Các ứng dụng kinh doanh trải rộng trên nhiều ngành công nghiệp, từ thương mại điện tử và thời trang cho hình ảnh sản phẩm nhất quán đến thiết kế UI/UX để tạo biểu tượng và bố cục. Công ty đã thấy việc áp dụng trong các nhóm marketing và đại lý, với các ứng dụng tiềm năng trong tương lai trong chụp ảnh thực đơn nhà hàng và các lĩnh vực khác yêu cầu hình ảnh chất lượng chuyên nghiệp mà không cần chi phí chụp ảnh truyền thống.

Việc phát hành này đại diện cho sự chuyển đổi rộng lớn hơn trong tạo hình ảnh AI hướng tới phát triển tập trung vào thẩm mỹ thay vì chỉ tiến bộ khả năng kỹ thuật thuần túy. Bằng cách cung cấp miễn phí trọng số dưới cùng giấy phép như FLUX.1-dev , Krea cho phép cộng đồng mã nguồn mở xây dựng dựa trên cách tiếp cận tập trung vào thẩm mỹ của họ trong khi có khả năng truyền cảm hứng cho các nỗ lực tương tự trên toàn ngành.

Tham khảo: Releasing Open Weights for FLUX | Krea

Khoảnh khắc thanh bình giữa cha và con trai thể hiện tiềm năng kể chuyện cảm xúc của các ứng dụng tạo hình ảnh AI của Krea trong nhiều ngành công nghiệp khác nhau
Khoảnh khắc thanh bình giữa cha và con trai thể hiện tiềm năng kể chuyện cảm xúc của các ứng dụng tạo hình ảnh AI của Krea trong nhiều ngành công nghiệp khác nhau