TarFlow Tạo Đột Phá Mới: Normalizing Flows Sánh Ngang Chất Lượng Tạo Ảnh Với Các Mô Hình Diffusion

Nhóm Cộng đồng BigGo
TarFlow Tạo Đột Phá Mới: Normalizing Flows Sánh Ngang Chất Lượng Tạo Ảnh Với Các Mô Hình Diffusion

Normalizing Flows, từng được coi là một phương pháp đầy hứa hẹn nhưng bị bỏ qua trong việc tạo ảnh bằng AI, đang có sự trở lại ngoạn mục. Mô hình TarFlow mới của Apple đã đạt được điều mà nhiều người cho là không thể: sánh ngang chất lượng với các mô hình diffusion phổ biến trong khi thiết lập kỷ lục mới về ước lượng likelihood trên hình ảnh.

Đột phá này đại diện cho một sự thay đổi đáng kể trong cách chúng ta nghĩ về việc tạo ảnh bằng AI. Trong khi hầu hết các tiến bộ gần đây đều tập trung vào các mô hình diffusion, TarFlow chứng minh rằng normalizing flows có thể cạnh tranh ở mức cao nhất khi được cung cấp quy mô và kỹ thuật hiện đại phù hợp.

So sánh hiệu suất:

  • TarFlow : Normalizing flow đầu tiên đạt được dưới 3.2 bit trên mỗi chiều trên ImageNet 64×64
  • Kết quả tốt nhất trước đó: 2.99 bit trên mỗi chiều (mô hình diffusion lai)
  • Chất lượng mẫu có thể so sánh với các mô hình diffusion lần đầu tiên với normalizing flow độc lập
Ảnh chụp màn hình của một bài nghiên cứu có tiêu đề " Normalizing Flows are Capable Generative Models ", nhấn mạnh vào trọng tâm các phương pháp tạo ảnh bằng AI
Ảnh chụp màn hình của một bài nghiên cứu có tiêu đề " Normalizing Flows are Capable Generative Models ", nhấn mạnh vào trọng tâm các phương pháp tạo ảnh bằng AI

Quy Mô Tạo Nên Sự Khác Biệt

Hiểu biết chính thúc đẩy thành công của TarFlow là quy mô. Các mô hình normalizing flow trước đây nhỏ một cách đáng ngạc nhiên so với các đối tác diffusion của chúng. Các mô hình trước đó như DenseFlow và MaCow sử dụng ít hơn 200 triệu tham số, trong khi các mô hình diffusion hiện đại thường xuyên sử dụng vài tỷ tham số. TarFlow thu hẹp khoảng cách này với các mô hình từ 472 triệu đến 820 triệu tham số, với công việc tiếp theo đẩy lên 3,8 tỷ tham số.

Khám phá về quy mô này cho thấy rằng normalizing flows không bị giới hạn về bản chất - chúng chỉ đơn giản là được huấn luyện thiếu và ít tài nguyên hơn so với các phương pháp khác.

Kích thước mô hình TarFlow:

  • Mô hình AFHQ-256: ~472 triệu tham số
  • Mô hình ImageNet: ~820 triệu tham số
  • StarFlow tiếp theo: 3.8 tỷ tham số
  • Các normalizing flows trước đó ( DenseFlow , MaCow ): <200 triệu tham số

Ưu Điểm Kỹ Thuật và Đánh Đổi

TarFlow kết hợp kiến trúc transformer với việc tạo autoregressive, xử lý các patch hình ảnh tuần tự trong khi thay đổi hướng giữa các lớp. Phương pháp này mang lại một số lợi ích độc đáo so với các mô hình diffusion, đặc biệt trong việc tạo ra kết quả xác định và tính toán likelihood chính xác.

Tuy nhiên, bản chất tuần tự tạo ra những thách thức về hiệu suất. Mô hình yêu cầu kích thước batch lớn để sử dụng hiệu quả tính song song của GPU, khiến nó kém hiệu quả hơn cho việc tạo ảnh đơn lẻ so với các mô hình diffusion có thể xử lý toàn bộ hình ảnh đồng thời.

Tiềm Năng Triển Khai AI Cục Bộ

Cuộc thảo luận xung quanh TarFlow đã khơi dậy các cuộc trò chuyện rộng hơn về việc chạy các mô hình AI cục bộ trên thiết bị. Trong khi phần cứng di động hiện tại gặp khó khăn với các mô hình yêu cầu tương đương một card đồ họa 400 đô la Mỹ để có hiệu suất thoải mái, bản chất xác định của normalizing flows có thể mang lại lợi thế cho việc triển khai trên thiết bị.

Cục bộ không tốn kém gì cho công ty, và tăng phần cứng tối thiểu mà khách hàng cần mua.

Lợi ích về quyền riêng tư của việc xử lý cục bộ vẫn hấp dẫn, ngay cả khi các yêu cầu phần cứng tạo ra thách thức cho việc áp dụng rộng rãi trong thời gian tới.

Yêu cầu phần cứng cho AI cục bộ:

  • Suy luận cục bộ thoải mái: tương đương card đồ họa ~$400 USD
  • Khả năng di động hiện tại: các mô hình 3B-5B tham số
  • Ví dụ về hiệu suất: xử lý prompt 35 token/giây, giải mã 7-8 token/giây trên Android flagship
Cuộc thảo luận hợp tác về triển khai AI, làm nổi bật tiềm năng của các giải pháp xử lý AI cục bộ
Cuộc thảo luận hợp tác về triển khai AI, làm nổi bật tiềm năng của các giải pháp xử lý AI cục bộ

Phản Hồi Từ Cộng Đồng Nghiên Cứu

Cộng đồng machine learning đã phản hồi tích cực với việc TarFlow chứng minh rằng các kiến trúc thay thế xứng đáng được quan tâm trở lại. Các nhà nghiên cứu đã bắt đầu triển khai phương pháp này trong nhiều framework khác nhau và khám phá các mở rộng cho các thuật toán khác như GLOW.

Công việc này phục vụ như một lời nhắc nhở rằng sự tập trung của lĩnh vực vào các mô hình diffusion có thể đã khiến các phương pháp đầy hứa hẹn khác bị từ bỏ sớm. Thành công của TarFlow cho thấy rằng với tài nguyên phù hợp và kỹ thuật hiện đại, nhiều phương pháp lỗi thời có thể chứng minh là cạnh tranh một cách đáng ngạc nhiên.

Lưu ý: Normalizing flows là các mô hình machine learning biến đổi các phân phối xác suất đơn giản thành các phân phối phức tạp thông qua các phép biến đổi có thể đảo ngược. Tạo autoregressive có nghĩa là mô hình tạo ra đầu ra từng bước một, với mỗi bước phụ thuộc vào các bước trước đó.

Tham khảo: Normalizing Flows are Capable Generative Models