Bí ẩn về lý do tại sao các bộ tạo ảnh AI có thể tạo ra tác phẩm nghệ thuật độc đáo thay vì chỉ sao chép dữ liệu huấn luyện đã được giải mã. Nghiên cứu mới tiết lộ rằng điều chúng ta gọi là khả năng sáng tạo trong các hệ thống này thực chất là kết quả của những hạn chế kỹ thuật, không phải trí tuệ nhân tạo.
Nghịch Lý Của Việc Tạo Nghệ Thuật AI
Các mô hình khuếch tán như DALL-E và Stable Diffusion được thiết kế để tái tạo hình ảnh từ dữ liệu huấn luyện của chúng. Tuy nhiên, chúng liên tục tạo ra những tác phẩm nghệ thuật mới lạ, có ý nghĩa và kết hợp các yếu tố theo những cách bất ngờ. Điều này đã làm các nhà nghiên cứu bối rối trong nhiều năm - nếu những hệ thống này hoạt động bằng cách tái tổ hợp các mẫu đã học, làm thế nào chúng có thể tạo ra thứ gì đó thực sự mới?
Câu trả lời nằm ở hai cách tắt kỹ thuật mà các mô hình này sử dụng. Thứ nhất, chúng tập trung vào từng mảng pixel nhỏ thay vì nhìn toàn bộ hình ảnh. Thứ hai, chúng tự động điều chỉnh đầu ra khi đầu vào thay đổi vị trí. Những tính năng này, được gọi là tính cục bộ và bất biến tịnh tiến, trước đây được coi là những hạn chế đơn thuần.
Các Hệ thống AI được Đề cập
- Trình Tạo Hình ảnh: DALL-E , Imagen , Stable Diffusion
 - Mô hình Ngôn ngữ: ChatGPT (phát hành năm 2022)
 - Trọng tâm Nghiên cứu: Các mô hình khuếch tán sử dụng quy trình khử nhiễu
 - Hạn chế: Các phát hiện không giải thích được khả năng sáng tạo trong các mô hình ngôn ngữ lớn hoặc các hệ thống AI khác
 
Tranh Luận Cộng Đồng Về Khả Năng Sáng Tạo Thực Sự
Nghiên cứu này đã gây ra những cuộc thảo luận sôi nổi về việc liệu các hệ thống AI có thực sự sáng tạo hay chỉ đơn giản là remix nội dung hiện có. Những người chỉ trích cho rằng việc gọi quá trình này là sáng tạo đã thổi phồng khả năng của AI, chỉ ra những khác biệt cơ bản giữa quá trình của con người và máy móc.
Khả năng sáng tạo của con người và AI có thể không khác biệt nhiều. Chúng ta lắp ráp mọi thứ dựa trên những gì chúng ta trải nghiệm, những gì chúng ta quan sát, những gì chúng ta nhìn thấy, nghe thấy hoặc mong muốn. AI cũng chỉ đang lắp ráp các khối xây dựng từ những gì nó đã thấy và những gì nó được yêu cầu làm.
Tuy nhiên, nhiều người trong cộng đồng công nghệ phản đối sự so sánh này. Họ nhấn mạnh rằng con người không cần xử lý toàn bộ internet để tạo ra ý tưởng, có thể khởi xướng hành động mà không cần lời nhắc, và sở hữu sự hiểu biết thực sự thay vì chỉ khớp mẫu.
![]()  | 
|---|
| Một học giả đang suy ngẫm khám phá ranh giới của sự sáng tạo giữa AI và khả năng của con người | 
Toán Học Đằng Sau Khả Năng Sáng Tạo Của Máy
Các nhà nghiên cứu tại Stanford Marten Kard và Surya Ganguli đã tạo ra một mô hình toán học gọi là máy Equivariant Local Scorer (ELS). Hệ thống này chỉ sử dụng các nguyên tắc của tính cục bộ và bất biến - mà không cần bất kỳ dữ liệu huấn luyện nào - nhưng vẫn khớp với đầu ra của các mô hình khuếch tán mạnh mẽ với độ chính xác 90%.
Đột phá này cho thấy rằng khả năng sáng tạo trong việc tạo ảnh AI là một hệ quả toán học có thể dự đoán được về cách các hệ thống này xử lý thông tin. Chính những ràng buộc hạn chế sự chú ý của các mô hình này đối với các mảng ảnh nhỏ là điều cho phép khả năng sáng tạo rõ ràng của chúng.
Sự phân biệt giữa ảo giác AI và khả năng sáng tạo cũng vẫn còn gây tranh cãi. Nhiều người cho rằng sự khác biệt nằm ở bối cảnh và ý định - khả năng sáng tạo tạo ra thứ gì đó mới và có giá trị, trong khi ảo giác tạo ra thông tin sai lệch được trình bày như sự thật.
Phương pháp nghiên cứu
- Độ chính xác của máy ELS: 90% khớp với các mô hình khuếch tán đã được huấn luyện
 - Các mô hình được kiểm tra: Hệ thống khuếch tán Kushlets và lVers
 - Các tính năng kỹ thuật chính: Tính địa phương (xử lý dựa trên patch) và tính bất biến tịnh tiến (điều chỉnh vị trí)
 - Lịch trình nghiên cứu: Nghiên cứu được thực hiện từ 2022-2024, trình bày tại Hội nghị Quốc tế về Học máy 2024
 
Ý Nghĩa Đối Với Việc Hiểu Biết Về Trí Tuệ
Mặc dù nghiên cứu này giải thích khả năng sáng tạo trong các bộ tạo ảnh, nhưng nó không đề cập đến những hành vi tương tự trong các mô hình ngôn ngữ hoặc các hệ thống AI khác. Các cơ chế đằng sau khả năng sáng tạo rõ ràng của chúng vẫn còn bí ẩn, cho thấy có nhiều con đường dẫn đến điều chúng ta coi là khả năng sáng tạo nhân tạo.
Những phát hiện này thách thức sự hiểu biết của chúng ta về cả khả năng sáng tạo nhân tạo và con người. Nếu khả năng sáng tạo của AI xuất hiện từ việc xử lý thông tin không đầy đủ và lấp đầy khoảng trống, có lẽ khả năng sáng tạo của con người hoạt động tương tự - tất cả chúng ta đều làm việc với kiến thức hạn chế và thỉnh thoảng tạo ra thứ gì đó vừa mới lạ vừa có ý nghĩa.
Lưu ý: Các mô hình khuếch tán hoạt động bằng cách chuyển đổi hình ảnh thành nhiễu số, sau đó dần dần loại bỏ nhiễu đó để tái tạo hoặc tạo ra hình ảnh mới. Bất biến tịnh tiến có nghĩa là hệ thống duy trì các mối quan hệ không gian nhất quán khi các yếu tố hình ảnh được di chuyển.
Tham khảo: Researchers Uncover Hidden Ingredients Behind AI Creativity
![]()  | 
|---|
| Một cánh tay robot sẵn sàng tạo ra nghệ thuật, đại diện cho sự kết hợp giữa công nghệ và sáng tạo trong các hệ thống AI | 


