Ứng dụng Desktop Cosmos Cho Phép Tìm Kiếm và Kiếm Tiền Từ Kho Lưu Trữ Media Bằng AI Cục Bộ

Nhóm Cộng đồng BigGo
Ứng dụng Desktop Cosmos Cho Phép Tìm Kiếm và Kiếm Tiền Từ Kho Lưu Trữ Media Bằng AI Cục Bộ

Một ứng dụng desktop mới có tên Cosmos đang thu hút sự chú ý nhờ khả năng biến đổi các kho lưu trữ media không hoạt động thành tài sản có thể tìm kiếm và tạo ra doanh thu bằng cách sử dụng xử lý AI cục bộ. Công cụ này giải quyết một vấn đề phổ biến mà các tổ chức truyền thông gặp phải: nội dung có giá trị bị chôn vùi trong các kho lưu trữ khổng lồ vẫn không được khám phá và không được kiếm tiền do khả năng tìm kiếm kém.

Xử Lý Cục Bộ Đảm Bảo Quyền Riêng Tư và Bảo Mật

Khác với các giải pháp dựa trên đám mây, Cosmos chạy hoàn toàn trên máy của người dùng mà không yêu cầu tải dữ liệu lên bất kỳ máy chủ bên ngoài nào. Ứng dụng sử dụng các mô hình machine learning cục bộ bao gồm Whisper cho việc phiên âm audio và các mô hình embedding khác nhau như CLIP và SigLIP để hiểu ngữ nghĩa. Cách tiếp cận này đảm bảo rằng nội dung media nhạy cảm không bao giờ rời khỏi tầm kiểm soát của người dùng trong khi vẫn cung cấp khả năng tìm kiếm nâng cao được hỗ trợ bởi AI.

Nhóm phát triển đã chọn cách tiếp cận local-first này một cách có chủ ý, nhận ra rằng các tổ chức truyền thông thường xử lý nội dung bí mật hoặc độc quyền không thể chia sẻ với các dịch vụ bên thứ ba.

Hỗ trợ nền tảng:

  • Hiện tại: Chỉ dành cho macOS
  • Quyền riêng tư: 100% xử lý cục bộ cho việc lập chỉ mục và tìm kiếm
  • Dữ liệu: Không truyền tải gì đến máy chủ bên ngoài cho các chức năng cốt lõi
  • Lưu trữ: Toàn bộ nội dung được giữ trên máy của người dùng

Tìm Kiếm Ngữ Nghĩa Vượt Ra Ngoài Tên File

Điểm mạnh cốt lõi của ứng dụng nằm ở khả năng tìm kiếm ngữ nghĩa, có thể tìm ra nội dung dựa trên các khái niệm thay vì chỉ tên file hoặc metadata cơ bản. Người dùng có thể tìm kiếm trong kho lưu trữ của họ bằng các truy vấn ngôn ngữ tự nhiên để tìm các cảnh cụ thể, tâm trạng, hoặc các yếu tố hình ảnh mà không thể định vị được thông qua tìm kiếm dựa trên file truyền thống.

Các chỉ số hiệu suất cho thấy kết quả đầy hứa hẹn, với một bộ phim dài 2 giờ thông thường chỉ mất ít hơn 5 phút để lập chỉ mục trên bộ xử lý M2. Hệ thống sử dụng smart sampling để phát hiện các khung hình tương tự, tối ưu hóa thời gian xử lý bằng cách tập trung vào nội dung độc đáo. Các truy vấn tìm kiếm thường trả về kết quả trong vòng 100-250 milliseconds.

Chỉ số hiệu suất:

  • Tốc độ lập chỉ mục: <5 phút cho một bộ phim dài 2 giờ (bộ xử lý M2)
  • Độ trễ tìm kiếm: 100-250ms cho các truy vấn ngữ nghĩa
  • Xử lý: Lấy mẫu thông minh phát hiện các khung hình tương tự để tối ưu hóa
Tìm kiếm ngôn ngữ tự nhiên trong Cosmos, làm nổi bật sự tương tác của người dùng với công cụ
Tìm kiếm ngôn ngữ tự nhiên trong Cosmos, làm nổi bật sự tương tác của người dùng với công cụ

Triển Khai Kỹ Thuật và Hạn Chế Nền Tảng

Được xây dựng bằng framework Tauri, Cosmos hiện tại chỉ hỗ trợ macOS, điều này đã thu hút một số chỉ trích từ những người dùng tiềm năng mong đợi tính khả dụng đa nền tảng. Nhóm phát triển đã di chuyển từ Electron sang Tauri và đơn giản hóa kiến trúc cơ sở dữ liệu từ Redis sang SQLite với các extension vector embedding, nhận thấy rằng các giải pháp đơn giản hơn hoạt động tốt hơn cho trường hợp sử dụng cụ thể này.

Ứng dụng tích hợp với Veo 3 của Google cho khả năng tạo video, yêu cầu người dùng cung cấp API key Gemini của riêng họ. Mặc dù tính năng này liên quan đến xử lý đám mây, nội dung được tạo ra vẫn được lưu cục bộ để duy trì quyền kiểm soát của người dùng đối với tài sản media của họ.

Ngăn xếp công nghệ:

  • Framework: Tauri (đã di chuyển từ Electron)
  • Cơ sở dữ liệu: SQLite với các tiện ích mở rộng vector embedding
  • Mô hình ML: Whisper (phiên âm âm thanh), CLIP, SigLIP (embeddings)
  • Xử lý phương tiện: ImageMagick, FFmpeg
  • Tạo video: Google Veo 3 (yêu cầu khóa API Gemini)
Sản phẩm Trợ lý AI Cosmos hiển thị các tệp phương tiện được tổ chức sẵn sàng để lập chỉ mục
Sản phẩm Trợ lý AI Cosmos hiển thị các tệp phương tiện được tổ chức sẵn sàng để lập chỉ mục

Phản Hồi Cộng Đồng và Phát Triển Tương Lai

Phản hồi sớm từ người dùng nêu bật cả sự hào hứng và lo ngại về sản phẩm. Một số người dùng đang yêu cầu các video demo để hiểu rõ hơn về khả năng của công cụ trong các tình huống thực tế. Nhóm phát triển đã chia sẻ các chi tiết triển khai kỹ thuật, khuyến khích những người khác xây dựng các giải pháp tương tự và đóng góp vào kiến thức cộng đồng mã nguồn mở.

Các kế hoạch tương lai bao gồm thử nghiệm với các mô hình tạo video hoàn toàn cục bộ để loại bỏ nhu cầu về bất kỳ dịch vụ đám mây nào, có khả năng biến Cosmos thành một giải pháp hoàn toàn offline cho quản lý kho lưu trữ media và tạo nội dung.

Tham khảo: Unlock the value of your media archive

Sự cộng tác của nhóm trong việc cải tiến ứng dụng Cosmos dựa trên phản hồi của người dùng
Sự cộng tác của nhóm trong việc cải tiến ứng dụng Cosmos dựa trên phản hồi của người dùng