KittenTTS đã nổi lên như một mô hình chuyển văn bản thành giọng nói mã nguồn mở đầy hứa hẹn, tuyên bố cung cấp khả năng tổng hợp giọng nói chất lượng cao chỉ trong 25MB với hoạt động chỉ sử dụng CPU. Tuy nhiên, phản hồi từ cộng đồng cho thấy có khoảng cách đáng kể giữa những lời hứa nhẹ nhàng của dự án và những thách thức triển khai thực tế.
Thông số kỹ thuật của mô hình
- Tham số: 15 triệu
- Kích thước mô hình: <25MB
- Hoạt động chỉ trên CPU (không yêu cầu GPU)
- Tần số lấy mẫu: 24kHz
- Giọng nói có sẵn: 6 lựa chọn (expr-voice-2/3/4-m/f)
- Giấy phép: Apache-2.0 (có vấn đề phụ thuộc GPL)
Cơn ác mộng cài đặt mâu thuẫn với tuyên bố hoạt động mọi nơi
Dự án tự tin tuyên bố Works literally everywhere (Hoạt động theo nghĩa đen ở mọi nơi) trong yêu cầu hệ thống, nhưng người dùng đang báo cáo các lỗi cài đặt trên diện rộng. Vấn đề cốt lõi xuất phát từ các vấn đề tương thích phiên bản Python và một mạng lưới phức tạp các phụ thuộc có thể phình to lên đến vài gigabyte. Người dùng đã gặp phải lỗi với cả phiên bản Python cũ và mới, với một số cài đặt yêu cầu lên đến 6GB không gian môi trường ảo - xa rời khỏi dung lượng 25MB được quảng cáo.
Tình hình đã trở nên nghiêm trọng đến mức các thành viên cộng đồng đang khuyến nghị các phương pháp cài đặt thay thế như uvx
và uv
để bỏ qua địa ngục phụ thuộc. Những công cụ này, mặc dù hữu ích, lại thêm một lớp phức tạp khác cho những người dùng chỉ đơn giản muốn thử mô hình.
Tóm tắt các vấn đề cài đặt
- Kích thước môi trường ảo: Lên tới 6GB (so với 25MB được quảng cáo)
- Các vấn đề tương thích phiên bản Python
- Phụ thuộc vào các thành phần có giấy phép GPL-3.0
- Lỗi biên dịch trên một số hệ thống
- Giải pháp thay thế được khuyến nghị: Sử dụng công cụ uvx/uv
Mối quan ngại về giấy phép GPL đe dọa việc sử dụng thương mại
Một vấn đề giấy phép quan trọng đã nổi lên có thể hạn chế việc áp dụng KittenTTS trong các ứng dụng thương mại. Mặc dù được quảng cáo với giấy phép Apache-2.0, mô hình phụ thuộc vào phonemizer
, sử dụng espeak-ng
có giấy phép GPL-3.0. Chuỗi phụ thuộc này thực tế làm cho toàn bộ dự án có giấy phép GPL, có khả năng chặn các trường hợp sử dụng thương mại.
Việc sử dụng thư viện chỉ có bốn dòng. Ba dòng thiết lập thư viện, dòng còn lại gọi nó. Cộng thêm tôi đoán là các câu lệnh import. Ngay cả khi bỏ qua Google vs Oracle, tôi không nghĩ những dòng đó tự chúng đáp ứng bất kỳ ngưỡng độc đáo nào.
Xung đột giấy phép này đã khơi mào các cuộc thảo luận về các giải pháp tiềm năng, bao gồm việc loại bỏ phụ thuộc GPL hoặc thực hiện các phương pháp cấp phép kép.
Đánh giá chất lượng và hiệu suất trái chiều
Thử nghiệm cộng đồng cho thấy kết quả trái chiều về chất lượng TTS thực tế. Trong khi một số người dùng khen ngợi thành tựu kỹ thuật khi nhét một mô hình TTS neural vào 25MB, những người khác mô tả đầu ra như kim loại và nhân tạo. Các điểm chuẩn hiệu suất cho thấy mô hình tạo ra âm thanh với tốc độ khoảng 5 lần thời gian thực trên phần cứng hiện đại, với độ trễ ban đầu khoảng 315ms cho văn bản ngắn.
Chất lượng dường như thay đổi đáng kể giữa các tùy chọn giọng nói khác nhau, với một số giọng nghe như thanh thiếu niên chưa hoàn thành dậy thì trong khi những giọng khác được mô tả là quá phấn khích hoặc nhân tạo. Một số người dùng đã lưu ý các vấn đề phát âm với số và một số kết hợp từ nhất định.
Điểm chuẩn hiệu năng ( Intel Core i9-14900HX )
- Thời gian tải mô hình: ~710ms
- Độ trễ ban đầu: ~315ms cho văn bản ngắn
- Tốc độ tạo âm thanh: 5.46x thời gian thực cho văn bản dài
- Hiệu năng ổn định trên các giọng nói khác nhau (4.63x - 5.28x thời gian thực)
Phản hồi nhà phát triển và kế hoạch tương lai
Đội ngũ phát triển đã thừa nhận những vấn đề này và chỉ ra rằng bản phát hành hiện tại chỉ là một checkpoint xem trước từ quá trình đào tạo sớm. Họ hứa hẹn một bản phát hành mô hình đầy đủ với cả phiên bản 15M và 80M tham số sẽ mang lại chất lượng cao hơn đáng kể. Đội ngũ cũng đang làm việc để giải quyết các vấn đề phụ thuộc và mối quan ngại về giấy phép.
Bất chấp những thách thức hiện tại, dự án đại diện cho một bước quan trọng hướng tới các mô hình AI thực sự di động có thể chạy trên các thiết bị biên mà không cần yêu cầu GPU. Khái niệm về các mô hình TTS siêu nhẹ đã tạo ra sự quan tâm đáng kể trong cộng đồng, đặc biệt cho các ứng dụng nhúng và trường hợp sử dụng ngoại tuyến.
Tham khảo: Kitten TTS