Mô hình nhận dạng giọng nói Whisper của OpenAI có một đặc điểm bất thường đang gây xôn xao trong cộng đồng công nghệ. Khi được cung cấp các file âm thanh hoàn toàn im lặng, AI này liên tục tạo ra cùng một văn bản ảo giác qua nhiều ngôn ngữ khác nhau - tiết lộ những gì có vẻ như là bằng chứng về việc huấn luyện trên nội dung lậu.
Lời Thú Nhận Im Lặng
Khi người dùng nhập âm thanh hoàn toàn im lặng vào Whisper , mô hình không đơn giản trả về kết quả trống hoặc báo hiệu không phát hiện được lời nói. Thay vào đó, nó tự tin chuyển đổi các cụm từ cụ thể có vẻ như đến từ các file phụ đề. Trong tiếng Ả Rập, nó liên tục xuất ra Translation by Nancy Qanqar, trong khi âm thanh im lặng tiếng Đức tạo ra Subtitles of ZDF for funk, 2017. Đây không phải là những ảo giác ngẫu nhiên - chúng là thông báo bản quyền và ghi công người dịch thường xuất hiện ở cuối các file phụ đề.
Mô hình này mở rộng qua nhiều ngôn ngữ. Người dùng Trung Quốc báo cáo thấy các cảnh báo vi phạm bản quyền như For study/research purpose only. Please delete after 48 hours - một tuyên bố từ chối trách nhiệm phổ biến được tìm thấy trong phụ đề phim không chính thức. Đầu ra tiếng Nga ghi công DimaTorzok cho phụ đề, trong khi tiếng Anh thường tạo ra các cụm từ kiểu YouTube như Thanks for watching! Please subscribe and like!
Các Ảo Giác Im Lặng Phổ Biến của Whisper Theo Ngôn Ngữ:
- Tiếng Ả Rập: "Translation by Nancy Qanqar" (ترجمة نانسي قنقر)
- Tiếng Đức: "Subtitles of ZDF for funk, 2017"
- Tiếng Trung: "For study/research purpose only. Please delete after 48 hours"
- Tiếng Anh: "Thanks for watching! Please subscribe and like!"
- Tiếng Nga: "Subtitles by DimaTorzok"
- Tiếng Séc: "Subtitles made by JohnyX"
- Tiếng Thổ Nhĩ Kỳ: "esekadam iyi seyirler diler"
Vấn Đề Chất Lượng Dữ Liệu Huấn Luyện
Hành vi này chỉ ra một vấn đề chất lượng dữ liệu cơ bản trong quá trình huấn luyện của Whisper . Mô hình có vẻ như đã học được rằng sự im lặng ở cuối nội dung âm thanh nên được ghép nối với những thông báo ghi công này, bởi vì đó là những gì nó thấy lặp đi lặp lại trong dữ liệu huấn luyện. Các cuộc thảo luận cộng đồng tiết lộ đây là một trường hợp điển hình của mô hình quá khớp với các mô hình giả mạo thay vì học cách xử lý đúng sự im lặng.
Bộ tối ưu hóa đang hoạt động chính xác, và mô hình thực sự tồn tại trong dữ liệu huấn luyện. Nhưng hãy xem xét: Hành vi này làm hỏng hiệu suất của mô hình trên dữ liệu ngoài mẫu; mỗi từ bạn dự đoán trong lúc im lặng sẽ tăng Tỷ Lệ Lỗi Từ của bản ghi.
Vấn đề trở nên đặc biệt có vấn đề vì Whisper có khả năng được huấn luyện trên các file phụ đề từ nhiều nguồn khác nhau, bao gồm cả bản dịch do fan làm được phân phối cùng nội dung lậu. Những phụ đề không chính thức này thường chứa ghi công người dịch, trò đùa và thông báo bản quyền không liên quan gì đến nội dung nói thực tế.
Giải Pháp Kỹ Thuật và Cách Khắc Phục
Cộng đồng công nghệ đã xác định một số cách tiếp cận để giải quyết vấn đề này. Voice Activity Detection ( VAD ) nổi lên như giải pháp được khuyến nghị nhất - về cơ bản là tiền xử lý âm thanh để xác định và loại bỏ các phân đoạn im lặng trước khi gửi chúng đến Whisper . Một số triển khai cung cấp các tham số như min_silence_duration_ms
để giúp lọc ra các phần im lặng có vấn đề.
Tuy nhiên, nhiều người dùng cảm thấy bực bội rằng những cách khắc phục như vậy lại cần thiết cho một mô hình AI hàng đầu. Các ảo giác không chỉ xảy ra với sự im lặng hoàn toàn - chúng có thể xuất hiện trong các khoảng dừng tự nhiên trong lời nói, phần nhạc hoặc khi chất lượng âm thanh kém.
Các Giải Pháp Kỹ Thuật:
- Voice Activity Detection ( VAD ): Tiền xử lý âm thanh để phát hiện và loại bỏ các đoạn im lặng
- Điều chỉnh tham số: Sử dụng
min_silence_duration_ms
trong các triển khai faster-whisper - Tiền xử lý âm thanh: Loại bỏ khoảng lặng khỏi các clip âm thanh trước khi chuyển đổi
- Điều chỉnh ngưỡng: Chỉnh sửa cài đặt
logprob_threshold
(hiệu quả hạn chế trên các mô hình v3)
Tác Động Rộng Hơn
Khám phá này đặt ra câu hỏi về cách tiếp cận của ngành AI đối với việc tuyển chọn dữ liệu huấn luyện. Mặc dù được biết rộng rãi rằng các mô hình ngôn ngữ lớn huấn luyện trên tài liệu có bản quyền, bằng chứng cụ thể về việc sử dụng nội dung lậu - hoàn chỉnh với ghi công người dịch fan - làm nổi bật mức độ của thực hành này.
Tình huống này cũng chứng minh cách thức ngay cả các hệ thống AI tinh vi cũng có thể thể hiện các hành vi bất ngờ khi gặp phải các trường hợp biên như sự im lặng. Đối với một công cụ nhận dạng giọng nói, việc xử lý đúng sự vắng mặt của lời nói nên là một khả năng cơ bản, không phải là một suy nghĩ sau này đòi hỏi các bước tiền xử lý bổ sung.
Khi các mô hình AI trở nên phổ biến hơn trong các hệ thống sản xuất, những loại tạo tác huấn luyện này đóng vai trò như những lời nhắc nhở quan trọng rằng rác vào, rác ra vẫn áp dụng - ngay cả đối với các hệ thống học máy tiên tiến nhất.
Tham khảo: Complete silence is always hallucinated as Translation by Nancy Qunqar #2608