OWhisper Ra Mắt Như Máy Chủ Chuyển Đổi Giọng Nói Thành Văn Bản Cục Bộ Với Streaming Thời Gian Thực và Hỗ Trợ Linux

Nhóm Cộng đồng BigGo
OWhisper Ra Mắt Như Máy Chủ Chuyển Đổi Giọng Nói Thành Văn Bản Cục Bộ Với Streaming Thời Gian Thực và Hỗ Trợ Linux

OWhisper đã xuất hiện như một công cụ mã nguồn mở mới được thiết kế để mang khả năng chuyển đổi giọng nói thành văn bản cục bộ đến các nhà phát triển và người dùng muốn kiểm soát dịch vụ phiên âm của họ. Được tạo ra bởi đội ngũ đứng sau Hyprnote , dự án này giải quyết nhu cầu ngày càng tăng về các giải pháp thay thế tự lưu trữ cho các dịch vụ phiên âm dựa trên đám mây, định vị bản thân như Ollama cho Speech-to-Text.

Khả Năng Streaming Thời Gian Thực Thu Hút Sự Quan Tâm Của Người Dùng

Phản hồi từ cộng đồng đặc biệt nhiệt tình về các tính năng streaming thời gian thực của OWhisper . Người dùng đang tích cực thử nghiệm khả năng cung cấp đầu ra văn bản liên tục từ các luồng âm thanh trực tiếp của nền tảng, với nhiều người tìm kiếm giao diện dòng lệnh có thể chuyển văn bản đã phiên âm trực tiếp đến các chương trình khác. Công cụ sử dụng Voice Activity Detection ( VAD ) để chia nhỏ âm thanh một cách thông minh để xử lý, cho phép phiên âm phản hồi nhanh hơn so với các cửa sổ xử lý truyền thống 30 giây.

Chức năng streaming hoạt động thông qua API tương thích với Deepgram , cho phép các nhà phát triển sử dụng các SDK client Deepgram hiện có để kết nối với các instance OWhisper cục bộ của họ. Lựa chọn tương thích này đã được đón nhận tốt vì nó cung cấp giao diện quen thuộc cho các nhà phát triển đã làm việc với các dịch vụ chuyển đổi giọng nói thành văn bản.

Tính năng chính:

  • Xử lý chuyển đổi giọng nói thành văn bản theo thời gian thực và theo lô
  • Phát hiện hoạt động giọng nói ( VAD ) để phân đoạn âm thanh thông minh
  • Khả năng xuất văn bản trực tuyến
  • Giải pháp thay thế tự lưu trữ cho các dịch vụ phiên âm đám mây
  • Mã nguồn mở với sự phát triển từ cộng đồng
  • Tính năng phân biệt người nói dự kiến phát hành vào tháng 9 năm 2025

Hỗ Trợ Đa Nền Tảng và Đa Dạng Mô Hình

Những người dùng đầu tiên đã thử nghiệm thành công OWhisper trên các hệ thống Linux , với đội ngũ phát triển cung cấp các tệp thực thi được xây dựng sẵn cho nhiều nền tảng. Công cụ hỗ trợ một loạt các mô hình cục bộ, bao gồm các biến thể Whisper khác nhau và các mô hình Moonshine mới hơn, cung cấp xử lý nhanh hơn cho các đoạn âm thanh ngắn hơn.

Moonshine xử lý các đoạn âm thanh 10 giây nhanh hơn 5 lần so với Whisper trong khi duy trì WER tương tự (hoặc tốt hơn!).

Việc lựa chọn mô hình bao gồm các phiên bản được lượng tử hóa được tối ưu cho các yêu cầu hiệu suất khác nhau, từ các mô hình nhỏ cho các ứng dụng nhẹ đến các mô hình lớn hơn để có độ chính xác tốt hơn.

Các mô hình cục bộ được hỗ trợ:

  • Các biến thể Whisper : whisper-cpp-base-q8, whisper-cpp-small-q8, whisper-cpp-large-turbo-q8
  • Phiên bản tối ưu hóa cho tiếng Anh: whisper-cpp-base-q8-en, whisper-cpp-tiny-q8-en, whisper-cpp-small-q8-en
  • Các mô hình Moonshine : moonshine-onnx-tiny, moonshine-onnx-base (với các phiên bản lượng tử hóa q4 và q8)
  • Tất cả các mô hình đều có sẵn ở nhiều mức độ lượng tử hóa khác nhau để đáp ứng các yêu cầu hiệu suất khác nhau

Speaker Diarization Trong Lộ Trình

Một trong những tính năng được yêu cầu nhiều nhất từ cộng đồng là speaker diarization - khả năng xác định và phân tách các người nói khác nhau trong bản ghi âm. Mặc dù hiện tại chưa được triển khai, đội ngũ phát triển đã xác nhận khả năng này được lên kế hoạch phát hành vào khoảng tháng 9 năm 2025. Tính năng này sẽ mở rộng đáng kể tính hữu ích của OWhisper cho việc phiên âm cuộc họp và các tình huống nhiều người nói.

Hiện tại, ứng dụng Hyprnote liên quan có thể tách âm thanh từ microphone và loa thành hai kênh, cung cấp một dạng phân tách nguồn cơ bản, nhưng việc xác định người nói thực sự trong một kênh âm thanh duy nhất yêu cầu các mô hình AI bổ sung vẫn đang trong quá trình phát triển.

Tập Trung Vào Cộng Đồng Mã Nguồn Mở

Dự án duy trì cam kết mạnh mẽ với việc phát triển mã nguồn mở, với đội ngũ tích cực khuyến khích đóng góp từ cộng đồng và các pull request. Cách tiếp cận này tương phản với một số giải pháp thương mại khác và đã được các nhà phát triển tìm kiếm giải pháp minh bạch, được cộng đồng thúc đẩy cho nhu cầu chuyển đổi giọng nói thành văn bản đón nhận tốt.

OWhisper phục vụ hai trường hợp sử dụng chính: triển khai cục bộ nhanh chóng cho việc tạo mẫu và sử dụng cá nhân, và triển khai quy mô lớn hơn trên cơ sở hạ tầng tùy chỉnh. Sự linh hoạt này làm cho nó phù hợp cho cả các nhà phát triển cá nhân thử nghiệm với nhận dạng giọng nói và các tổ chức yêu cầu dịch vụ phiên âm riêng tư, tự lưu trữ.

Tham khảo: What is OWhisper?