Cơ sở dữ liệu phát âm của Google khơi mào cuộc tranh luận về giọng nói tổng hợp và con người

Nhóm Cộng đồng BigGo
Cơ sở dữ liệu phát âm của Google khơi mào cuộc tranh luận về giọng nói tổng hợp và con người

Trong thế giới của các công cụ học ngôn ngữ và phát âm, một cuộc cách mạng thầm lặng đang diễn ra. Các nhà phát triển và những người đam mê ngôn ngữ đã phát hiện ra rằng Google duy trì các cơ sở dữ liệu phát âm từ ngữ rộng lớn, có thể truy cập thông qua các tập lệnh và công cụ đơn giản. Những khám phá này đã dẫn đến các tiện ích dòng lệnh sáng tạo như gsay, công cụ tải trực tiếp các tệp phát âm từ máy chủ của Google. Điều bắt đầu như một sự tò mò kỹ thuật đã phát triển thành một cuộc thảo luận cộng đồng về chất lượng giọng nói, nguồn dữ liệu và tương lai của các công cụ phát âm.

Cuộc tranh luận giữa giọng nói con người và tổng hợp

Cuộc thảo luận sôi nổi nhất giữa những người dùng xoay quanh chất lượng của các tệp phát âm từ Google. Nhiều người dùng nhận thấy sự khác biệt rõ rệt giữa các cơ sở dữ liệu phát âm cũ và mới. Cơ sở dữ liệu năm 2020 dường như chứa các phát âm được ghi âm bởi con người, trong khi các phiên bản năm 2024 nghe càng ngày càng giống tổng hợp đối với nhiều thính giả. Nhận định này đã khiến các nhà phát triển mặc định sử dụng các cơ sở dữ liệu cũ hơn bất chấp những hạn chế của chúng.

Tôi có thể sai nhưng các phát âm ngày 19/04/2024 nghe có vẻ tổng hợp đối với tôi! Do đó, phiên bản 29/04/2020 được đặt làm mặc định mặc dù chậm hơn và ít đầy đủ hơn.

Sự ưa chuộng giọng nói con người không chỉ là vì sự hoài niệm. Người dùng báo cáo rằng một số giọng nói từ cơ sở dữ liệu năm 2016 của Google có những phẩm chất gần như ASMR, với một bình luận viên ghi nhận rằng họ có thể nghe cô ấy đọc từ điển trong khi tôi thiu thiu ngủ. Sự kết nối cảm xúc này với những đặc điểm giọng nói cụ thể làm nổi bật cách các công cụ phát âm phục vụ cả mục đích chức năng lẫn thẩm mỹ cho người học ngôn ngữ.

Các Phiên Bản Cơ Sở Dữ Liệu Phát Âm của Google

  • Cơ sở dữ liệu 2020: Được cho là chứa các bản phát âm do con người ghi âm, được người dùng ưa chuộng vì chất lượng giọng nói
  • Cơ sở dữ liệu 2024: Toàn diện hơn nhưng có khả năng nghe giống giọng tổng hợp, truy cập nhanh hơn
  • Cơ sở dữ liệu 2016: Được sử dụng trong một số công cụ trình duyệt, nổi bật với chất lượng giọng nói Mỹ đặc biệt hấp dẫn

Các nguồn phát âm thay thế xuất hiện

Khi các nhà phát triển khám phá các cơ sở dữ liệu phát âm của Google, cộng đồng cũng đã đưa ra các nguồn thay thế. Forvo.com, một nền tảng với các phát âm do cộng đồng tạo ra trên nhiều ngôn ngữ, mang đến một cách tiếp cận khác. Không giống như cơ sở dữ liệu tập trung của Google, Forvo dựa vào sự đóng góp của người dùng, tạo ra một bộ sưu tập đa dạng về chất giọng vùng miền và phong cách nói. Sự tồn tại của cả các giải pháp tập trung từ công ty và dựa vào cộng đồng cho thấy nhu cầu đa dạng của người học ngôn ngữ.

Một số nhà phát triển đã tạo ra các giải pháp kết hợp nhiều nguồn khác nhau. Một người dùng đã chia sẻ một công cụ thông minh chạy trên trình duyệt để nhanh chóng so sánh phát âm tiếng Anh Anh với tiếng Anh Mỹ bằng cách sử dụng cơ sở dữ liệu cũ năm 2016 của Google. Những đổi mới này cho thấy các nhà phát triển đang xây dựng các công cụ cá nhân hóa đáp ứng sở thích học tập cụ thể như thế nào, thay vì dựa vào các giải pháp một kích thước phù hợp cho tất cả.

Các Nguồn Phát Âm Thay Thế

  • Forvo.com: Phát âm do cộng đồng đóng góp trên nhiều ngôn ngữ với các biến thể theo khu vực
  • Cambridge Learner Dictionary: Nguồn thay thế chất lượng cao được người dùng đề xuất khi tìm kiếm cách phát âm đáng tin cậy
  • Oxford 3000: Danh sách từ vựng có bản quyền được sử dụng bởi một số công cụ giáo dục và được tham chiếu trong cơ sở dữ liệu của Google

Thách thức kỹ thuật và các giải pháp thay thế

Làm việc với các cơ sở dữ liệu phát âm của Google không phải không có thách thức. Các nhà phát triển đã gặp phải các vấn đề với các biện pháp chống thu thập dữ liệu đang phát triển của Google, buộc họ phải từ bỏ phương pháp thu thập dữ liệu web truyền thống để chuyển sang các phương pháp heuristic. Các quy tắc đặt tên cho tệp phát âm không được ghi chép một cách nhất quán, dẫn đến việc thiếu một số từ và cụm từ.

Cộng đồng đã phát triển nhiều giải pháp thay thế khác nhau, từ chiến lược lưu trữ đệm đến cơ chế dự phòng. Một cách tiếp cận phổ biến liên quan đến việc kết nối nhiều năm cơ sở dữ liệu với nhau, như được minh họa trong mẫu gsay -y 2020 || gsay -y 2024, lệnh này thử sử dụng cơ sở dữ liệu có giọng nói giống con người được ưa thích trước, sau đó mới chuyển sang phiên bản mới hơn, đầy đủ hơn nhưng có khả năng là tổng hợp. Những sự thích nghi kỹ thuật này cho thấy khả năng phục hồi của cộng đồng trong việc duy trì quyền truy cập vào các tài nguyên phát âm có giá trị.

Yêu cầu kỹ thuật cho công cụ gsay

  • Phụ thuộc: curl để tải xuống các tệp, cộng thêm một trình phát âm thanh (ffplay, mpv, hoặc pw-play)
  • Cài đặt: sudo apt install curl ffmpeg trên các hệ thống dựa trên Debian
  • Vị trí bộ nhớ đệm: thư mục ~/.cache/gsay để lưu trữ các tệp phát âm đã tải xuống

Tương lai của các công cụ phát âm

Cuộc thảo luận đang diễn ra tiết lộ những câu hỏi rộng hơn về tương lai của các cơ sở dữ liệu phát âm. Khi công nghệ tổng hợp giọng nói ngày càng cải thiện, ranh giới giữa giọng nói con người và tổng hợp tiếp tục trở nên mờ nhạt. Tuy nhiên, nhiều người dùng vẫn thích những điểm không hoàn hảo tinh tế và đặc tính của các bản ghi âm con người. Sự ưa chuộng của cộng đồng đối với các cơ sở dữ liệu cũ hơn cho thấy rằng tiến bộ công nghệ không phải lúc nào cũng đồng nghĩa với trải nghiệm người dùng tốt hơn.

Ngoài ra, cũng có sự quan tâm ngày càng tăng đối với các giải pháp chạy cục bộ mà không phụ thuộc vào API của các công ty. Các bình luận về việc tạo ra các bản sao giọng nói AI từ các bản ghi âm hiện có ám chỉ đến những khả năng trong tương lai cho các công cụ phát âm cá nhân hóa. Như một người dùng đã tự hỏi về việc tìm đủ nội dung để sao chép giọng nói yêu thích của họ, rõ ràng là cộng đồng đang nghĩ về các giải pháp thay thế bền vững, tự lưu trữ thay vì các dịch vụ dựa trên đám mây.

Cuộc thảo luận xung quanh các cơ sở dữ liệu phát âm của Google phản ánh các xu hướng lớn hơn trong việc áp dụng công nghệ. Người dùng ngày càng trở nên sành sỏi hơn về chất lượng giọng nói, sáng tạo hơn trong việc phát triển công cụ và quan tâm hơn đến việc bảo tồn quyền truy cập vào các tài nguyên mà họ coi trọng. Dù thông qua các tập lệnh dòng lệnh, dấu trang trình duyệt hay nền tảng cộng đồng, việc theo đuổi phát âm hoàn hảo tiếp tục thúc đẩy sự đổi mới theo những cách bất ngờ.

Tham khảo: gsay