Google Docs được tích hợp tính năng chuyển văn bản thành giọng nói bằng AI với công nghệ Gemini

Nhóm biên tập BigGo

Google Docs được tích hợp tính năng chuyển văn bản thành giọng nói bằng AI với công nghệ Gemini

Google đã giới thiệu tính năng âm thanh mới được hỗ trợ bởi AI cho Google Docs , có khả năng chuyển đổi các tài liệu viết thành giọng nói tự nhiên. Cải tiến này tận dụng công nghệ Gemini AI để mang đến cho người dùng trải nghiệm chuyển văn bản thành giọng nói tinh vi hơn so với các giọng nói truyền thống được tạo ra bởi máy tính.

Trải nghiệm âm thanh nâng cao với Gemini AI

Tính năng mới tạo ra các phiên bản âm thanh của tài liệu Google Docs bằng cách sử dụng xử lý AI tiên tiến. Người dùng có thể truy cập chức năng này thông qua menu Tools , nơi tùy chọn Audio mới tạo ra giọng đọc thực tế cho nội dung của họ. Hệ thống xử lý tài liệu tự động và bắt đầu phát với ngữ điệu và nhịp điệu tự nhiên được cải thiện, mặc dù công nghệ này vẫn cho thấy những hạn chế thỉnh thoảng điển hình của giọng nói được tạo ra bởi AI.

Điều khiển phát và tùy chỉnh toàn diện

Google đã triển khai một thanh công cụ nổi, có thể di chuyển được, cung cấp khả năng kiểm soát toàn diện trải nghiệm âm thanh. Người dùng có thể tạm dừng và tiếp tục phát, điều hướng tiến hoặc lùi qua các tài liệu, và điều chỉnh tốc độ phát từ 0.5x đến 2x tốc độ bình thường. Giao diện cho phép chỉnh sửa tài liệu liền mạch trong khi duy trì đồng bộ hóa âm thanh.

Thông số kỹ thuật tính năng:

Phạm vi tốc độ phát lại: 0.5x đến 2.0x
Hỗ trợ ngôn ngữ: Chỉ tiếng Anh
Khả năng tương thích nền tảng: Chỉ trên máy tính để bàn
Điều khiển âm thanh: Phát, tạm dừng, tua tới/lùi, điều chỉnh tốc độ
Tùy chỉnh: Lựa chọn giọng nói, chèn nút âm thanh

Nhiều tùy chọn giọng nói cho các ngữ cảnh khác nhau

Tính năng này cung cấp bảy hồ sơ giọng nói riêng biệt, mỗi hồ sơ được thiết kế cho các trường hợp sử dụng cụ thể. Giọng Narrator mặc định cung cấp cách truyền đạt mượt mà, âm thanh trung bình, trong khi các lựa chọn thay thế bao gồm Educator với giọng thân thiện, cao hơn, Teacher cung cấp giọng kể rõ ràng, thấp, và Persuader truyền đạt giọng nói hấp dẫn, thấp. Các tùy chọn bổ sung bao gồm giọng Explainer , Coach , và Motivator , mỗi giọng có đặc điểm độc đáo phù hợp với các loại tài liệu và đối tượng khác nhau.

Các Tùy Chọn Giọng Nói Có Sẵn:

Narrator: Mượt mà, âm sắc trung bình (mặc định)
Educator: Thân thiện, âm sắc cao hơn
Teacher: Rõ ràng, âm sắc trầm
Persuader: Hấp dẫn, âm sắc trầm
Explainer: Sống động, âm sắc trầm
Coach: Sống động, âm sắc cao hơn
Motivator: Tràn đầy năng lượng, âm sắc trung bình

Khả năng chia sẻ âm thanh cộng tác

Tác giả tài liệu có thể chèn các nút âm thanh trực tiếp vào Google Docs của họ, cho phép người đọc và cộng tác viên truy cập tính năng chuyển văn bản thành giọng nói mà không cần quyền đặc biệt. Những nút này có thể được tùy chỉnh về tên, kích thước và màu sắc, cung cấp tính linh hoạt cho các định dạng tài liệu khác nhau và yêu cầu chuyên nghiệp. Chức năng này mở rộng tiện ích của tính năng vượt ra ngoài việc sử dụng cá nhân đến các tình huống cộng tác nhóm.

Ứng dụng thực tế cho viết và chỉnh sửa

Tính năng âm thanh phục vụ nhiều mục đích cho những người tạo nội dung và biên tập viên. Các nhà văn có thể xác định lỗi chính tả và ngữ pháp hiệu quả hơn bằng cách nghe văn bản của họ được đọc to, đồng thời đánh giá dòng chảy tự nhiên và nhịp điệu của văn xuôi của họ. Quá trình xem xét thính giác này bổ sung cho các phương pháp chỉnh sửa trực quan truyền thống và giúp tác giả tinh chỉnh phong cách viết của họ.

Tính khả dụng và hạn chế nền tảng

Hiện tại, tính năng này chỉ có sẵn độc quyền cho người dùng Google Workspace với các gói Business Standard , Business Plus , Enterprise Standard và Enterprise Plus , cũng như người đăng ký Gemini Education và Education Premium . Người dùng cá nhân với đăng ký Google AI Pro hoặc AI Ultra cũng có quyền truy cập. Chức năng này bị giới hạn ở các tài liệu tiếng Anh và nền tảng máy tính để bàn, với không có hỗ trợ di động nào được công bố vào thời điểm này.

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌