Chip Cấy Não Chuyển Đổi Suy Nghĩ Thành Lời Nói Theo Thời Gian Thực, Nhưng Độ Chính Xác Vẫn Là Thách Thức

Nhóm Cộng đồng BigGo

Chip Cấy Não Chuyển Đổi Suy Nghĩ Thành Lời Nói Theo Thời Gian Thực, Nhưng Độ Chính Xác Vẫn Là Thách Thức

Các nhà khoa học tại UC Davis đã phát triển một chip cấy não đột phá có thể dịch tín hiệu thần kinh trực tiếp thành âm thanh lời nói theo thời gian thực. Đây là một bước tiến lớn so với các hệ thống trước đây chỉ có thể chuyển đổi suy nghĩ thành văn bản trên màn hình. Công nghệ này mang lại hy vọng mới cho những người mắc các bệnh như ALS đã mất khả năng nói rõ ràng.

Tạo Âm Thanh Thời Gian Thực Không Giới Hạn Từ Điển

Khác với các giao diện não-máy tính trước đây dựa vào danh sách từ được định nghĩa trước, hệ thống mới này chuyển đổi tín hiệu não thành âm thanh và âm vị thực tế. Điều này có nghĩa là người dùng có thể nói bất cứ điều gì họ muốn, bao gồm các từ tự tạo, tiếng thán như um và hmm, và thậm chí hát những giai điệu ngắn. Hệ thống hoạt động với độ trễ cực thấp chỉ 10 mili giây, khiến việc chuyển đổi từ suy nghĩ sang lời nói trở nên gần như tức thời.

Đột phá này đến từ việc nhắm vào các vùng não sản xuất lời nói thay vì chỉ các vùng kiểm soát vận động. Các nhà nghiên cứu đã cấy 256 vi điện cực vào vùng ventral precentral gyrus của bệnh nhân, vùng kiểm soát các cơ ống thanh quản. Một bộ giải mã AI sau đó trích xuất các đặc điểm lời nói như cao độ và âm thanh từ tín hiệu thần kinh, đưa chúng vào một vocoder tái tạo giọng nói gốc của bệnh nhân.

Thông số kỹ thuật

Điện cực: 256 vi điện cực được cấy ghép trong vỏ não trước trung tâm bụng
Độ trễ: ~10 mili giây (gần như tức thời)
Xử lý tín hiệu: Bộ giải mã thần kinh AI + vocoder để tổng hợp giọng nói
Từ vựng: Không giới hạn (không bị ràng buộc bởi từ điển)
Tính năng: Hỗ trợ cao độ, nhịp điệu, thán từ và các giai điệu cơ bản

Vấn Đề Độ Chính Xác Hạn Chế Việc Sử Dụng Thực Tế

Mặc dù công nghệ này cho thấy tiềm năng, nhưng vẫn còn những thách thức đáng kể. Trong các thử nghiệm có kiểm soát khi người nghe chọn từ sáu câu tương tự, hệ thống đạt độ chính xác hoàn hảo 100%. Tuy nhiên, trong các thử nghiệm phiên âm mở phản ánh tốt hơn các cuộc trò chuyện thực tế, tỷ lệ lỗi từ tăng lên 43.75%. Điều này có nghĩa là người nghe chỉ có thể xác định chính xác khoảng một nửa số từ được nói.

Chúng tôi chưa đến điểm có thể sử dụng nó trong các cuộc trò chuyện mở. Tôi coi đây như một bằng chứng khái niệm.

Để so sánh, lời nói tự nhiên của bệnh nhân không có thiết bị có tỷ lệ lỗi 96.43% trong cùng thử nghiệm, cho thấy chip cấy thực sự mang lại cải thiện đáng kể. Tuy nhiên, độ chính xác hiện tại vẫn chưa đáp ứng được yêu cầu cho giao tiếp hàng ngày.

So sánh hiệu suất hệ thống

Loại thử nghiệm	Độ chính xác cấy ghép não	Độ chính xác giọng nói tự nhiên
Có kiểm soát (lựa chọn 6 câu)	100%	Không được thử nghiệm
Phiên âm mở	56.25% chính xác	3.57% chính xác
Tỷ lệ lỗi từ	43.75%	96.43%

Mối Quan Ngại Về Quyền Riêng Tư và Kiểm Soát

Công nghệ này đặt ra những câu hỏi quan trọng về quyền riêng tư tinh thần và kiểm soát. Các cuộc thảo luận cộng đồng nêu bật mối quan ngại về việc liệu thiết bị có thể vô tình phát sóng những suy nghĩ nội tâm không được dự định để nói to hay không. Tuy nhiên, các chuyên gia giải thích rằng hệ thống yêu cầu kích hoạt có chủ ý và tập trung vào các vùng sản xuất lời nói thay vì các vùng xử lý suy nghĩ chung.

Khả năng thích ứng đáng kinh ngạc của não bộ cho thấy người dùng có thể học cách kiểm soát khi nào thiết bị kích hoạt, tương tự như cách chúng ta có thể nghĩ về việc di chuyển cánh tay mà không thực sự làm điều đó. Quá trình học này có thể sẽ bao gồm việc phát triển các đường dẫn thần kinh mới để tách biệt suy nghĩ riêng tư khỏi lời nói dự định.

Các Thử Nghiệm Lâm Sàng Sắp Tới

Công ty: Paradromics ( Austin, Texas )
Số Lượng Điện Cực: 1,600 điện cực (so với 256 hiện tại)
Địa Điểm: UC Davis
Tình Trạng: Đang tìm kiếm sự phê duyệt từ FDA
Trưởng Nhóm Nghiên Cứu: David Brandman (đồng tác giả của nghiên cứu hiện tại)

Cải Tiến Tương Lai và Thử Nghiệm Lâm Sàng

Các nhà nghiên cứu tin rằng chìa khóa để có độ chính xác tốt hơn nằm ở việc sử dụng nhiều điện cực hơn. Các hệ thống hiện tại sử dụng khoảng 250 điện cực, nhưng các startup mới đang phát triển thiết bị với hơn 1,000 điện cực. Paradromics , một công ty có trụ sở tại Texas , dự định thử nghiệm hệ thống 1,600 điện cực trong các thử nghiệm lâm sàng được FDA phê duyệt sắp tới tại UC Davis .

Công nghệ này đại diện cho một bước quan trọng hướng tới việc cung cấp cho những người bị liệt nặng một cách giao tiếp tự nhiên hơn. Mặc dù chưa sẵn sàng cho việc sử dụng hàng ngày, nó chứng minh rằng việc chuyển đổi trực tiếp từ não sang lời nói là có thể và cuối cùng có thể khôi phục lại khả năng biểu đạt đầy đủ của giọng nói con người cho những người đã mất nó.

Tham khảo: A neural brain implant provides near instantaneous speech

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌