Sai Sót Dịch Thuật Của AI Đẩy Các Ngôn Ngữ Thiểu Số Đến Bờ Vực Tuyệt Chủng Kỹ Thuật Số

Nhóm Cộng đồng BigGo
Sai Sót Dịch Thuật Của AI Đẩy Các Ngôn Ngữ Thiểu Số Đến Bờ Vực Tuyệt Chủng Kỹ Thuật Số

Trong thời đại kỹ thuật số, trí tuệ nhân tạo hứa hẹn phá bỏ các rào cản ngôn ngữ, nhưng đối với những người nói các ngôn ngữ thiểu số, cuộc cách mạng công nghệ này lại mang theo một mối đe dọa không ngờ tới. Khi các công cụ dịch thuật AI ngày càng phổ biến, những nỗ lực tạo ra nội dung số bằng các ngôn ngữ dễ bị tổn thương dù có thiện chí nhưng được thực hiện kém, đang tạo ra một vòng lặp phản hồi nguy hiểm có thể đẩy nhanh sự tuyệt chủng của ngôn ngữ thay vì ngăn chặn nó.

Vấn Đề Wikipedia: Thiện Chí, Hệ Quả Thảm Khốc

Trọng tâm của vấn đề nằm ở cách các mô hình AI học hỏi từ nội dung số hiện có. Khi các tình nguyện viên có thiện chí sử dụng công cụ dịch để tạo bài viết Wikipedia bằng những ngôn ngữ mà họ không hiểu, họ vô tình tạo ra các lỗi sau đó trở thành dữ liệu huấn luyện cho các hệ thống AI trong tương lai. Điều này tạo ra một vòng luẩn quẩn khi AI học từ các bản dịch kém và tạo ra nội dung thậm chí còn tệ hơn, có khả năng làm hỏng biểu hiện kỹ thuật số của toàn bộ ngôn ngữ.

Một bình luận viên đã nhấn mạnh quy mô của vấn đề này: Bối cảnh ở đây là tiếng Scots thực ra không thực sự là một ngôn ngữ. Hãy thử hỏi một tài xế taxi ở Glasgow nói chuyện với bạn bằng 'tiếng Scots' rằng liệu anh ta có biết chút tiếng Anh nào không. Điều này đã châm ngòi cho một cuộc tranh luận gay gắt về việc điều gì cấu thành một ngôn ngữ so với một phương ngữ, với một người dùng khác phản bác: Scots là một ngôn ngữ riêng của nó. Nó là 'anh trai' hoặc 'chị gái' của tiếng Anh, với cả tiếng Anh và Scots đều là hậu duệ của các ngôn ngữ Tây German.

Thách thức Bảo tồn Ngôn ngữ:

  • Tiếng Greenland có khoảng 55.000 người nói với sự khác biệt phương ngữ đủ lớn đến mức người nói phương Đông và phương Tây thường giao tiếp bằng tiếng Đan Mạch
  • Tranh cãi về Wikipedia tiếng Scots liên quan đến khoảng 50% bài viết được tạo bởi một người không phải là người bản ngữ
  • Wikipedia tiếng Hàn gặp vấn đề quản trị mặc dù Hàn Quốc có dân số lớn và trình độ công nghệ tiên tiến

Khủng Hoảng Quản Trị Trong Bảo Tồn Ngôn Ngữ Số

Các cộng đồng ngôn ngữ nhỏ phải đối mặt với một thách thức bất khả thi khi nói đến việc duy trì các tài nguyên số. Như một bình luận viên đã lưu ý về Wikipedia tiếng Hàn: Cộng đồng thường từ chối những người đóng góp từ bên ngoài, và nhiều biên tập viên có kinh nghiệm đã chuyển sang các nền tảng thay thế. Điều này tạo ra một khoảng trống mà nội dung được tạo bởi AI tràn vào lấp đầy, thường dẫn đến những kết quả thảm khốc.

Vấn đề đặc biệt nghiêm trọng đối với các ngôn ngữ như Greenlandic, nơi một bình luận viên tiết lộ: Người dân ở phía Đông Greenland nói một ngôn ngữ có những điểm tương đồng, nhưng đủ khác biệt về từ vựng và âm thanh đến mức nó thường được coi là một ngôn ngữ riêng biệt chứ không phải là phương ngữ. Khi người dân từ Đông và Tây Greenland gặp nhau, họ thường nói tiếng Đan Mạch vì họ không thể hiểu nhau bằng chính ngôn ngữ mẹ đẻ của mình. Sự phức tạp này khiến cho dịch thuật AI đặc biệt dễ mắc lỗi mà ngay cả người bản ngữ cũng có thể không phát hiện ra.

Cuộc Tranh Luận Về Thuyết Darwin Văn Hóa

Tình hình đã châm ngòi cho những cuộc thảo luận sôi nổi về việc liệu chúng ta nên can thiệp để bảo vệ các ngôn ngữ dễ bị tổn thương hay để cho quá trình chọn lọc tự nhiên diễn ra. Một số người cho rằng sự tiến hóa của ngôn ngữ là không thể tránh khỏi, với một bình luận viên tuyên bố: Chúng ta có rất nhiều ngôn ngữ đã chết. Điều đó là bình thường. Mọi người sử dụng bất kỳ ngôn ngữ nào phù hợp với họ và chúng ta không cần phải duy trì chúng mãi mãi.

Tôi thấy lập luận thuyết Darwin văn hóa này thật mỉa mai, khi mà các phe phái trong 2 quốc gia nói tiếng Anh (bản địa) lớn nhất đã luôn phàn nàn về việc 'văn hóa' của họ bị làm ô uế bởi những người nhập cư.

Những người khác coi đây là thuyết Darwin văn hóa, lập luận rằng sự mất mát đa dạng ngôn ngữ đại diện cho một sự mất mát không thể thay thế đối với tri thức nhân loại và di sản văn hóa. Cuộc tranh luận chạm đến những câu hỏi cơ bản về việc liệu tiến bộ công nghệ nên phục vụ cho việc bảo tồn sự đa dạng văn hóa hay đẩy nhanh quá trình đồng nhất hóa.

Giải Pháp Kỹ Thuật Và Những Hạn Chế

Một số giải pháp kỹ thuật đã được đề xuất, chẳng hạn như hệ thống ấp trứng của Wikipedia, nơi các phiên bản ngôn ngữ mới phải chứng minh được sự quan tâm đủ lớn của cộng đồng trước khi trở thành các dự án hoàn chỉnh. Tuy nhiên, như một bình luận viên đã chỉ ra: Các cộng đồng nhỏ hơn có lẽ cần lật ngược nguyên tắc hoạt động của Wikipedia và giới hạn người dùng mới chỉ được tạo các bản nháp, với giả định rằng hầu hết sẽ vô dụng, và một quản trị viên có thể chấp nhận những bản tốt sau đó.

Thách thức ở chỗ những giải pháp này đòi hỏi sự giám sát của con người, mà đó chính xác là thứ đang thiếu ở nhiều cộng đồng ngôn ngữ dễ bị tổn thương. Như một người dùng khác nhận xét: Để đào tạo một mô hình trong tất cả chúng, bạn cũng cần một lượng lớn các nhà ngôn ngữ học và chuyên gia học máy chuyên biệt, cả hai đều không mọc trên cây. Và đó chỉ là một trong số nhiều thứ mà các mô hình tổng quát được kỳ vọng sẽ thành thạo. Quy mô là bất khả thi.

Các Mô Hình Quản Trị của Wikipedia:

  • Mô Hình Tiêu Chuẩn: Cho phép chỉnh sửa mở với việc hoàn tác các chỉnh sửa xấu (hiệu quả với các cộng đồng lớn)
  • Mô Hình Incubator: Các ngôn ngữ mới phải chứng minh được sự quan tâm và chất lượng đầy đủ
  • Mô Hình Đóng Được Đề Xuất: Giới hạn người dùng mới chỉ được tạo bản nháp và cần sự phê duyệt của quản trị viên (được đề xuất cho các cộng đồng nhỏ)

Tương Lai Của Đa Dạng Ngôn Ngữ Trong Thời Đại AI

Tình huống này tạo ra một nghịch lý: chính công nghệ AI có thể giúp bảo tồn các ngôn ngữ có nguy cơ tuyệt chủng thông qua dịch thuật và tài liệu hóa, hiện đang đe dọa làm hỏng chúng thông qua quá trình tự động hóa được thực hiện kém. Các cuộc thảo luận trong cộng đồng cho thấy những lo ngại sâu sắc về việc liệu các cách tiếp cận hiện tại đối với việc bảo tồn ngôn ngữ số đang gây hại nhiều hơn là có lợi.

Một số người gợi ý rằng câu trả lời nằm ở các công cụ tốt hơn chứ không phải là ít tự động hóa hơn. Như một bình luận viên đề xuất: Giải pháp là phân biệt và gắn thẻ cho đầu vào và đầu ra, sao cho đầu ra không thể được đưa vào làm đầu vào một cách đệ quy. Điều này sẽ ngăn chặn vòng lặp phản hồi của AI học từ chính sai lầm của nó, nhưng việc triển khai các hệ thống như vậy trên nhiều nền tảng và ngôn ngữ khác nhau đặt ra những thách thức kỹ thuật đáng kể.

Cuộc trò chuyện vẫn tiếp diễn khi các nhà công nghệ, nhà ngôn ngữ học và các nhà vận động cộng đồng đang vật lộn với việc làm thế nào để khai thác tiềm năng của AI cho việc bảo tồn ngôn ngữ mà không đẩy nhanh chính sự tuyệt chủng mà họ hy vọng ngăn chặn. Các hệ lụy rất lớn - chúng ta có thể đang chứng kiến sự tuyệt chủng hàng loạt đầu tiên trong thời đại kỹ thuật số của di sản văn hóa nhân loại, được thúc đẩy bởi những can thiệp công nghệ có thiện chí nhưng được thực hiện kém.

Tham khảo: How AI could alter the very foundations of language