Các nhà nghiên cứu AI tranh luận về việc liệu tokenization có trở nên lỗi thời khi các mô hình mở rộng quy mô

Nhóm Cộng đồng BigGo

Các nhà nghiên cứu AI tranh luận về việc liệu tokenization có trở nên lỗi thời khi các mô hình mở rộng quy mô

Cộng đồng AI đang có một cuộc thảo luận sôi nổi về tương lai của tokenization - quá trình chuyển đổi văn bản thành số để các mô hình ngôn ngữ có thể hiểu được. Một bài viết mới lập luận rằng khi các mô hình AI trở nên mạnh mẽ hơn, chúng ta có thể hoàn toàn không cần đến tokenization.


"Tương lai của tokenization trong AI đang bị bao phủ bởi tranh luận, giống như nhân vật bí ẩn trong hình ảnh này"

Vấn đề cốt lõi với Tokenization hiện tại

Các mô hình ngôn ngữ ngày nay không làm việc trực tiếp với văn bản. Thay vào đó, chúng sử dụng tokenization để chia văn bản thành những phần nhỏ hơn gọi là token, sau đó được chuyển đổi thành số. Ví dụ, từ strawberry có thể được chia thành các token straw và berry. Cách tiếp cận này đã hoạt động tốt, nhưng nó tạo ra một số vấn đề bất ngờ.

Ví dụ nổi tiếng nhất là vấn đề strawberry - nhiều mô hình AI gặp khó khăn trong việc đếm số chữ cái 'r' trong strawberry vì chúng nhìn thấy nó như hai token riêng biệt thay vì từng chữ cái riêng lẻ. Khi một mô hình nhìn thấy token cho straw, nó không tự động biết rằng token này chứa các chữ cái s-t-r-a-w.

Token: Một phần nhỏ của văn bản (như một phần của từ) được chuyển đổi thành số để các mô hình AI xử lý

Ví dụ về Tokenization:

Từ "strawberry" → tokens: "straw" + "berry"
Số "1234567" → tokens: "123" + "456" + "7"
Cải thiện tokenization số: "1234567" → "1" + "234" + "567" (nhóm từ phải sang trái)

Toán học và Logic chịu ảnh hưởng nhiều nhất

Vấn đề tokenization trở nên đặc biệt rõ ràng với toán học. Các mô hình AI hiện tại thường gặp khó khăn với số học vì các số bị chia tách theo những cách kỳ lạ. Một số như 1234567 có thể trở thành các token 123, 456, và 7 - khiến việc thực hiện phép toán trở nên khó khăn hơn nhiều đối với mô hình.

Một số nhà nghiên cứu đã tìm ra các giải pháp thông minh, như chia số từ phải sang trái theo nhóm ba chữ số, vì vậy 1234567 trở thành 1, 234, 567. Cách tiếp cận này giúp ích cho các bài toán, nhưng nó đòi hỏi nhiều kỹ thuật con người hơn - chính xác là điều mà bài học cay đắng gợi ý chúng ta nên tránh.

Bài học cay đắng: Một nguyên tắc trong nghiên cứu AI nói rằng các phương pháp sử dụng nhiều sức mạnh tính toán và dữ liệu thường đánh bại các giải pháp được thiết kế cẩn thận bởi con người


"Các chỉ số hiệu suất so sánh nhấn mạnh những thách thức mà AI phải đối mặt với tokenization trong các tác vụ toán học"

Xu hướng hướng tới Raw Bytes

Thay vì token, một số nhà nghiên cứu muốn đưa raw byte hoặc từng ký tự riêng lẻ trực tiếp vào các mô hình AI. Điều này sẽ loại bỏ hoàn toàn bước tokenization và để các mô hình học cách hiểu văn bản một cách tự nhiên. Thách thức chính là các mô hình cần phải lớn hơn nhiều để xử lý hiệu quả cách tiếp cận này.

Tuy nhiên, khi sức mạnh tính toán tiếp tục tăng theo cấp số nhân, điều này có thể trở nên khả thi. Các mô hình có thể đơn giản ghi nhớ tất cả các ký tự có thể có và mối quan hệ của chúng mà không cần bước tokenization trung gian.

Các Phương Pháp Thay Thế:

Xử Lý Cấp Byte: Đưa trực tiếp các byte UTF-8 thô vào mô hình (256 giá trị có thể)
Cấp Ký Tự: Xử lý từng ký tự riêng lẻ thay vì các phần từ
Byte-Latent Transformer ( BLT ): Kiến trúc mới hoạt động với byte thô trong khi vẫn duy trì hiệu quả

Sự hoài nghi của cộng đồng và các mối quan tâm thực tế

Không phải ai cũng đồng ý rằng loại bỏ tokenization là bước đi đúng đắn. Nhiều thành viên cộng đồng chỉ ra rằng tokenization đã trải qua bài học cay đắng của riêng nó - chuyển từ các quy tắc được chế tác thủ công sang các phương pháp thống kê học được. Họ lập luận rằng việc loại bỏ hoàn toàn tokenization có thể là đi quá xa.

Cũng có những mối quan tâm thực tế về chi phí và hiệu quả. Việc huấn luyện các mô hình để làm việc với raw byte đòi hỏi sức mạnh tính toán nhiều hơn đáng kể, điều này dẫn đến chi phí cao hơn. Một số ước tính cho rằng các mô hình AI hàng đầu đã tốn hàng chục triệu đô la Mỹ để huấn luyện, và việc loại bỏ tokenization có thể khiến điều này trở nên đắt đỏ hơn nhiều.

Chi phí huấn luyện mô hình AI hiện tại:

OpenAI GPT-4 : khoảng 78 triệu USD chi phí tính toán
Google Gemini Ultra : khoảng 191 triệu USD chi phí tính toán
Những chi phí này chỉ dành cho tính toán và không bao gồm các chi phí phát triển khác


"Sự khác biệt về hiệu suất minh họa sự hoài nghi của cộng đồng về việc loại bỏ tokenization do những lo ngại thực tế"

Bức tranh tổng thể

Cuộc tranh luận này phản ánh một căng thẳng rộng lớn hơn trong nghiên cứu AI giữa việc thiết kế các giải pháp thông minh và đơn giản là ném nhiều sức mạnh tính toán hơn vào các vấn đề. Trong khi cách tiếp cận mở rộng quy mô mọi thứ đã hoạt động tốt gần đây, không rõ liệu nó có phải luôn là con đường tốt nhất để tiến về phía trước hay không.

Cuộc thảo luận về tokenization cũng làm nổi bật cách phát triển AI thường liên quan đến những đánh đổi bất ngờ. Điều có vẻ như một lựa chọn kỹ thuật đơn giản - cách chuyển đổi văn bản thành số - có thể có tác động lớn đến khả năng đếm chữ cái hoặc thực hiện phép toán cơ bản của mô hình.

Khi các mô hình AI tiếp tục cải thiện và chi phí tính toán giảm, chúng ta có thể sẽ thấy nhiều thí nghiệm hơn với các cách tiếp cận khác nhau để xử lý văn bản. Liệu tokenization có biến mất hoàn toàn hay phát triển thành thứ gì đó mới vẫn là một câu hỏi mở sẽ định hình tương lai của AI ngôn ngữ.

Tham khảo: The Bitter Lesson is coming for Tokenization

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌