Một kiến trúc AI mới có tên Hierarchical Networks ( H-Nets ) đang tạo ra nhiều thảo luận sôi nổi trong cộng đồng công nghệ khi các nhà nghiên cứu khám phá những lựa chọn thay thế cho các mô hình Transformer hiện tại. Kiến trúc này giới thiệu một cách tiếp cận hoàn toàn khác biệt trong việc xử lý thông tin bằng cách học cách tổ chức dữ liệu thành các cấu trúc phân cấp có ý nghĩa, giống như cách con người tự nhiên xử lý thông tin từ các đơn vị cơ bản đến các khái niệm phức tạp.
Thời điểm của nghiên cứu này diễn ra khi cộng đồng AI tiếp tục tìm kiếm kiến trúc đột phá tiếp theo. Trong khi những nỗ lực trước đây như Mamba không đạt được sự chấp nhận rộng rãi, H-Nets đưa ra một lập luận thuyết phục cho việc xử lý phân cấp nhằm giải quyết một số hạn chế chính của các mô hình hiện tại.
![]() |
---|
Khám phá các kiến trúc AI mới: Tập trung vào mô hình phân cấp |
Phân đoạn động thay thế tokenization cố định
Sự đổi mới cốt lõi của H-Nets nằm ở cơ chế phân đoạn động, tự động học cách nhóm các phần thông tin liên quan thay vì dựa vào các phương pháp tokenization được xác định trước. Cách tiếp cận này cho phép mô hình làm việc trực tiếp với dữ liệu thô - dù là byte văn bản, pixel hình ảnh, hay dạng sóng âm thanh - và khám phá những cách có ý nghĩa nhất để tổ chức thông tin này trong quá trình huấn luyện.
Điều này thể hiện sự khác biệt đáng kể so với các mô hình hiện tại xử lý tất cả đầu vào như nhau và xử lý chúng với cùng một nỗ lực tính toán. Kiến trúc H-Net bao gồm ba thành phần chính: một bộ mã hóa nhóm các đoạn dữ liệu tương tự, một mạng xử lý chính, và một bộ giải mã chuyển đổi các đoạn đã xử lý trở lại thành đầu ra thô.
Phân đoạn động: Một phương pháp mà các mô hình AI tự động học cách nhóm các phần thông tin liên quan lại với nhau, thay vì sử dụng các quy tắc được xác định trước để chia nhỏ dữ liệu.
Các thành phần kiến trúc H-Net:
- Mạng mã hóa (Encoder Network): Chứa mô-đun định tuyến sử dụng điểm số tương đồng để dự đoán các nhóm chunk có ý nghĩa
- Mạng chính (Main Network): Bất kỳ mô hình sequence-to-sequence nào chịu trách nhiệm dự đoán token tiếp theo trên các chunk cấp cao hơn
- Mạng giải mã (Decoder Network): Học cách giải mã các chunk trở lại thành dữ liệu thô với mô-đun làm mượt để học tập ổn định
Hiệu suất vượt trội trên các loại dữ liệu đa dạng
Kết quả ban đầu cho thấy H-Nets thể hiện những lợi thế đặc biệt mạnh mẽ khi làm việc với dữ liệu không có ranh giới tự nhiên rõ ràng. Kiến trúc này cho thấy khả năng mở rộng được cải thiện so với các Transformers tiên tiến nhất trên nhiều lĩnh vực khác nhau, với những cải tiến đáng chú ý đặc biệt trong văn bản tiếng Trung, mã lập trình, và chuỗi DNA - tất cả đều là những lĩnh vực mà các phương pháp tokenization truyền thống gặp khó khăn.
Cộng đồng đặc biệt hào hứng về tính bền vững của mô hình đối với những thay đổi nhỏ trong đầu vào, chẳng hạn như việc viết hoa khác nhau, điều này từ lâu đã là một điểm yếu dai dẳng trong các hệ thống AI hiện tại. Sự ổn định được cải thiện này có thể dẫn đến các ứng dụng AI đáng tin cậy hơn trong các tình huống thực tế nơi dữ liệu đầu vào không được định dạng hoàn hảo.
Những Ưu Thế Hiệu Suất Chính:
- Khả năng mở rộng tốt hơn với dữ liệu so với Transformers sử dụng tokenization BPE
- Hoạt động trực tiếp từ raw bytes mà không cần tiền xử lý
- Cải thiện hiệu suất trên các chuỗi tiếng Trung, mã code và DNA
- Kiến trúc có thể xếp chồng cho các cấu trúc phân cấp sâu hơn
- Mạnh mẽ hơn đáng kể đối với các nhiễu đầu vào như thay đổi chữ hoa chữ thường
![]() |
---|
Phân tích so sánh hiệu suất xác thực: H-Nets so với các mô hình truyền thống |
Ứng dụng đa phương thức và ngữ cảnh dài
Có lẽ điều thú vị nhất là cách tiếp cận phân cấp mở ra những khả năng mới trong việc xử lý đồng thời nhiều loại dữ liệu. Các mô hình đa phương thức hiện tại gặp phải thách thức vì các loại dữ liệu khác nhau - văn bản, âm thanh, hình ảnh - được xử lý ở các tốc độ và quy mô khác nhau. H-Nets có thể giải quyết điều này bằng cách tìm ra các biểu diễn phân cấp chung trên các phương thức khác nhau.
Chúng ta cần nhiều cấp độ phân cấp hơn để khái quát hóa hiệu quả đến các chuỗi dài hơn với cấu trúc cấp cao.
Kiến trúc này cũng hứa hẹn những cải tiến trong lý luận ngữ cảnh dài bằng cách nén thông tin thành các đơn vị có ý nghĩa về mặt ngữ nghĩa ở các cấp độ trừu tượng cao hơn. Điều này có thể cho phép các mô hình AI hiểu và lý luận tốt hơn trên lượng lớn dữ liệu đầu vào, một khả năng quan trọng cho nhiều ứng dụng tiên tiến.
Các Phiên Bản Mô Hình Có Sẵn:
- H-Net 2-stage XL
- H-Net 1-stage XL
- H-Net 1-stage L
- Tất cả các mô hình đều có sẵn trên nền tảng HuggingFace
- Bản thảo nghiên cứu đầy đủ có sẵn trên arXiv
Triển khai và triển vọng tương lai
Nhóm nghiên cứu đã làm cho công việc của họ trở nên dễ tiếp cận bằng cách phát hành các checkpoint mô hình trên HuggingFace , cho phép các nhà nghiên cứu khác thử nghiệm với kiến trúc này. Khả năng xếp chồng nhiều lớp H-Net để tạo ra các phân cấp sâu hơn cho thấy cách tiếp cận này có thể mở rộng để xử lý các nhiệm vụ lý luận ngày càng phức tạp.
Mặc dù vẫn còn quá sớm để xác định liệu H-Nets có thay thế Transformers trở thành kiến trúc thống trị hay không, phản ứng của cộng đồng cho thấy sự hào hứng thực sự về tiềm năng này. Sự kết hợp của hiệu quả được cải thiện, xử lý dữ liệu thô tốt hơn, và hỗ trợ tự nhiên cho lý luận phân cấp giải quyết một số thách thức cơ bản đã hạn chế các hệ thống AI hiện tại.
Nghiên cứu này đại diện cho một phần của nỗ lực rộng lớn hơn hướng tới các kiến trúc AI hiệu quả và có khả năng hơn, có thể lý luận trên các ngữ cảnh dài hơn và xử lý nhiều loại dữ liệu một cách tự nhiên hơn. Khi lĩnh vực này tiếp tục phát triển, các cách tiếp cận phân cấp như H-Nets có thể chứng tỏ là thiết yếu để xây dựng thế hệ hệ thống AI tiếp theo.
Tham khảo: Hierarchical modeling