Native Sparse Attention của DeepSeek đạt tốc độ nhanh hơn 11 lần mà không mất hiệu suất, gây phản ứng mạnh trong ngành

Nhóm Cộng đồng BigGo
Native Sparse Attention của DeepSeek đạt tốc độ nhanh hơn 11 lần mà không mất hiệu suất, gây phản ứng mạnh trong ngành

DeepSeek đã giới thiệu một bước đột phá trong hiệu quả AI với cơ chế Native Sparse Attention (NSA) của họ, chứng minh rằng những cải tiến hiệu suất đáng kể không phải lúc nào cũng cần phải hy sinh chất lượng mô hình. Nghiên cứu này giải quyết một trong những thách thức cấp bách nhất trong AI hiện đại: làm cho các mô hình ngôn ngữ ngữ cảnh dài trở nên khả thi về mặt tính toán mà không làm giảm khả năng của chúng.

Hiệu suất cách mạng không cần đánh đổi

Khía cạnh nổi bật nhất của NSA là khả năng mang lại những cải tiến tốc độ đáng kể trong khi duy trì hoặc thậm chí vượt qua hiệu suất của các mô hình attention truyền thống đầy đủ. Hệ thống đạt được tốc độ suy luận nhanh hơn tới 11 lần trên các chuỗi 64,000 token, bao phủ toàn bộ vòng đời mô hình từ huấn luyện đến triển khai. Điều này thể hiện sự khác biệt đáng kể so với các phương pháp tối ưu hóa thông thường, nơi mà việc tăng hiệu suất thường phải trả giá bằng chất lượng mô hình.

Điều đặc biệt đáng chú ý là việc tích hợp NSA trong suốt toàn bộ quá trình huấn luyện, thay vì được áp dụng như một suy nghĩ muộn màng. Cơ chế này kết hợp hai chiến lược bổ sung: nén token thô để duy trì nhận thức ngữ cảnh toàn cục, và lựa chọn token tinh để bảo toàn độ chính xác cục bộ.

Chỉ số Hiệu suất:

  • Tăng tốc suy luận lên đến 11 lần trên các chuỗi 64.000 token
  • Tốc độ tăng áp dụng cho việc giải mã, lan truyền thuận và lan truyền ngược
  • Duy trì hoặc vượt qua hiệu suất của mô hình Full Attention trên các bài kiểm tra tổng quát, tác vụ ngữ cảnh dài và lý luận dựa trên hướng dẫn

Tác động ngành và phản ứng cạnh tranh

Việc phát hành đã tạo ra nhiều thảo luận về động lực cạnh tranh trong nghiên cứu AI. Các nhà quan sát cộng đồng lưu ý rằng cách tiếp cận của DeepSeek trong việc xuất bản các bài báo kỹ thuật chi tiết tương phản rõ rệt với các thực hành bí mật hơn của một số phòng thí nghiệm AI phương Tây. Sự minh bạch này được báo cáo là đã thúc đẩy các nỗ lực triển khai nhanh chóng trên khắp ngành.

Tôi có nghi ngờ với việc tất cả các đối thủ lớn đều im lặng như thế nào sau hai tuần kể từ khi deepseek R1 được phát hành, rằng họ đang đọc và triển khai mọi thứ trong các bài báo đi kèm với nó nhanh nhất có thể.

Tuy nhiên, tác động rộng lớn hơn vẫn là chủ đề tranh luận. Trong khi một số người khen ngợi những đóng góp nghiên cứu mở của DeepSeek , những người khác chỉ ra rằng việc xuất bản đầu tiên không nhất thiết dẫn đến sự thống trị thị trường hoặc hiệu suất thực tế vượt trội so với các đối thủ đã thành danh như OpenAI , Google , hoặc Anthropic .

Những người đóng góp nghiên cứu:

  • Tác giả: Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao, Zhengyan Zhang, Zhenda Xie, Y. X. Wei, Lean Wang, Zhiping Xiao, Yuqing Wang, Chong Ruan, Ming Zhang, Wenfeng Liang, Wangding Zeng
  • Đơn vị liên kết: DeepSeek , Đại học Bắc Kinh ( PKU ), Đại học Washington ( UW )

Đổi mới kỹ thuật và sự phù hợp với phần cứng

Triết lý thiết kế của NSA tập trung vào các tối ưu hóa phù hợp với phần cứng, cân bằng cường độ số học với hiệu quả thuật toán. Cách tiếp cận này cho phép hệ thống hoạt động hiệu quả với cơ sở hạ tầng máy tính hiện đại thay vì yêu cầu các sửa đổi phần cứng chuyên biệt. Chiến lược thưa thớt phân cấp động đại diện cho một sự phát triển tinh vi của các cơ chế attention, vượt xa việc giảm token đơn giản để chuyển sang quản lý ngữ cảnh thông minh.

Nghiên cứu chứng minh rằng attention thưa thớt có thể được tích hợp thành công từ đầu trong việc huấn luyện mô hình, thách thức quan niệm thông thường rằng những tối ưu hóa như vậy phải làm giảm khả năng của mô hình. Cách tiếp cận tích hợp bản địa này dường như là chìa khóa để đạt được cả lợi ích hiệu quả và duy trì hiệu suất đồng thời.

Kiến trúc Kỹ thuật:

  • Chiến lược thưa thớt phân cấp động
  • Nén token thô để nhận thức ngữ cảnh toàn cục
  • Lựa chọn token tinh vi để đạt độ chính xác cục bộ
  • Tối ưu hóa phù hợp với phần cứng cho cơ sở hạ tầng máy tính hiện đại
  • Thiết kế thuật toán cân bằng cường độ số học

Kết luận

Native Sparse Attention của DeepSeek đại diện cho một tiến bộ đáng kể trong việc làm cho các mô hình ngôn ngữ lớn hiệu quả hơn về mặt tính toán. Trong khi tác động cạnh tranh dài hạn của công nghệ này vẫn còn phải chờ xem, đóng góp tức thì của nó cho lĩnh vực này nằm ở việc chứng minh rằng hiệu quả và hiệu suất không cần phải loại trừ lẫn nhau. Việc công bố mở các phát hiện kỹ thuật chi tiết tiếp tục thúc đẩy đổi mới trong cộng đồng nghiên cứu AI, bất kể công ty nào cuối cùng đạt được thành công trên thị trường.

Tham khảo: Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention