Một mô hình AI mới có tên SpikingBrain-7B đã gây ra cuộc tranh luận sôi nổi trong cộng đồng công nghệ, khi các nhà nghiên cứu tuyên bố rằng nó sử dụng thiết kế lấy cảm hứng từ não bộ trong khi các nhà phê bình bác bỏ đây chỉ là chiêu trò marketing khéo léo bao bọc xung quanh các kỹ thuật tiêu chuẩn.
Mô hình này, được phát triển bởi các nhà nghiên cứu Trung Quốc, hứa hẹn mang lại hiệu quả của mạng nơ-ron sinh học thông qua cái mà họ gọi là tính toán spiking. Nhóm nghiên cứu tuyên bố phương pháp của họ đạt được tốc độ nhanh hơn 100 lần trong thời gian tạo ra token đầu tiên cho các chuỗi rất dài và mang lại độ thưa thớt 69% ở cấp độ vi mô. Tuy nhiên, thực tế có vẻ tầm thường hơn nhiều so với việc gắn nhãn sinh học mà họ đề xuất.
Các Tuyên Bố Hiệu Suất Chính:
- Tăng tốc hơn 100 lần trong TTFT (Thời Gian Đến Token Đầu Tiên) cho các chuỗi 4 triệu token
- Độ thưa thớt 69% ở cấp độ vi mô thông qua tính toán spiking
- Độ thưa thớt bổ sung ở cấp độ vĩ mô thông qua kiến trúc MoE ( Mixture of Experts )
- Tiền huấn luyện liên tục với ít hơn 2% dữ liệu huấn luyện thông thường
![]() |
---|
Kho lưu trữ GitHub cho dự án SpikingBrain-7B , thể hiện sự phát triển của nó trong cộng đồng công nghệ |
Thực Tế Pseudo-Spiking
Lời chỉ trích quan trọng nhất tập trung vào cái mà chính các nhà nghiên cứu thừa nhận là pseudo-spiking. Thay vì tính toán thực sự giống như não bộ với xử lý bất đồng bộ, hướng sự kiện, SpikingBrain-7B chỉ đơn giản chuyển đổi các kích hoạt thành số nguyên và xử lý chúng trên GPU tiêu chuẩn. Phương pháp này có rất ít điểm tương đồng với cách các nơ-ron thực sự giao tiếp thông qua các xung điện.
Đối với tôi, điều này nghe giống như phép nhân ma trận thưa được đóng gói lại thành 'tính toán spiking hướng sự kiện', trong đó các spike chỉ đơn giản là các phần tử khác không mà các kernel GPU thưa luôn được thiết kế để xử lý.
Kỹ thuật này có vẻ rất giống với các phương pháp lượng tử hóa hiện có được sử dụng trong tối ưu hóa AI, đặt ra câu hỏi về việc liệu nhãn neuromorphic có thêm giá trị thực sự nào ngoài sức hấp dẫn marketing hay không.
Hiệu Suất Không Đạt Được Như Tuyên Bố
Khi nói đến hiệu suất thực tế, SpikingBrain-7B gặp khó khăn trong việc chứng minh những lời hứa táo bạo của mình. Trong các bài kiểm tra benchmark, mô hình này liên tục hoạt động kém hơn so với các lựa chọn thay thế đã được thiết lập như Qwen2.5, mặc dù được so sánh với các mô hình cũ hơn 9-13 tháng. Các nhà nghiên cứu thừa nhận khoảng cách này, đặc biệt lưu ý rằng các mô hình cạnh tranh được huấn luyện trên dữ liệu tiếng Trung hạn chế cho thấy những bất lợi rõ ràng trên các benchmark tiếng Trung.
Kiến trúc của mô hình kết hợp các cơ chế attention tuyến tính, các lớp mixture-of-experts (MoE), và thành phần mã hóa spike gây tranh cãi. Trong khi hai thành phần đầu là những kỹ thuật được thiết lập tốt trong AI hiện đại, thành phần mã hóa spike dường như mang lại rất ít lợi ích thực tế trong việc triển khai hiện tại.
Các Thành Phần Kiến Trúc Kỹ Thuật:
- Cơ chế attention hiệu quả lai
- Các module MoE (Mixture of Experts) cho xử lý chuyên biệt
- Mã hóa spike cho biểu diễn activation
- Pipeline chuyển đổi phổ quát để tương thích với các mô hình mã nguồn mở
- Hỗ trợ plugin vLLM để tối ưu hóa suy luận
Vấn Đề Marketing Neuromorphic Rộng Lớn Hơn
SpikingBrain-7B đại diện cho một xu hướng lớn hơn trong nghiên cứu AI, nơi các kỹ thuật đã được thiết lập được đổi tên thương hiệu với thuật ngữ sinh học. Lĩnh vực tính toán neuromorphic đã phải đối mặt với hàng thập kỷ chỉ trích vì hứa hẹn những tiến bộ cách mạng trong khi chỉ mang lại những cải tiến gia tăng tốt nhất.
Sự ngắt kết nối trở nên rõ ràng khi xem xét các chi tiết kỹ thuật. Các nhà nghiên cứu tuyên bố thiết kế của họ phản ánh các nguyên tắc quan sát được trong não sinh học, nhưng các giải thích của họ vẫn mơ hồ. Attention tuyến tính được cho là bắt chước động lực học dendritic với hình thái đa nhánh, trong khi các lớp MoE đại diện cho chuyên môn hóa mô-đun - những mô tả nghe có vẻ ấn tượng nhưng thiếu nền tảng sinh học cụ thể.
Điểm Sáng: Phần Cứng Không Phải NVIDIA
Một khía cạnh thực sự thú vị của dự án liên quan đến việc thích ứng cho GPU MetaX, một lựa chọn thay thế của Trung Quốc cho phần cứng NVIDIA. Khi các hạn chế thương mại tiếp tục tác động đến ngành công nghiệp bán dẫn toàn cầu, việc phát triển các hệ thống AI hoạt động hiệu quả trên các nền tảng không phải NVIDIA có thể chứng minh có giá trị cho hệ sinh thái công nghệ Trung Quốc.
Các nhà nghiên cứu đã tạo ra các plugin cho framework suy luận vLLM và thích ứng các chiến lược xử lý song song khác nhau cho những chip thay thế này. Mặc dù công việc này có thể không cách mạng hóa kiến trúc AI, nó thể hiện kỹ năng kỹ thuật thực tế trong việc thích ứng phần cứng.
Các phiên bản mô hình SpikingBrain-7B:
- Mô hình được huấn luyện trước (7B): Phiên bản cơ bản cho mục đích sử dụng chung
- Mô hình trò chuyện (7B-SFT): Được tinh chỉnh cho các ứng dụng hội thoại
- Trọng số lượng tử hóa (7B-WBASpike): Phiên bản độ chính xác giảm để tăng hiệu quả
- Tất cả các mô hình đều được lưu trữ trên nền tảng ModelScope
Kết Luận
SpikingBrain-7B làm nổi bật sự căng thẳng đang diễn ra giữa marketing đổi mới và nội dung kỹ thuật trong nghiên cứu AI. Trong khi việc gắn nhãn sinh học tạo ra sự chú ý và có khả năng tài trợ, công nghệ cơ bản dường như là sự kết hợp đơn giản của các kỹ thuật hiện có với những cải tiến hiệu suất khiêm tốn.
Đóng góp thực sự của dự án có thể không nằm trong kiến trúc lấy cảm hứng từ não bộ, mà trong công việc thực tế thích ứng các hệ thống AI cho các nền tảng phần cứng thay thế. Khi bối cảnh công nghệ toàn cầu tiếp tục phân mảnh, những nỗ lực kỹ thuật như vậy có thể chứng minh có giá trị hơn so với những gì marketing neuromorphic gợi ý.
Hiện tại, người dùng tìm kiếm hiệu suất mô hình ngôn ngữ tiên tiến sẽ được phục vụ tốt hơn bởi các lựa chọn thay thế đã được thiết lập tập trung vào kết quả thay vì các ẩn dụ sinh học.
Tham khảo: SpikingBrain: Spiking Brain-inspired Large Models