DeepSeek Ra Mắt Mô Hình AI V3.2-Exp Với Hỗ Trợ Ngay Từ Ngày Đầu Cho Chip Trung Quốc, Thách Thức Sự Thống Trị CUDA Của Nvidia

Nhóm biên tập BigGo

DeepSeek Ra Mắt Mô Hình AI V3.2-Exp Với Hỗ Trợ Ngay Từ Ngày Đầu Cho Chip Trung Quốc, Thách Thức Sự Thống Trị CUDA Của Nvidia

Công ty trí tuệ nhân tạo Trung Quốc DeepSeek đã thực hiện một bước chuyển chiến lược với việc phát hành mô hình mới nhất, báo hiệu một sự thay đổi cơ bản trong cách các công ty AI lớn tiếp cận khả năng tương thích phần cứng. Việc ra mắt DeepSeek-V3.2-Exp không chỉ đơn thuần là một bản cập nhật mô hình ngôn ngữ khác—mà đánh dấu lần đầu tiên một công ty AI hàng đầu của Trung Quốc ưu tiên kiến trúc chip nội địa ngay từ ngày đầu, thay vì coi chúng như một suy nghĩ sau.

Chuyển Đổi Chiến Lược Hướng Tới Độc Lập Phần Cứng Nội Địa

DeepSeek đã công bố mô hình V3.2-Exp vào ngày 29 tháng 9 năm 2024, với các tối ưu hóa ngay lập tức cho phần cứng Ascend của Huawei và ngăn xếp phần mềm CANN. Điều này thể hiện sự khác biệt so với cách tiếp cận truyền thống khi các mô hình được tối ưu hóa trước cho hệ sinh thái CUDA của Nvidia trước khi được điều chỉnh cho các nền tảng thay thế. Công ty định vị bản phát hành này như một bước trung gian hướng tới kiến trúc thế hệ tiếp theo của chúng tôi, được thiết kế đặc biệt để giảm chi phí liên quan đến suy luận ngữ cảnh dài thông qua các cơ chế attention thưa thớt sáng tạo.

Các Tính Năng Kỹ Thuật Chính

Cơ Chế Attention Thưa Thớt: Giảm thiểu yêu cầu bộ nhớ và tính toán cho việc suy luận ngữ cảnh dài
Triển Khai Đa Nền Tảng: Cùng một model artifacts hoạt động trên các loại accelerator khác nhau với những thay đổi tối thiểu
Hỗ Trợ TileLang: Được khuyến nghị cho việc tạo mẫu thử và phát triển
Tương Thích vLLM: Khả năng tương thích tính năng với các framework suy luận đã được thiết lập ngay từ khi ra mắt

Phản Ứng Phối Hợp Của Ngành Chứng Minh Sự Trưởng Thành Của Hệ Sinh Thái

Tốc độ áp dụng trên khắp bối cảnh bán dẫn Trung Quốc đã rất đáng chú ý. Đội ngũ Ascend của Huawei đã hợp tác chặt chẽ với cộng đồng vLLM-Ascend để đảm bảo khả năng tương thích ngay lập tức, xuất bản các hướng dẫn cài đặt toán tử tùy chỉnh và các gói kernel đặc biệt cho NPU Ascend. Mức độ phối hợp này cho thấy một hệ sinh thái đang trưởng thành có thể phản ứng nhanh chóng với các kiến trúc mô hình mới mà không cần chờ đợi các triển khai CUDA upstream.

Nhiều Nhà Sản Xuất Chip Tham Gia Sáng Kiến

Ngoài Huawei, các công ty bán dẫn lớn khác của Trung Quốc đã nhanh chóng điều chỉnh nền tảng của họ với mô hình mới. Cambricon đã phát hành các bản cập nhật cho fork vLLM-MLU của mình, tuyên bố rằng sự kết hợp giữa engine suy luận của họ với kiến trúc attention thưa thớt của V3.2-Exp giảm đáng kể chi phí xử lý cho các chuỗi dài. Trong khi đó, Hygon thông báo rằng các bộ tăng tốc DCU của họ đã được tối ưu hóa cho triển khai không chờ đợi thông qua ngăn xếp phần mềm DTK, chứng minh phạm vi rộng của sự tham gia ngành.

Các Nền Tảng Phần Cứng Được Hỗ Trợ

Công ty	Phần cứng	Ngăn xếp Phần mềm	Trạng thái
Huawei	Ascend NPUs	CANN	Hỗ trợ ngay từ ngày đầu với các toán tử tùy chỉnh
Cambricon	Bộ gia tốc MLU	vLLM-MLU	Fork được cập nhật với tối ưu hóa suy luận
Hygon	Bộ gia tốc DCU	DTK	Khả năng triển khai không cần chờ đợi
Nvidia	GPUs	CUDA	Duy trì tương thích

Đổi Mới Kỹ Thuật Thúc Đẩy Giảm Chi Phí

Mô hình V3.2-Exp tích hợp các cơ chế attention thưa thớt tiên tiến giúp cắt giảm cả yêu cầu bộ nhớ và tính toán trong khi duy trì chất lượng đầu ra. Cách tiếp cận kỹ thuật này giải quyết một trong những thách thức quan trọng nhất trong triển khai mô hình ngôn ngữ lớn—sự gia tăng chi phí theo cấp số nhân liên quan đến xử lý các cửa sổ ngữ cảnh dài hơn. Tài liệu GitHub của DeepSeek cho thấy tính năng ngang bằng với các framework đã được thiết lập như vLLM ngay khi ra mắt, gợi ý về kỹ thuật mạnh mẽ đằng sau việc triển khai nhanh chóng.

Khả Năng Tương Thích Đa Nền Tảng Duy Trì Tính Linh Hoạt

Mặc dù tập trung vào phần cứng Trung Quốc, DeepSeek vẫn duy trì khả năng tương thích với hệ sinh thái của Nvidia. Công ty tham chiếu cả TileLang và CUDA kernel trong tài liệu kỹ thuật của mình, khuyến khích các nhà nghiên cứu sử dụng TileLang để tạo mẫu trong khi đảm bảo cùng một artifact mô hình có thể được triển khai trên các loại bộ tăng tốc khác nhau với những sửa đổi tối thiểu. Cách tiếp cận này cung cấp tính linh hoạt chiến lược trong khi xây dựng khả năng nội địa.

Phản Ứng Thị Trường Phản Ánh Xu Hướng Chủ Quyền AI Rộng Lớn Hơn

Phản ứng phối hợp của ngành đã góp phần vào tâm lý thị trường tích cực, với Chỉ số Hang Seng Tech của Hồng Kông đạt mức cao nhất trong bốn năm sau thông báo. Cam kết 500 tỷ nhân dân tệ Trung Quốc (khoảng 71 tỷ đô la Mỹ) của chính phủ Trung Quốc cho các sáng kiến trí tuệ nhân tạo, được công bố bởi Ủy ban Phát triển và Cải cách Quốc gia, cung cấp bối cảnh bổ sung cho tầm quan trọng chiến lược của khả năng AI nội địa.

Bối cảnh Hỗ trợ của Chính phủ

NDRC AI Initiative: Cam kết CNY 500 tỷ (≈ USD 71 tỷ) cho trí tuệ nhân tạo
Trợ cấp Người tiêu dùng: CNY 69 tỷ được phân phối cho các chính quyền địa phương từ trái phiếu Kho bạc siêu dài hạn
Tổng cộng từ đầu năm: CNY 300 tỷ trong các biện pháp hỗ trợ khác nhau

Ý Nghĩa Đối Với Cạnh Tranh Phần Cứng AI Toàn Cầu

Sự phát triển này thể hiện dấu hiệu rõ ràng nhất cho đến nay rằng hệ sinh thái AI của Trung Quốc đang tích cực chuẩn bị cho các tình huống mà việc tiếp cận phần cứng Nvidia không thể được đảm bảo. Trong khi CUDA của Nvidia vẫn thống trị toàn cầu, cách tiếp cận của DeepSeek trong việc coi các bộ tăng tốc nội địa như mục tiêu hạng nhất thay vì tùy chọn thứ cấp có thể ảnh hưởng đến cách các công ty AI Trung Quốc khác tiếp cận các chiến lược phát triển và triển khai mô hình trong tương lai.

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌