DeepSeek-V3.2-Exp Mang Đến Mức Giảm Giá 50% Trong Khi Duy Trì Hiệu Suất Thông Qua Đổi Mới Sparse Attention

Nhóm Cộng đồng BigGo
DeepSeek-V3.2-Exp Mang Đến Mức Giảm Giá 50% Trong Khi Duy Trì Hiệu Suất Thông Qua Đổi Mới Sparse Attention

DeepSeek đã phát hành V3.2-Exp , một mô hình AI thử nghiệm đang tạo ra tiếng vang lớn trong cộng đồng công nghệ vì đã đạt được điều mà nhiều người cho là khó khăn: giảm đáng kể chi phí trong khi vẫn giữ hiệu suất ổn định. Mô hình này giới thiệu DeepSeek Sparse Attention ( DSA ), một cách tiếp cận mới giúp xử lý các chuỗi văn bản dài hiệu quả hơn nhiều.

Mức Giảm Giá Đáng Kể Tiếp Tục Xu Hướng Ngành

Bản phát hành này đi kèm với mức giảm giá API đáng kể 50%, đưa chi phí xuống còn 0,28 đô la Mỹ cho mỗi triệu token đầu vào và 0,42 đô la Mỹ cho mỗi triệu token đầu ra. Mức giá tích cực này đã thu hút sự chú ý của các nhà phát triển, những người đã theo dõi sự sụt giảm nhanh chóng trong chi phí suy luận AI. Cộng đồng đặc biệt hào hứng với xu hướng này, với một số người lưu ý rằng giá suy luận đã giảm 10 lần mỗi năm theo các nghiên cứu gần đây.

Điều khiến mức giảm giá này đặc biệt đáng chú ý là nó không chỉ là một động thái khuyến mãi tạm thời. Việc giảm chi phí xuất phát từ những cải tiến kỹ thuật thực sự trong kiến trúc của mô hình, cụ thể là cơ chế sparse attention giúp giảm yêu cầu tính toán trong quá trình suy luận.

So sánh Giá API

  • Giá mới của V3.2-Exp : $0.28/M input tokens, $0.42/M output tokens
  • Đại diện cho mức giảm giá 50% so với phiên bản trước đó
  • Giá cache hit: $0.028/M tokens

Đổi Mới Kỹ Thuật Thúc Đẩy Hiệu Quả

Điểm nhấn của V3.2-Exp là hệ thống DeepSeek Sparse Attention , đại diện cho một bước tiến đáng kể trong việc làm cho các mô hình AI hiệu quả hơn. Không giống như các cơ chế attention truyền thống xử lý mọi phần của đầu vào một cách bình đẳng, sparse attention tập trung tài nguyên tính toán vào những phần liên quan nhất của các chuỗi văn bản dài.

Đổi mới này đặc biệt có giá trị cho các ứng dụng liên quan đến tài liệu lớn, cuộc trò chuyện mở rộng, hoặc các tác vụ lập trình phức tạp. Mô hình duy trì chất lượng đầu ra gần như giống hệt so với phiên bản tiền nhiệm trong khi sử dụng ít tài nguyên tính toán hơn đáng kể.

Sparse attention: Một kỹ thuật tập trung có chọn lọc vào các phần liên quan của dữ liệu đầu vào thay vì xử lý mọi thứ một cách bình đẳng, giảm chi phí tính toán.

Thông số kỹ thuật

  • Kiến trúc: DeepSeek Sparse Attention (DSA)
  • Giấy phép: MIT License
  • Các nền tảng được hỗ trợ: HuggingFace , SGLang , VLLM
  • Các kernel có sẵn: TileLang (nghiên cứu), CUDA (hiệu suất cao)
  • Hỗ trợ Docker : Nhiều biến thể cho các phần cứng khác nhau ( H200 , M1350 , NPUs )

Hiệu Suất Benchmark Vẫn Cạnh Tranh

Mặc dù tập trung vào hiệu quả, V3.2-Exp vẫn giữ vững vị thế trên các chỉ số hiệu suất khác nhau. Trong các tác vụ lý luận không sử dụng công cụ, mô hình bằng hoặc vượt nhẹ so với phiên bản tiền nhiệm trong hầu hết các lĩnh vực. Đối với các thử thách lập trình, nó đạt được xếp hạng Codeforces là 2121, tăng từ 2046 ở phiên bản trước.

Mô hình cũng cho thấy cải thiện trong một số kịch bản sử dụng công cụ agentic, với những tiến bộ đáng chú ý trong các tác vụ duyệt web và duy trì hiệu suất mạnh mẽ trong các benchmark kỹ thuật phần mềm. Sự nhất quán này trên các tác vụ đa dạng cho thấy rằng những cải thiện về hiệu quả không phải trả giá bằng khả năng.

Các Chỉ Số Hiệu Suất Chính

Chỉ số V3.1-Terminus V3.2-Exp
MMLU-Pro 85.0 85.0
AIME 2025 88.4 89.3
Codeforces 2046 2121
SimpleQA 96.8 97.1
BrowseComp 38.5 40.1

Cam Kết Mã Nguồn Mở Tăng Cường Hệ Sinh Thái

DeepSeek tiếp tục cam kết phát triển mã nguồn mở bằng cách phát hành mô hình dưới Giấy phép MIT và cung cấp chi tiết triển khai toàn diện. Công ty đã cung cấp cả TileLang kernels tập trung vào nghiên cứu và CUDA kernels hiệu suất cao thông qua các kho lưu trữ khác nhau.

Cách tiếp cận này đã nhận được lời khen từ cộng đồng nhà phát triển, những người đánh giá cao việc có quyền truy cập vào cả trọng số mô hình và chi tiết triển khai cơ bản. Sự có sẵn của nhiều tùy chọn suy luận, bao gồm hỗ trợ HuggingFace , SGLang , và VLLM , làm cho mô hình có thể tiếp cận được với các loại người dùng và kịch bản triển khai khác nhau.

Việc phát hành V3.2-Exp đại diện cho nhiều hơn chỉ là một bản cập nhật mô hình khác. Nó chứng minh rằng ngành AI có thể tiếp tục cung cấp tỷ lệ giá-hiệu suất tốt hơn thông qua đổi mới kỹ thuật thực sự thay vì chỉ mở rộng quy mô phần cứng. Khi cộng đồng tiếp tục khám phá các khả năng của cơ chế sparse attention, bản phát hành thử nghiệm này có thể sẽ chỉ ra con đường hướng tới tương lai của các hệ thống AI hiệu quả.

Tham khảo: DeepSeek-V3.2-Exp