DeepSeek đã phát hành mô hình AI mới nhất của mình, DeepSeek-V3.1 , đánh dấu điều mà công ty gọi là bước đầu tiên của chúng tôi hướng tới kỷ nguyên agent. Mô hình suy luận lai này giới thiệu cả chế độ có suy nghĩ và không suy nghĩ trong một hệ thống duy nhất, hứa hẹn xử lý nhanh hơn và khả năng agent mạnh mẽ hơn. Tuy nhiên, trải nghiệm ban đầu của người dùng cho thấy phản ứng trái chiều, với những cải thiện ấn tượng trên benchmark bị lu mờ bởi những thách thức triển khai thực tế.
Thông số kỹ thuật và cập nhật của mô hình
- Mô hình cơ sở: Tiếp tục huấn luyện trước với 840B token để mở rộng ngữ cảnh dài
- Tính năng mới: Chế độ Think/Non-Think kết hợp thông qua nút " DeepThink "
- Hỗ trợ API: Tương thích với định dạng API của Anthropic
- Gọi hàm: Strict Function Calling trong Beta API
- Mã nguồn mở: Có sẵn trên Hugging Face (phiên bản Base và Chat)
- Tokenizer: Cấu hình tokenizer và mẫu chat được cập nhật
Cải Thiện Hiệu Suất Đáng Kể Trên Các Benchmark Chính
Mô hình mới thể hiện những cải thiện đáng kể trên nhiều chỉ số đánh giá. Trên bài kiểm tra SWE-bench Verified , DeepSeek-V3.1 đạt điểm 66.0, vượt trội đáng kể so với phiên bản tiền nhiệm V3-0324 (45.4) và mô hình R1-0528 (44.6). Những cải thiện mở rộng đến các tác vụ lập trình đa ngôn ngữ và thao tác terminal, nơi mô hình đạt 54.5 điểm trên SWE-bench Multilingual và 31.3 trên Terminal-Bench . Những kết quả này định vị mô hình có tính cạnh tranh trong số các lựa chọn thay thế mã nguồn mở, mặc dù các thảo luận cộng đồng lưu ý rằng nó vẫn thua kém các mô hình độc quyền như GPT-5 và Claude 4 trên một số benchmark nhất định.
So sánh hiệu suất benchmark của DeepSeek-V3.1
Benchmark | DeepSeek-V3.1 | DeepSeek-V3-0324 | DeepSeek-R1-0528 |
---|---|---|---|
SWE-bench Verified | 66.0 | 45.4 | 44.6 |
SWE-bench Multilingual | 54.5 | 29.3 | 30.5 |
Terminal-Bench | 31.3 | 13.3 | 5.7 |
Browsecomp | 30.0 | - | 8.9 |
xbench-DeepSearch | 71.2 | - | 55.0 |
Sự Không Nhất Quán Định Dạng Công Cụ Tạo Ra Thách Thức Tích Hợp
Bất chấp những cải thiện hiệu suất, các nhà phát triển báo cáo về những vấn đề tương thích đáng bực bội với chức năng gọi công cụ. Mô hình không nhất quán chuyển đổi giữa các tiêu chuẩn định dạng khác nhau, đôi khi sử dụng thẻ kiểu XML và lúc khác sử dụng hệ thống phân cách tùy chỉnh thay vì định dạng JSON tiêu chuẩn. Sự không thể dự đoán này buộc các nhà phát triển phải xây dựng hỗ trợ cho nhiều định dạng trong ứng dụng của họ, tạo ra sự phức tạp bổ sung mà các mô hình cạnh tranh như Claude và GPT-5 không yêu cầu.
Đôi khi nó sẽ ngẫu nhiên tạo ra thứ gì đó như thế này trong nội dung văn bản... Việc nhắc nhở nó sử dụng định dạng đúng dường như không hiệu quả.
![]() |
---|
Tổng quan phát hành API DeepSeek-V31 , nêu bật các cập nhật chính và những thách thức tích hợp công cụ tiềm ẩn |
Chiến Lược Định Giá Đặt Ra Câu Hỏi Về Khả Năng Tiếp Cận
Cấu trúc định giá của mô hình đã gây ra cuộc tranh luận về hiệu quả chi phí. Với chi phí đầu vào từ 0.07 đô la Mỹ cho mỗi triệu token đối với cache hit đến 0.56 đô la Mỹ cho cache miss, và giá đầu ra là 1.68 đô la Mỹ cho mỗi triệu token, một số người dùng bày tỏ lo ngại về khả năng chi trả. Những thay đổi giá cả có hiệu lực từ ngày 5 tháng 9 năm 2025, lúc 16:00 UTC , cho người dùng thời gian để đánh giá tỷ lệ chi phí-lợi ích so với những cải thiện hiệu suất.
Cấu trúc Giá API (Có hiệu lực từ ngày 5 tháng 9 năm 2025, 16:00 UTC)
- Giá Input:
- Cache hit: $0.07 USD / 1M token
- Cache miss: $0.56 USD / 1M token
- Giá Output: $1.68 USD / 1M token
- Độ dài Context: 128K token cho cả hai chế độ
- API Endpoints:
deepseek-chat
→ chế độ không suy nghĩdeepseek-reasoner
→ chế độ suy nghĩ
Cạnh Tranh Từ Các Mô Hình Thay Thế
Các thảo luận cộng đồng làm nổi bật sự cạnh tranh mạnh mẽ từ các bản phát hành gần đây khác, đặc biệt là mô hình Qwen3 235B 2507 Reasoning , mà một số người dùng ưa thích cho các tình huống triển khai cục bộ. Sự có sẵn của các lựa chọn thay thế hiệu quả có thể chạy trên phần cứng tiêu dùng với 24-32GB RAM cung cấp các tùy chọn hấp dẫn cho các nhà phát triển tìm kiếm giải pháp hiệu quả về chi phí mà không phụ thuộc vào dịch vụ API .
Bản phát hành này đại diện cho một tiến bộ kỹ thuật đáng chú ý trong khả năng suy luận AI , nhưng việc áp dụng thực tế có thể phụ thuộc vào việc giải quyết các vấn đề tích hợp công cụ và chứng minh giá trị rõ ràng ở mức giá được công bố. Như một thành viên cộng đồng đã lưu ý, thử nghiệm thực tế thường cung cấp những hiểu biết tốt hơn so với chỉ điểm benchmark.
Tham khảo: DeepSeek-V3.1 Release