DeepSeek đã phát hành V3.1-Terminus , một phiên bản cập nhật của mô hình ngôn ngữ nhằm phản hồi trực tiếp các ý kiến từ cộng đồng về bản phát hành V3.1 trước đó. Bản cập nhật tập trung vào việc khắc phục các vấn đề trộn lẫn ngôn ngữ và cải thiện khả năng agent, đồng thời duy trì hiệu suất cạnh tranh trên nhiều bài kiểm tra chuẩn khác nhau.
Những Cải Tiến Chính trong V3.1-Terminus:
- Tính Nhất Quán Ngôn Ngữ: Loại bỏ tình trạng trộn lẫn tiếng Trung/tiếng Anh và các vấn đề ký tự ngẫu nhiên
- Hiệu Suất Agent: Nâng cao khả năng của Code Agent và Search Agent
- Cải Thiện Benchmark: Những tiến bộ đáng chú ý trong các tác vụ dựa trên agent và lý luận phức tạp
- Khả Năng Truy Cập: Có thể truy cập qua App, Web, API với các trọng số mã nguồn mở trên Hugging Face
- Giấy Phép: Giấy phép MIT cho phép sử dụng thương mại
![]() |
---|
Hình ảnh này làm nổi bật sự so sánh hiệu suất giữa các mô hình DeepSeek V31 và V31-Terminus , nhấn mạnh các bản cập nhật và cải tiến được thực hiện trong phiên bản mới nhất |
Các Vấn Đề Nhất Quán Ngôn Ngữ Cuối Cùng Được Khắc Phục
Một trong những cải tiến quan trọng nhất trong V3.1-Terminus là giải quyết các vấn đề trộn lẫn ngôn ngữ gây khó chịu đã ảnh hưởng đến phiên bản trước. Người dùng đã gặp phải tình trạng chèn ký tự ngẫu nhiên và chuyển đổi không mong muốn giữa văn bản tiếng Trung và tiếng Anh trong các cuộc hội thoại. Cộng đồng đã lên tiếng về những vấn đề này, với nhiều người thấy các lỗi này đủ gây khó chịu để chuyển sang sử dụng các mô hình thay thế bất chấp hiệu suất benchmark mạnh mẽ của V3.1 .
Phiên bản mới hứa hẹn đầu ra ngôn ngữ sạch hơn, nhất quán hơn, điều này sẽ làm cho nó đáng tin cậy hơn cho các ứng dụng thực tế nơi chất lượng văn bản quan trọng không kém khả năng kỹ thuật.
Cải Thiện Hiệu Suất Agent cho Các Tác Vụ Thực Tế
V3.1-Terminus cho thấy những cải tiến đáng chú ý trong các tác vụ dựa trên agent, đặc biệt trong các tình huống tạo mã và duyệt web. Mô hình thể hiện những tiến bộ đáng kể trong một số bài kiểm tra chuẩn thực tế, bao gồm bước nhảy từ 30.0 lên 38.5 trên BrowseComp và các cải thiện trong các tác vụ kỹ thuật phần mềm như SWE Verified và SWE-bench Multilingual .
Những cải tiến agent này giải quyết một mối quan tâm khác của cộng đồng về khả năng xử lý các tác vụ phức tạp, nhiều bước đòi hỏi sử dụng công cụ và tương tác bên ngoài của mô hình.
So sánh hiệu suất: DeepSeek-V3.1 vs V3.1-Terminus
Benchmark | V3.1 | V3.1-Terminus | Thay đổi |
---|---|---|---|
Các tác vụ lý luận | |||
MMLU-Pro | 84.8 | 85.0 | +0.2 |
GPQA-Diamond | 80.1 | 80.7 | +0.6 |
Humanity's Last Exam | 15.9 | 21.7 | +5.8 |
Các tác vụ Agent | |||
BrowseComp | 30.0 | 38.5 | +8.5 |
SimpleQA | 93.4 | 96.8 | +3.4 |
SWE Verified | 66.0 | 68.4 | +2.4 |
Terminal-bench | 31.3 | 36.7 | +5.4 |
Phản Ứng Cộng Đồng và Các Mối Quan Tâm Đang Diễn Ra
Mặc dù các bản cập nhật giải quyết những vấn đề kỹ thuật chính, một số thành viên cộng đồng vẫn thận trọng về xu hướng đưa ra giả định về đầu vào của người dùng của mô hình. Người dùng đã báo cáo các trường hợp mô hình bỏ qua các chi tiết cụ thể hoặc sửa các yêu cầu của người dùng dựa trên những gì nó cho là hợp lý, thay vì tuân theo hướng dẫn một cách chính xác.
Tôi đã thử V3.1 nhưng nó khiến tôi phát điên vì bỏ qua các phần đầu vào của người dùng, điều mà R1 chưa bao giờ làm.
Mô hình hiện có sẵn thông qua ứng dụng DeepSeek , giao diện web và API , với các trọng số mã nguồn mở được phát hành trên Hugging Face theo giấy phép MIT . Cách tiếp cận cấp phép này tiếp tục cam kết của DeepSeek trong việc làm cho các mô hình của họ có thể truy cập được cho cả mục đích nghiên cứu và thương mại.
Bất chấp những cải tiến, cộng đồng AI tiếp tục tranh luận về sự đánh đổi giữa hiệu suất benchmark và khả năng sử dụng thực tế, với một số người dùng ưa thích các mô hình cũ hơn có thể ghi điểm thấp hơn trong các bài kiểm tra nhưng hoạt động dự đoán được hơn trong các tình huống thực tế.
Tham khảo: DeepSeek-V3.1-Terminus