Qwen3-30B-A3B-Instruct-2507 Mang Lại Hiệu Suất Ngang Tầm GPT-4 Trên Phần Cứng Tiêu Dùng

Nhóm Cộng đồng BigGo

Qwen3-30B-A3B-Instruct-2507 Mang Lại Hiệu Suất Ngang Tầm GPT-4 Trên Phần Cứng Tiêu Dùng

Đội ngũ Qwen của Alibaba đã phát hành mô hình AI mới nhất của họ, Qwen3-30B-A3B-Instruct-2507 , đánh dấu một cột mốc quan trọng trong việc làm cho các mô hình ngôn ngữ mạnh mẽ trở nên dễ tiếp cận trên phần cứng tiêu dùng. Bản phát hành này đại diện cho mô hình thứ năm từ Qwen chỉ trong vòng chín ngày, thể hiện tốc độ phát triển AI chưa từng có và thu hút sự chú ý của cộng đồng công nghệ.

Mô hình mới mang lại những cải tiến đáng kể trên nhiều lĩnh vực bao gồm tuân theo hướng dẫn, lý luận logic, toán học, lập trình và sử dụng công cụ. Nó cũng có khả năng hiểu ngữ cảnh dài được nâng cao lên đến 360.000 token, làm cho nó phù hợp để xử lý các tài liệu và cuộc hội thoại dài.

Các Phiên Bản Mô Hình Qwen Mới Nhất (Tháng 7 năm 2025):

21 tháng 7: Qwen3-235B-A22B-Instruct-2507
22 tháng 7: Qwen3-Coder-480B-A35B-Instruct
25 tháng 7: Qwen3-235B-A22B-Thinking-2507
29 tháng 7: Qwen3-30B-A3B-Instruct-2507
30 tháng 7: Qwen3-30B-A3B-Thinking-2507

Hiệu Suất So Sánh Được Với GPT-4 Gốc

Các thử nghiệm ban đầu của cộng đồng cho thấy Qwen3-30B-A3B-Instruct-2507 mang lại mức hiệu suất so sánh được với GPT-4 gốc từ tháng 3 năm 2023. Thành tựu này đặc biệt đáng chú ý vì mô hình có thể chạy hiệu quả trên phần cứng tiêu dùng với 32GB RAM khi được lượng tử hóa, làm cho các khả năng AI tiên tiến trở nên dễ tiếp cận với các nhà phát triển và nhà nghiên cứu cá nhân.

Mô hình thể hiện tốc độ ấn tượng trên phần cứng tiêu dùng cao cấp, đạt được hơn 100 token mỗi giây trên các ngữ cảnh nhỏ hơn và duy trì hơn 20 token mỗi giây cho các ngữ cảnh lớn khi chạy trên MacBook M4 Max với 128GB RAM sử dụng lượng tử hóa 4-bit.

Yêu cầu phần cứng:

Tối thiểu: 32GB RAM (phiên bản quantized)
Khuyến nghị: 48GB RAM để vận hành thoải mái
Hiệu suất tối ưu: MacBook M4 Max với 128GB RAM
Hiệu suất: 100+ token/giây (ngữ cảnh nhỏ), 20+ token/giây (ngữ cảnh lớn)


So sánh hiệu suất của Qwen3-30B-A3B-Instruct-2507 với các mô hình AI hàng đầu khác trên nhiều tiêu chuẩn đánh giá

Từ Bỏ Kiến Trúc Lý Luận Lai

Một trong những quyết định kỹ thuật quan trọng nhất trong bản phát hành này là việc Qwen từ bỏ các mô hình lý luận lai. Đội ngũ đã chứng minh rằng các phương pháp lý luận lai không hoạt động hiệu quả như ban đầu hy vọng và thực sự có thể làm hiệu suất tệ hơn. Thay vào đó, họ đã tập trung vào việc tạo ra các mô hình riêng biệt được tối ưu hóa cho việc tuân theo hướng dẫn tiêu chuẩn hoặc các nhiệm vụ lý luận chuyên dụng.

Thay đổi kiến trúc này đã mang lại những cải tiến hiệu suất đáng kể. Cộng đồng đã lưu ý rằng phương pháp không lai mang lại kết quả tốt hơn trong khi hiệu quả hơn về mặt tài nguyên tính toán và tạo phản hồi.

Khả Năng Sử Dụng Công Cụ Mạnh Mẽ

Mô hình xuất sắc trong việc sử dụng công cụ, tiếp tục danh tiếng của Qwen trong việc xây dựng các hệ thống AI có thể tương tác hiệu quả với các công cụ và API bên ngoài. Khả năng này làm cho nó đặc biệt có giá trị đối với các nhà phát triển muốn xây dựng các ứng dụng AI cần truy cập cơ sở dữ liệu, API hoặc các tài nguyên bên ngoài khác.

Tất cả các mô hình Qwen đều giỏi trong việc sử dụng công cụ, ngay cả mô hình 4B nhỏ hơn.

Sự kết hợp giữa khả năng sử dụng công cụ mạnh mẽ với khả năng chạy cục bộ làm cho mô hình này hấp dẫn đối với các ứng dụng mà quyền riêng tư dữ liệu và hoạt động ngoại tuyến là những cân nhắc quan trọng.

Cài đặt cấu hình được khuyến nghị:

Nhiệt độ (Temperature): 0.7
TopP: 0.8
TopK: 20
MinP: 0
Độ dài đầu ra: 16,384 token
Hình phạt hiện diện (Presence penalty): 0-2 (để giảm sự lặp lại)

Tốc Độ Phát Triển Nhanh Gây Chú Ý

Lịch trình phát hành đã rất đáng chú ý, với năm mô hình lớn được phát hành chỉ trong hơn một tuần. Điều này bao gồm các mô hình từ 30B đến 480B tham số, bao gồm cả tuân theo hướng dẫn chung và các nhiệm vụ lập trình chuyên biệt. Tốc độ nhanh chóng cho thấy sự cạnh tranh gay gắt trong không gian AI và cam kết của Qwen trong việc duy trì sự dẫn đầu về công nghệ.

Mô hình đã có sẵn thông qua nhiều kênh, bao gồm Ollama để triển khai cục bộ dễ dàng, làm cho nó dễ tiếp cận với các nhà phát triển muốn thử nghiệm với các khả năng AI tiên tiến mà không cần dựa vào các dịch vụ đám mây.

Bản phát hành này chứng minh tốc độ phát triển nhanh chóng của bối cảnh AI, với các mô hình mạnh mẽ từng yêu cầu tài nguyên tính toán khổng lồ giờ đây trở nên có sẵn để triển khai cục bộ trên phần cứng tiêu dùng.

Tham khảo: Qwen3-30B-A3B-Instruct-2507

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌