MiniMax đã phát hành mô hình M1 của họ, một mô hình lý luận với 456 tỷ tham số đang gây ra những cuộc thảo luận sôi nổi về những gì thực sự cần thiết để chạy AI tiên tiến tại địa phương. Trong khi công ty tuyên bố đây là mô hình lý luận hybrid-attention mã nguồn mở đầu tiên trên thế giới, cộng đồng lại tập trung vào một câu hỏi thực tế: liệu bạn có thực sự cần một hệ thống trị giá một phần tư triệu đô la để sử dụng nó?
Thông số kỹ thuật chính của MiniMax-M1
- Tổng số tham số: 456 tỷ
- Tham số hoạt động: 45,9 tỷ mỗi token (kiến trúc MoE)
- Độ dài ngữ cảnh: 1 triệu token (lớn gấp 8 lần so với DeepSeek R1)
- Kiến trúc: Attention kết hợp (87,5% tuyến tính + 12,5% softmax)
- Chi phí huấn luyện: 534.700 USD cho phần RL (512 GPU H800, 3 tuần)
- Tuyên bố về hiệu suất: 25% FLOPs của DeepSeek R1 khi tạo ra 100K token
Cuộc Tranh Luận 250 Nghìn Đô La So Với 8,5 Nghìn Đô La
Các khuyến nghị phần cứng ban đầu cho rằng người dùng sẽ cần 8x GPU H200 với 141GB bộ nhớ, tổng cộng khoảng 250.000 đô la Mỹ. Mức giá đắt đỏ này ngay lập tức thu hút sự chú ý của cộng đồng, nhưng không phải ai cũng đồng ý rằng nó là cần thiết. Một số người dùng cho rằng Mac Studio với 512GB bộ nhớ, có giá khoảng 8.500 đô la Mỹ, có thể xử lý mô hình này một cách tốt với các kỹ thuật lượng tử hóa phù hợp.
Sự bất đồng tập trung vào việc lượng tử hóa mô hình - một kỹ thuật giảm độ chính xác của trọng số mô hình để tiết kiệm bộ nhớ. Trong khi một số thành viên cộng đồng báo cáo rằng lượng tử hóa Q8 duy trì hiệu suất gần như giống hệt và Q4 cho thấy sự sụt giảm chất lượng có thể đo lường nhưng chấp nhận được, những người khác vẫn hoài nghi về việc các mô hình được lượng tử hóa mạnh có thể hoạt động tốt như các đối tác có độ chính xác đầy đủ.
So sánh Yêu cầu Phần cứng
Cấu hình | Chi phí (USD) | Bộ nhớ | Trường hợp sử dụng |
---|---|---|---|
8x GPU H200 | $250,000 | 141GB mỗi card | Suy luận độ chính xác đầy đủ |
Mac Studio | $8,500 | 512GB thống nhất | Suy luận lượng tử hóa |
Tùy chọn lượng tử hóa | - | Q8: ~không mất chất lượng, Q4: mất chất lượng có thể đo được nhưng chấp nhận được | Triển khai hiệu quả về chi phí |
Lightning Attention Và Tuyên Bố Về Hiệu Quả
Cách tiếp cận kỹ thuật của MiniMax kết hợp cái mà họ gọi là lightning attention với kiến trúc Mixture-of-Experts lai. Mô hình sử dụng 87,5% linear attention và 12,5% traditional softmax attention, mà công ty tuyên bố cho phép mở rộng hiệu quả trong quá trình suy luận. Họ báo cáo rằng mô hình của họ chỉ tiêu thụ 25% các phép toán tính toán so với DeepSeek R1 khi tạo ra 100.000 token.
Mô hình hỗ trợ độ dài ngữ cảnh ấn tượng lên đến 1 triệu token - lớn gấp tám lần so với cửa sổ ngữ cảnh của DeepSeek R1. Khả năng ngữ cảnh mở rộng này, kết hợp với cơ chế attention của họ, định vị mô hình cho các tác vụ phức tạp đòi hỏi xử lý đầu vào rộng lớn.
Linear attention: Một cơ chế attention đơn giản hóa sử dụng các ngân hàng bộ nhớ có kích thước cố định thay vì tính toán attention trên tất cả các token trước đó, làm cho nó hiệu quả hơn cho các chuỗi dài.
Chi Phí Huấn Luyện Và Câu Hỏi Địa Lý
Có lẽ thú vị nhất là tuyên bố của MiniMax về việc huấn luyện phần học tăng cường chỉ với 534.700 đô la Mỹ sử dụng 512 GPU H800 trong ba tuần. Chi phí huấn luyện tương đối khiêm tốn này đã gây ngạc nhiên trong cộng đồng, với một số người tự hỏi về cơ sở hạ tầng và phương pháp được sử dụng để đạt được hiệu quả như vậy.
Danh tính địa lý của công ty cũng đã trở thành một điểm thảo luận. Trong khi hồ sơ LinkedIn của họ liệt kê Singapore là cơ sở của họ, và họ vận hành các hoạt động quốc tế thông qua một thực thể Singapore, công ty cốt lõi dường như có trụ sở tại Thượng Hải. Sự mơ hồ địa lý này, kết hợp với những thành tựu kỹ thuật ấn tượng và kế hoạch IPO sắp tới tại Hồng Kông, đã thêm một lớp bí ẩn khác vào câu chuyện của họ.
Điểm nổi bật về hiệu suất so với đối thủ cạnh tranh
Danh mục | MiniMax-M1-80K | DeepSeek-R1-0528 | Qwen3-235B |
---|---|---|---|
AIME 2024 | 86.0 | 91.4 | 85.7 |
SWE-bench Verified | 56.0 | 57.6 | 34.4 |
Long Context (128k) | 73.4 | 51.5 | 27.7 |
TAU-bench (airline) | 62.0 | 53.5 | 34.7 |
In đậm biểu thị hiệu suất tốt nhất trong danh mục
Kiểm Tra Thực Tế Hiệu Suất
Bất chấp các cuộc tranh luận về chi phí phần cứng, hiệu suất benchmark của MiniMax-M1 kể một câu chuyện hỗn hợp. Trong khi nó xuất sắc trong các tác vụ ngữ cảnh dài và cho thấy hiệu suất mạnh mẽ trong các benchmark kỹ thuật phần mềm như SWE-bench Verified, nó tụt hậu so với các đối thủ cạnh tranh như DeepSeek-R1-0528 trong một số lĩnh vực chính bao gồm toán học và các tác vụ lý luận chung.
Điểm mạnh của mô hình dường như nằm ở các ứng dụng chuyên biệt hơn là lý luận đa mục đích, điều này có thể giải thích tại sao cuộc tranh luận về yêu cầu phần cứng lại quan trọng đến vậy - người dùng muốn biết liệu khoản đầu tư có đáng giá cho các trường hợp sử dụng cụ thể của họ hay không.
Khi cộng đồng AI tiếp tục thúc đẩy việc triển khai mô hình cục bộ, MiniMax-M1 đại diện cho cả lời hứa và những thách thức thực tế của việc chạy các hệ thống AI tinh vi bên ngoài môi trường đám mây. Liệu nó có yêu cầu ngân sách trung tâm dữ liệu hay có thể chạy trên phần cứng tiêu dùng cao cấp cuối cùng có thể quyết định việc áp dụng trong thế giới thực của nó.
Tham khảo: MiniMax-M1