MiniMax phát hành mô hình AI M1 mã nguồn mở với 456 tỷ tham số, chi phí huấn luyện thấp hơn GPT-4 200 lần

Nhóm biên tập BigGo
MiniMax phát hành mô hình AI M1 mã nguồn mở với 456 tỷ tham số, chi phí huấn luyện thấp hơn GPT-4 200 lần

Công ty AI Trung Quốc MiniMax đã công bố những gì họ tuyên bố là mô hình lý luận kiến trúc hỗn hợp quy mô lớn mã nguồn mở đầu tiên trên thế giới, có khả năng làm đảo lộn nền kinh tế phát triển trí tuệ nhân tạo. Mô hình M1 đại diện cho một thách thức đáng kể đối với các đối thủ đã có chỗ đứng như OpenAI và Anthropic, hứa hẹn hiệu suất tương đương với chi phí giảm đáng kể.

So sánh hiệu suất benchmark của MiniMax M1 với các mô hình AI hàng đầu khác
So sánh hiệu suất benchmark của MiniMax M1 với các mô hình AI hàng đầu khác

Kinh tế huấn luyện cách mạng

Tuyên bố nổi bật nhất của MiniMax tập trung vào hiệu quả huấn luyện. Công ty báo cáo chỉ chi 534.700 đô la Mỹ cho tài nguyên máy tính trung tâm dữ liệu để huấn luyện M1, sử dụng 512 GPU H800 trong ba tuần. Con số này thấp hơn khoảng 200 lần so với ước tính chi phí huấn luyện cho GPT-4 của OpenAI, mà các chuyên gia ngành tin rằng đã vượt quá 100 triệu đô la Mỹ. Nếu được xác minh, nền kinh tế này có thể thay đổi căn bản bối cảnh cạnh tranh cho phát triển AI, đặc biệt tác động đến các công ty được tài trợ mạnh đã đầu tư hàng trăm tỷ đô la vào phát triển mô hình.

Thông số kỹ thuật mô hình MiniMax M1

  • Tham số: Tổng cộng 456 tỷ, 45,9 tỷ được kích hoạt cho mỗi token
  • Kiến trúc: Mixture-of-Experts (MoE) với Lightning Attention
  • Cửa sổ ngữ cảnh: 1 triệu token đầu vào, 80.000 token đầu ra
  • Chi phí huấn luyện: 534.700 USD (512 GPU H800, 3 tuần)
  • Hiệu quả huấn luyện: Rẻ hơn khoảng 200 lần so với ước tính của GPT-4

Thông số kỹ thuật và kiến trúc

Mô hình M1 có 456 tỷ tham số với kiến trúc hỗn hợp chuyên gia (MoE) kích hoạt 45,9 tỷ tham số mỗi token. Khả năng nổi bật của nó bao gồm hỗ trợ nguyên bản cho đầu vào ngữ cảnh 1 triệu token, ngang bằng với Gemini 2.5 Pro của Google và gấp tám lần khả năng của DeepSeek-R1. Mô hình cũng hỗ trợ đầu ra lý luận dài nhất trong ngành với 80.000 token, được hỗ trợ bởi cơ chế Lightning Attention độc quyền của MiniMax.

Điểm chuẩn hiệu suất và định vị cạnh tranh

Trên 17 bộ dữ liệu đánh giá tiêu chuẩn ngành, M1 thể hiện sức mạnh đặc biệt trong kỹ thuật phần mềm, xử lý ngữ cảnh dài và các tình huống sử dụng công cụ. Trong bài kiểm tra SWE-bench Verified, MiniMax-M1-40k và M1-80k đạt điểm số lần lượt là 55,6% và 56,0%, hơi kém DeepSeek-R1 với 57,6% nhưng vượt trội đáng kể so với các mô hình mã nguồn mở khác. Mô hình xuất sắc trong việc sử dụng công cụ tác nhân, dẫn đầu tất cả các mô hình mã nguồn mở trong các bài kiểm tra ngành hàng không TAU-bench và ngang bằng với DeepSeek-R1 trong các tình huống bán lẻ.

So sánh Điểm chuẩn Hiệu suất

Mô hình SWE-bench Verified Cửa sổ Ngữ cảnh Chi phí Huấn luyện
MiniMax M1-40k 55.6% 1M tokens 534,700 USD
MiniMax M1-80k 56.0% 1M tokens 534,700 USD
DeepSeek-R1 57.6% 64k tokens Không tiết lộ
GPT-4 Không xác định 200k tokens >100 triệu USD (ước tính)

Lợi thế hiệu quả tính toán

Cơ chế Lightning Attention cung cấp tiết kiệm tính toán đáng kể trong quá trình suy luận. Khi tạo ra 80.000 token, M1 chỉ cần khoảng 30% tài nguyên tính toán mà DeepSeek-R1 cần. Hiệu quả này mở rộng đến xử lý ngữ cảnh dài, nơi M1 chỉ tiêu thụ 25% các phép toán dấu phẩy động mà các mô hình cạnh tranh cần cho các tác vụ tạo 100.000 token.

Chiến lược giá cả và tiếp cận thị trường

MiniMax cung cấp M1 thông qua cấu trúc giá theo tầng cạnh tranh với đối thủ trong các phân khúc cụ thể. Đối với độ dài đầu vào 0-32k, công ty tính phí 0,8 nhân dân tệ Trung Quốc trên triệu token đầu vào và 8 nhân dân tệ Trung Quốc trên triệu token đầu ra. Tầng 32k-128k có giá lần lượt là 1,2 và 16 nhân dân tệ Trung Quốc, trong khi tầng cao cấp 128k-1M tính phí 2,4 và 24 nhân dân tệ Trung Quốc trên triệu token. Mô hình vẫn miễn phí sử dụng không giới hạn thông qua ứng dụng và nền tảng web của MiniMax.

Cấu trúc giá API MiniMax M1

Độ dài đầu vào Giá đầu vào Giá đầu ra
0-32k token ¥0.8/triệu token ¥8/triệu token
32k-128k token ¥1.2/triệu token ¥16/triệu token
128k-1M token ¥2.4/triệu token ¥24/triệu token

Có thể truy cập miễn phí không giới hạn thông qua ứng dụng MiniMax và các nền tảng web

Cấu trúc giá cho mô hình tạo văn bản MiniMax M1
Cấu trúc giá cho mô hình tạo văn bản MiniMax M1

Đổi mới kỹ thuật và phương pháp huấn luyện

MiniMax đã phát triển thuật toán CISPO (Clipped Importance Sampling Policy Optimization), mà công ty tuyên bố hội tụ nhanh gấp đôi so với các phương pháp học tăng cường cạnh tranh bao gồm DAPO của ByteDance và GRPO của DeepSeek. Tiến bộ thuật toán này, kết hợp với thiết kế kiến trúc hỗn hợp, đã cho phép quá trình huấn luyện hiệu quả đáng chú ý vượt quá kỳ vọng ban đầu của công ty một bậc độ lớn.

Cân nhắc địa chính trị và an ninh

Giống như các mô hình AI Trung Quốc khác, M1 phải đối mặt với sự giám sát về quyền riêng tư dữ liệu và kiểm duyệt nội dung. Mô hình tuân thủ các yêu cầu kiểm duyệt của chính phủ Trung Quốc, có khả năng tạo ra các phản hồi phù hợp với lập trường của Đảng Cộng sản Trung Quốc về các chủ đề nhạy cảm. Khi được kiểm tra về các câu hỏi liên quan đến lao động cưỡng bức của người Uyghur ở Tân Cương, mô hình đã phủ nhận sự tồn tại của những thực hành như vậy, làm nổi bật các ràng buộc địa chính trị ảnh hưởng đến phát triển AI của Trung Quốc.

Tác động thị trường và phản ứng ngành

Thông báo này theo sau một mô hình của các công ty AI Trung Quốc thách thức các giả định của phương Tây về chi phí phát triển, tương tự như việc phát hành R1 của DeepSeek đã khiến cổ phiếu của Nvidia giảm 17% trong một ngày. Tuy nhiên, tác động thị trường của M1 vẫn còn phải xem, vì việc xác minh độc lập các tuyên bố hiệu suất của MiniMax vẫn đang chờ đợi. Lịch trình thông báo năm ngày của công ty cho thấy các phát triển bổ sung sắp tới, có khả năng khuếch đại áp lực cạnh tranh lên các nhà cung cấp AI đã có chỗ đứng.