Việc phát hành GPT-OSS đã gây ra cuộc tranh luận sôi nổi trong cộng đồng AI về việc liệu những tiến bộ về kiến trúc hay chất lượng dữ liệu huấn luyện quan trọng hơn đối với hiệu suất của mô hình. Trong khi GPT-OSS tự hào với những điểm số benchmark ấn tượng và việc sử dụng tài nguyên hiệu quả, việc kiểm tra thực tế bởi các nhà phát triển cho thấy một bức tranh phức tạp hơn khi so sánh với các mô hình cạnh tranh như Qwen3.
Hiệu suất Benchmark so với Sử dụng Thực tế
Việc kiểm tra cộng đồng đã phơi bày khoảng cách đáng kể giữa những thành tích benchmark của GPT-OSS và các ứng dụng thực tế của nó. Người dùng báo cáo rằng GPT-OSS dường như được tối ưu hóa đặc biệt cho các benchmark lý luận, dẫn đến điểm số mạnh trong các bài kiểm tra tiêu chuẩn nhưng hiệu suất kém trong các tác vụ hàng ngày. Một nhà phát triển lưu ý rằng khi được yêu cầu tạo một câu đố đơn giản, GPT-OSS đã tạo ra những phản hồi vô nghĩa và cung cấp câu trả lời cho chính câu hỏi của nó ngay lập tức.
Ngược lại, các mô hình Qwen3 liên tục thể hiện khả năng tuân thủ prompt tốt hơn và những phản hồi nghe tự nhiên hơn trên các tác vụ khác nhau. Mô hình Qwen3 32 tỷ tham số đặc biệt xuất sắc trong việc tuân theo hướng dẫn một cách chính xác, trong khi GPT-OSS thường gặp khó khăn với các tác vụ đối thoại cơ bản mặc dù có biến thể 120 tỷ tham số lớn hơn.
Hiệu quả Tài nguyên và Yêu cầu Phần cứng
GPT-OSS giới thiệu những cải tiến hiệu quả đáng chú ý thông qua kiến trúc Mixture of Experts (MoE) và lượng tử hóa MXFP4. Mô hình 120 tỷ tham số chỉ kích hoạt 5,1 tỷ tham số mỗi token, làm cho nó chạy nhanh hơn so với các mô hình dày đặc có khả năng tương tự. Điều này cho phép mô hình chạy trên phần cứng tiêu dùng mà nếu không sẽ gặp khó khăn với các mô hình lớn như vậy.
Tuy nhiên, hiệu suất thực tế thay đổi đáng kể dựa trên các ràng buộc phần cứng. Trên các GPU tiêu dùng với VRAM hạn chế, các mô hình dày đặc như Qwen3 32B thường vượt trội hơn GPT-OSS 120B về cả tốc độ và độ chính xác. Người dùng với card đồ họa RTX 5090 báo cáo Qwen3 32B đạt được 65 token mỗi giây so với 37 token mỗi giây của GPT-OSS 120B khi cần chuyển tải CPU.
*MoE (Mixture of Experts): Một kiến trúc trong đó chỉ một tập con các tham số của mô hình hoạt động cho mỗi đầu vào, cải thiện hiệu quả.*MXFP4: Một phương pháp lượng tử hóa sử dụng độ chính xác 4-bit cho các trọng số trong khi duy trì độ chính xác cao hơn cho các thành phần khác.
So sánh hiệu suất trên RTX 5090 (lượng tử hóa 4-bit):
- GPT-OSS 120B: 37 tokens/giây (với CPU offloading)
- Qwen3 32B: 65 tokens/giây
- Qwen3 30B-A3B: 150 tokens/giây
Mối quan ngại về Chiến lược Huấn luyện
Cộng đồng đã đặt ra câu hỏi về phương pháp huấn luyện của GPT-OSS, với nhiều người nghi ngờ nó tuân theo cách tiếp cận dữ liệu tổng hợp tương tự như các mô hình Phi của Microsoft. Chiến lược này tập trung vào việc chơi trò với các benchmark cụ thể thay vì phát triển khả năng tổng quát, dẫn đến các mô hình xuất sắc trong các bài kiểm tra nhưng thất bại trong các ứng dụng thực tế.
Thứ này rõ ràng được huấn luyện qua RL để suy nghĩ và giải quyết các tác vụ cho các benchmark lý luận cụ thể. Không có gì khác.
Các nhà phát triển báo cáo rằng GPT-OSS yêu cầu nhiều ngữ cảnh và prompting chi tiết hơn đáng kể để tạo ra kết quả hữu ích, cho thấy việc huấn luyện của nó ưu tiên hiệu suất benchmark hẹp hơn là khả năng ứng dụng rộng. Điều này tương phản rõ rệt với cách tiếp cận cân bằng hơn của Qwen3, duy trì hiệu suất mạnh trên các tình huống thực tế đa dạng.
Coding và Các tác vụ Kỹ thuật
Đối với các ứng dụng lập trình, khoảng cách hiệu suất trở nên rõ rệt hơn nữa. Các mô hình Qwen3-Coder thể hiện khả năng gọi công cụ vượt trội và tuân thủ tốt hơn các yêu cầu định dạng mã. Người dùng kiểm tra các định dạng chỉnh sửa mã khác nhau báo cáo rằng Qwen3 hiếm khi thất bại với việc chỉnh sửa dựa trên diff, trong khi GPT-OSS gặp khó khăn với các tác vụ tương tự.
Mô hình Qwen3-Coder 30B đã đặc biệt gây ấn tượng với các nhà phát triển với khả năng xử lý các quy trình làm việc phức tạp, bao gồm nhận biết các tiến trình đang chạy, quản lý các instance server, và cung cấp hỗ trợ theo ngữ cảnh có thể sánh với các mô hình thương mại. Tính hữu dụng thực tế này đã làm cho nó trở thành lựa chọn ưa thích cho các môi trường phát triển cục bộ.
Yêu cầu phần cứng:
- GPT-OSS 20B: ~13GB RAM ( Ollama ), không vừa với 10GB VRAM
- Qwen3-Coder 30B-A3B: ~20GB RAM trên Mac 32GB
- Qwen3 4B: Phù hợp cho triển khai cục bộ trên phần cứng tiêu dùng
Tác động Thị trường
Những phát hiện này làm nổi bật sự phân chia ngày càng tăng trong việc phát triển mô hình AI giữa tối ưu hóa benchmark và tiện ích thực tế. Trong khi GPT-OSS chứng minh rằng những điểm số ấn tượng không nhất thiết chuyển thành sự hài lòng của người dùng, thành công của Qwen3 cho thấy rằng các cách tiếp cận huấn luyện cân bằng có thể có giá trị hơn cho các ứng dụng thực tế.
Sự ưa thích của cộng đồng đối với Qwen3 mặc dù GPT-OSS có số lượng tham số lớn hơn và thành tích benchmark cho thấy rằng người dùng ưu tiên độ tin cậy và khả năng tổng quát hơn các chỉ số hiệu suất thô. Xu hướng này có thể ảnh hưởng đến các chiến lược phát triển mô hình trong tương lai khi các công ty cân bằng giữa các cuộc trình diễn ấn tượng và tiện ích thực tế.
Tham khảo: From GPT-2 to GPT-NeoX: Analyzing the Architectural Advances