OpenAI Phát Hành Mô Hình Mở Đầu Tiên: GPT-OSS-120B và GPT-OSS-20B Thách Thức Thị Trường AI Cục Bộ

Nhóm Cộng đồng BigGo
OpenAI Phát Hành Mô Hình Mở Đầu Tiên: GPT-OSS-120B và GPT-OSS-20B Thách Thức Thị Trường AI Cục Bộ

Trong một động thái bất ngờ khiến cộng đồng công nghệ phải ngạc nhiên, OpenAI đã phát hành những mô hình mở đầu tiên của mình, đánh dấu một sự thay đổi đáng kể đối với công ty từng được biết đến với các hệ thống AI đóng và độc quyền. Bản phát hành bao gồm hai mô hình: GPT-OSS-120B và GPT-OSS-20B , cả hai đều có sẵn dưới giấy phép Apache 2.0 và được thiết kế để chạy hiệu quả trên phần cứng tiêu dùng.

Thông báo này thể hiện sự thay đổi mạnh mẽ so với chiến lược trước đây của OpenAI . Công ty từng loại bỏ từ Open khỏi tuyên bố sứ mệnh của mình cách đây nhiều năm, giờ đây đang cạnh tranh trực tiếp với các phòng thí nghiệm AI Trung Quốc như Alibaba ( Qwen ) và DeepSeek - những đơn vị đã thống trị không gian mô hình mở. Thời điểm này có vẻ mang tính chiến lược, với nhiều suy đoán rằng bản phát hành này nhằm dọn đường trước thông báo GPT-5 sắp tới.

Một giao diện cho " gpt-oss playground ," nơi người dùng có thể thử nghiệm với các mô hình trọng số mở mới được phát hành của OpenAI
Một giao diện cho " gpt-oss playground ," nơi người dùng có thể thử nghiệm với các mô hình trọng số mở mới được phát hành của OpenAI

Hiệu Suất Sánh Ngang Các Mô Hình Độc Quyền

Phản ứng của cộng đồng đặc biệt tích cực, nhất là về hiệu suất của mô hình 20B trên phần cứng tiêu dùng. Các thử nghiệm ban đầu cho thấy mô hình nhỏ hơn đạt được kết quả cạnh tranh với các hệ thống độc quyền lớn hơn nhiều trong khi chạy mượt mà trên các thiết bị như MacBook Air M3 với 24GB RAM . Người dùng báo cáo tốc độ tạo token từ 40-70 token mỗi giây trên nhiều cấu hình phần cứng khác nhau, khiến nó thực sự có thể sử dụng cho các ứng dụng thời gian thực.

Mô hình 120B thể hiện khả năng ấn tượng hơn nữa, với điểm số benchmark tiến gần đến mô hình o4 của chính OpenAI trên nhiều đánh giá. Tuy nhiên, các mô hình sử dụng kiến trúc Mixture of Experts (MoE) , có nghĩa là chỉ 3.6B tham số hoạt động trong mô hình 20B và 5.1B trong phiên bản 120B , điều này giúp giải thích hiệu quả của chúng.

MoE (Mixture of Experts): Một kiến trúc mà chỉ một tập con các tham số của mô hình được sử dụng cho mỗi đầu vào, cải thiện hiệu quả trong khi duy trì hiệu suất.

Điểm chuẩn hiệu suất (Kết quả được chọn lọc)

  • GPQA Diamond: GPT-OSS-120B: 80.1% so với Qwen3-235B: 81.1%
  • Humanity's Last Exam: GPT-OSS-120B: 19.0% (có công cụ hỗ trợ), 14.9% (không có công cụ hỗ trợ)
  • MMLU: GPT-OSS-20B xếp hạng top 10, đứng sau Gemini-2.5-Pro
  • Tốc độ tạo token: 40-70 token/giây trên phần cứng tiêu dùng (thay đổi tùy theo cấu hình)

Yêu Cầu Phần Cứng và Khả Năng Tiếp Cận

Một trong những khía cạnh được thảo luận nhiều nhất là khả năng tiếp cận phần cứng của các mô hình. Mô hình 20B yêu cầu khoảng 15GB RAM và có thể chạy trên phần cứng tiêu dùng tầm trung, trong khi mô hình 120B cần khoảng 60GB bộ nhớ thống nhất hoặc VRAM . Điều này đưa khả năng AI tiên tiến vào tầm với của nhiều nhà phát triển và nhà nghiên cứu trước đây phải dựa vào các dịch vụ đám mây đắt đỏ.

Các mô hình sử dụng lượng tử hóa MXFP4 gốc, một định dạng 4-bit giảm đáng kể yêu cầu bộ nhớ trong khi duy trì chất lượng. Thành tựu kỹ thuật này cho phép mô hình 120B vừa với một GPU 80GB duy nhất, khiến nó trở nên dễ tiếp cận với các tổ chức nhỏ hơn và các nhà nghiên cứu cá nhân.

MXFP4: Một định dạng dấu phẩy động 4-bit chỉ sử dụng 4.25 bit mỗi tham số, giảm mạnh việc sử dụng bộ nhớ so với các định dạng 16-bit truyền thống.

Thông số kỹ thuật của mô hình

Mô hình Tổng số tham số Tham số hoạt động Yêu cầu bộ nhớ Giấy phép
GPT-OSS-120B 116.8B 5.1B ~60GB VRAM/RAM Apache 2.0
GPT-OSS-20B 20B 3.6B ~15GB VRAM/RAM Apache 2.0

Cả hai mô hình đều sử dụng kiến trúc MoE (Mixture of Experts) với khả năng lượng tử hóa MXFP4 tự nhiên và hỗ trợ cửa sổ ngữ cảnh 131K.

Phản Ứng Trái Chiều Về Hiệu Suất Thực Tế

Bất chấp sự phấn khích, thử nghiệm của cộng đồng tiết lộ một số hạn chế. Trong khi các mô hình xuất sắc trong các tác vụ lý luận và toán học, người dùng báo cáo những điểm yếu đáng kể trong viết sáng tạo, dịch thuật và kiến thức tổng quát so với các lựa chọn mở đã được thiết lập như Qwen3 và GLM-4.5 . Các mô hình cũng có vẻ được lọc mạnh về an toàn, đôi khi từ chối trả lời những câu hỏi vô hại.

Mô hình 20b cứ chọn câu trả lời của câu đố gốc, ngay cả sau khi giải thích thêm thông tin cho nó.

Hiệu suất lập trình, truyền thống là điểm mạnh của các mô hình OpenAI , cho thấy kết quả trái chiều. Một số người dùng thấy nó tương đương với GPT-4.1 cho một số tác vụ nhất định, trong khi những người khác báo cáo nó kém hiệu suất so với các mô hình lập trình chuyên biệt như Qwen3-Coder-30B .

Ý Nghĩa Chiến Lược và Tác Động Ngành

Bản phát hành có ý nghĩa quan trọng đối với ngành AI. Bằng cách cung cấp các mô hình mở cạnh tranh, OpenAI về cơ bản đang hàng hóa hóa tầng thấp hơn của khả năng AI trong khi có lẽ giữ công nghệ tiên tiến nhất của họ ở dạng độc quyền. Chiến lược này phản ánh cách tiếp cận của Meta với Llama nhưng đến vào thời điểm các công ty Trung Quốc đang dẫn đầu không gian mô hình mở.

Động thái này cũng giải quyết nhu cầu ngày càng tăng của doanh nghiệp về các giải pháp AI tại chỗ. Nhiều tổ chức trong tài chính, y tế và chính phủ không thể sử dụng các dịch vụ AI dựa trên đám mây do yêu cầu quy định hoặc bảo mật. Những mô hình mở này cung cấp một lựa chọn khả thi cho các trường hợp sử dụng như vậy.

Yêu Cầu Phần Cứng và Khả Năng Tương Thích

Yêu Cầu Tối Thiểu:

  • GPT-OSS-20B : 16GB RAM, hoạt động trên MacBook Air M3 , RTX 3090 , RTX 4060 Ti
  • GPT-OSS-120B : 60GB+ bộ nhớ thống nhất/VRAM, tối ưu trên Mac Studio , RTX 6000 Pro

Các Nền Tảng Được Hỗ Trợ:

  • Ollama , LM Studio , llama.cpp
  • Nhà cung cấp đám mây: Groq (1000+ tok/s), Cerebras (3815 tok/s), Fireworks
  • Giá trên OpenRouter : $0.15M đầu vào / $0.6-0.75M token đầu ra (USD)

Nhìn Về Tương Lai

Sự đồng thuận của cộng đồng cho rằng những mô hình này thể hiện hiệu suất tầm trung vững chắc mà dễ tiếp cận với đối tượng rộng hơn bao giờ hết. Mặc dù chúng có thể không sánh bằng tuyệt đối tiên tiến nhất của các mô hình độc quyền, chúng cung cấp một đề xuất giá trị hấp dẫn cho nhiều ứng dụng. Bản phát hành cũng báo hiệu rằng kỷ nguyên khả năng AI bị khóa sau các API đắt đỏ có thể đang kết thúc, ít nhất là đối với một số tầng hiệu suất nhất định.

Liệu điều này đánh dấu sự thay đổi vĩnh viễn trong chiến lược của OpenAI hay một động thái chiến thuật trước GPT-5 vẫn còn phải xem. Điều rõ ràng là bối cảnh AI dễ tiếp cận vừa trở nên cạnh tranh hơn đáng kể, với lợi ích tiềm năng cho các nhà phát triển, nhà nghiên cứu và cuối cùng là người dùng cuối trên toàn thế giới.

Tham khảo: Open models by OpenAI