OpenAI Phát Hành Các Mô Hình Trọng Số Mở GPT-OSS với Định Dạng Phản Hồi Harmony Mới

Nhóm Cộng đồng BigGo
OpenAI Phát Hành Các Mô Hình Trọng Số Mở GPT-OSS với Định Dạng Phản Hồi Harmony Mới

OpenAI đã chính thức phát hành các mô hình trọng số mở đầu tiên của mình, được gọi là GPT-OSS , đánh dấu một sự thay đổi đáng kể đối với công ty vốn truyền thống giữ các mô hình của mình ở dạng đóng. Bản phát hành bao gồm hai mô hình mixture-of-experts (MoE) và giới thiệu một định dạng phản hồi có cấu trúc mới được gọi là Harmony được thiết kế để cho phép các tương tác AI tinh vi hơn.

Kiến Trúc Giao Tiếp Đa Kênh

Định dạng Harmony đại diện cho một bước tiến lớn trong cách các mô hình AI cấu trúc phản hồi của chúng. Không giống như đầu ra văn bản luồng đơn truyền thống, hệ thống này cho phép các mô hình giao tiếp thông qua nhiều kênh đồng thời - bao gồm các kênh phân tích, bình luận và phản hồi cuối cùng. Điều này phản ánh cách con người giao tiếp tự nhiên thông qua các phương tiện khác nhau như lời nói, giọng điệu và ngôn ngữ cơ thể cùng một lúc.

Định dạng này cho phép các mô hình tách biệt quá trình suy luận chuỗi suy nghĩ của chúng khỏi các chức năng gọi công cụ và phản hồi thông thường. Cách tiếp cận có cấu trúc này mang lại cho các nhà phát triển nhiều quyền kiểm soát hơn về cách các hệ thống AI xử lý và trình bày thông tin, có khả năng dẫn đến hành vi AI đáng tin cậy và có thể diễn giải hơn.

Mixture-of-experts (MoE): Một kiến trúc AI trong đó các phần khác nhau của mô hình chuyên về các nhiệm vụ khác nhau, với một bộ định tuyến quyết định chuyên gia nào sẽ sử dụng cho mỗi đầu vào.

Các Kênh Định Dạng Harmony

  • Kênh Phân Tích: Dành cho lý luận chuỗi suy nghĩ
  • Kênh Bình Luận: Dành cho phần mở đầu gọi công cụ
  • Kênh Cuối: Dành cho phản hồi thông thường hướng đến người dùng
  • Không Gian Tên Công Cụ: Gọi hàm có cấu trúc với phân cấp rõ ràng

Thông Số Kỹ Thuật Mô Hình và Khả Năng Tiếp Cận

Bản phát hành GPT-OSS bao gồm hai mô hình với các khả năng và yêu cầu phần cứng khác nhau. Mô hình lớn hơn chứa 117 tỷ tham số (được tiếp thị là gpt-oss-120b), trong khi phiên bản nhỏ hơn có 21 tỷ tham số (gpt-oss-20b). Cả hai đều sử dụng công nghệ lượng tử hóa 4-bit được gọi là MXFP4 , giúp giảm đáng kể yêu cầu bộ nhớ trong khi duy trì hiệu suất.

Khả năng tiếp cận phần cứng đặc biệt đáng chú ý. Mô hình lớn có thể chạy trên một GPU H100 duy nhất, trong khi mô hình nhỏ hơn hoạt động trong chỉ 16GB bộ nhớ - làm cho nó phù hợp với phần cứng tiêu dùng và các ứng dụng trên thiết bị. Điều này dân chủ hóa quyền truy cập vào các khả năng AI mạnh mẽ trước đây chỉ có sẵn thông qua các API đám mây.

Lượng tử hóa 4-bit: Một kỹ thuật giảm độ chính xác của trọng số mô hình để sử dụng ít bộ nhớ hơn trong khi cố gắng bảo toàn hiệu suất.

Thông số kỹ thuật mô hình GPT-OSS

  • Mô hình lớn ( gpt-oss-120b ): 117 tỷ tham số, chạy trên GPU H100 đơn lẻ
  • Mô hình nhỏ ( gpt-oss-20b ): 21 tỷ tham số, chạy trong bộ nhớ 16GB
  • Kiến trúc: Hỗn hợp các chuyên gia (MoE) với lượng tử hóa 4-bit ( MXFP4 )
  • Khả năng truy cập: Hugging Face , Ollama , vLLM , và tải xuống trực tiếp

Cộng Đồng Khám Phá Các Cách Tiếp Cận Liên Minh

Cộng đồng phát triển AI đang thể hiện sự quan tâm mạnh mẽ trong việc sử dụng các mô hình mở này cho các cách tiếp cận thử nghiệm như liên minh mô hình. Những điều này liên quan đến việc chạy nhiều mô hình AI song song để giải quyết các vấn đề mà các mô hình riêng lẻ có thể gặp khó khăn. Các thử nghiệm ban đầu cho thấy rằng các nhóm mô hình nhỏ hơn làm việc cùng nhau đôi khi có thể vượt trội hơn các mô hình lớn đơn lẻ trong các nhiệm vụ cụ thể.

Tôi đã thử nghiệm một liên minh các qwens trên bài kiểm tra brainfuck và nó đã giải quyết được, trong khi các mô hình đơn lẻ thất bại.

Cách tiếp cận này có thể đặc biệt có giá trị do chi phí tương đối thấp của việc chạy các mô hình trọng số mở so với các cuộc gọi API độc quyền. Các nhà phát triển giờ đây có thể thử nghiệm với các kiến trúc đa mô hình tinh vi mà không cần chi phí mà trước đây làm cho nghiên cứu như vậy trở nên cấm đoán.

Công cụ Phát triển

  • Thư viện Python: pip install openai-harmony với typed stubs và độ bao phủ kiểm thử 100%
  • Thư viện Rust: Có sẵn qua GitHub với lõi được tối ưu hóa hiệu suất
  • Tương thích API: Được thiết kế để mô phỏng định dạng OpenAI Response API
  • Tích hợp: Hỗ trợ hạng nhất cho HuggingFace , Ollama , vLLM

Triển Khai Kỹ Thuật và Công Cụ Nhà Phát Triển

OpenAI đã phát hành bộ công cụ toàn diện để hỗ trợ định dạng Harmony , bao gồm các thư viện cho cả ngôn ngữ lập trình Python và Rust . Việc triển khai ưu tiên hiệu suất, với logic kết xuất và phân tích cú pháp cốt lõi được xây dựng trong Rust và được tiếp xúc với Python thông qua các ràng buộc được tối ưu hóa.

Định dạng này sử dụng các thẻ pseudo-XML để cấu trúc các loại nội dung khác nhau, tương tự như các tiêu chuẩn mới nổi khác trong lĩnh vực này. Mặc dù cách tiếp cận này có thể có vẻ không thông thường, cộng đồng đã lưu ý về hiệu quả của nó trong việc cho phép các hành vi phức tạp như lựa chọn công cụ cụ thể và suy luận có cấu trúc.

Bản phát hành đã gặp một số thách thức phối hợp ban đầu, với một số liên kết tài liệu ban đầu trả về lỗi hoặc yêu cầu xác thực. Điều này dường như trùng với sự cố GitHub , làm nổi bật sự phức tạp của việc phối hợp các bản phát hành đa nền tảng trong hệ sinh thái phát triển hiện đại.

Sự có sẵn của các mô hình trọng số thực sự mở từ OpenAI đại diện cho một cột mốc quan trọng đối với cộng đồng AI , mang lại những cơ hội mới cho nghiên cứu, thử nghiệm và triển khai trước đây bị giới hạn bởi chi phí API và các hạn chế truy cập.

Tham khảo: OpenAI Harmony