OLLM Cho Phép Chạy Mô Hình 80 Tỷ Tham Số Trên GPU Tiêu Dùng 8GB, Nhưng Người Dùng Apple Silicon Bị Bỏ Lại Phía Sau

Nhóm Cộng đồng BigGo
OLLM Cho Phép Chạy Mô Hình 80 Tỷ Tham Số Trên GPU Tiêu Dùng 8GB, Nhưng Người Dùng Apple Silicon Bị Bỏ Lại Phía Sau

Một thư viện Python mới có tên OLLM đang tạo ra làn sóng trong cộng đồng AI bằng cách cho phép người dùng chạy các mô hình ngôn ngữ khổng lồ trên phần cứng giá rẻ. Công cụ này cho phép chạy các mô hình có tới 80 tỷ tham số trên GPU tiêu dùng chỉ với 8GB bộ nhớ - điều thường đòi hỏi phần cứng cấp doanh nghiệp có giá hàng nghìn đô la Mỹ.

So sánh sử dụng bộ nhớ OLLM trên NVIDIA 3060 Ti 8GB:

Model Kích thước Model Độ dài Context VRAM cơ bản OLLM GPU VRAM OLLM sử dụng ổ cứng
qwen3-next-80B 160 GB 10k tokens ~170 GB ~5.4 GB 162 GB
gpt-oss-20B 13 GB 10k tokens ~40 GB ~7.3 GB 15 GB
Llama3-8B-chat 16 GB 100k tokens ~71 GB ~6.6 GB 69 GB
Ảnh chụp màn hình kho lưu trữ GitHub của OLLM , giới thiệu các tệp của dự án và chi tiết về khả năng của nó
Ảnh chụp màn hình kho lưu trữ GitHub của OLLM , giới thiệu các tệp của dự án và chi tiết về khả năng của nó

Mối Quan Ngại Về Khả Năng Tương Thích Apple Silicon Xuất Hiện

Trong khi OLLM cho thấy kết quả ấn tượng trên GPU NVIDIA, người dùng Apple Silicon thấy mình bị loại trừ khỏi bước đột phá này. Các cuộc thảo luận cộng đồng cho thấy người dùng Mac với chip dòng M không thể tận dụng khả năng offload đĩa của OLLM, buộc họ phải dựa vào các mô hình lượng tử hóa truyền thống vừa với RAM. Hạn chế này đặc biệt gây khó chịu cho người dùng có 32GB RAM, những người hy vọng sử dụng tính năng offload SSD của OLLM để chạy các mô hình lớn hơn trong trường hợp khẩn cấp hoặc các tác vụ đặc biệt.

Tình huống này làm nổi bật sự phân chia ngày càng tăng trong khả năng tiếp cận AI giữa các hệ sinh thái phần cứng NVIDIA và Apple. Trong khi người dùng Mac vẫn có thể chạy các mô hình lớn sử dụng phiên bản tối ưu hóa MLX với tốc độ khá (khoảng 30-40 token mỗi giây), họ bỏ lỡ đổi mới chính của OLLM là chạy các mô hình vượt quá dung lượng RAM của hệ thống.

Tương thích Phần cứng:

  • Được hỗ trợ: NVIDIA Ampere ( RTX 30xx , A30 , A4000 , A10 ), Ada Lovelace ( RTX 40xx , L4 ), Hopper ( H100 )
  • Hỗ trợ hạn chế: Chip Apple Silicon M-series (yêu cầu các mô hình được tối ưu hóa MLX , không có khả năng offload đĩa)
  • Hiệu suất: qwen3-next-80B đạt được 1 token/2 giây trên phần cứng tiêu dùng

Sự Đánh Đổi Hiệu Suất Gây Ra Tranh Luận

OLLM đạt được hiệu quả bộ nhớ thông qua các kỹ thuật offload tích cực, lưu trữ trọng số mô hình và bộ nhớ đệm attention trên ổ SSD thay vì giữ mọi thứ trong bộ nhớ GPU. Tuy nhiên, cách tiếp cận này đi kèm với những hạn chế tốc độ đáng kể. Mô hình Qwen3-Next 80 tỷ tham số chỉ chạy với tốc độ 1 token mỗi 2 giây - một tốc độ khiến một số người dùng đặt câu hỏi liệu GPU có mang lại lợi thế có ý nghĩa nào so với xử lý CPU ở tốc độ như vậy hay không.

CPU chậm hơn GPU nhiều. Bạn thực sự có thể sử dụng cả hai bằng cách offload một số layer sang CPU... Tải từ RAM nhanh hơn từ SSD.

Cách tiếp cận lai của thư viện cho phép người dùng giữ một số layer trong bộ nhớ CPU để truy cập nhanh hơn trong khi offload những layer khác xuống đĩa, cung cấp một giải pháp trung gian giữa tốc độ và sử dụng bộ nhớ.

Các tính năng kỹ thuật của OLLM:

  • Tải trọng số từng lớp từ SSD lên GPU
  • Giảm tải bộ nhớ đệm KV xuống ổ cứng mà không cần lượng tử hóa
  • Triển khai FlashAttention-2 với softmax trực tuyến
  • Xử lý MLP theo khối cho các lớp trung gian lớn
  • Phân phối lớp lai CPU/GPU để tối ưu hóa tốc độ
  • Hỗ trợ độ chính xác fp16/bf16 mà không cần lượng tử hóa

Ứng Dụng Mô Hình Diffusion Vẫn Chưa Rõ Ràng

Ngoài các mô hình ngôn ngữ, các thành viên cộng đồng đang khám phá liệu các kỹ thuật của OLLM có thể mang lại lợi ích cho các ứng dụng AI khác như tạo hình ảnh hay không. Trong khi khái niệm cốt lõi của việc tải trọng số từng layer về mặt lý thuyết có thể áp dụng cho các mô hình diffusion, các kiến trúc khác nhau có nghĩa là codebase hiện tại sẽ không hoạt động trực tiếp. Điều này đại diện cho một cơ hội chưa được khai thác để mở rộng suy luận AI tiết kiệm bộ nhớ ra ngoài việc tạo văn bản.

Việc phát hành này chứng minh cách kỹ thuật sáng tạo có thể dân chủ hóa quyền truy cập vào các mô hình AI tiên tiến, ngay cả khi những hạn chế cụ thể của nền tảng tiếp tục phân mảnh trải nghiệm người dùng trên các hệ sinh thái phần cứng khác nhau.

Tham khảo: OLLM: LLM Inference for Large-Context Offline Workloads