Việc Ollama Rời Bỏ llama.cpp Tạo Ra Các Vấn Đề Tương Thích Với Mô Hình GPT-OSS 20B

Nhóm Cộng đồng BigGo
Việc Ollama Rời Bỏ llama.cpp Tạo Ra Các Vấn Đề Tương Thích Với Mô Hình GPT-OSS 20B

Người dùng Ollama đang gặp phải các vấn đề tương thích trên diện rộng với mô hình GPT-OSS 20B , làm nổi bật hậu quả của quyết định từ bỏ llama.cpp để chuyển sang triển khai riêng của nền tảng này. Những vấn đề này đã khơi mào cuộc tranh luận sôi nổi trong cộng đồng về hướng đi kỹ thuật và chiến lược kinh doanh của Ollama .

Gốc Rễ Của Vấn Đề

Nhiều người dùng trên các phiên bản Ollama khác nhau (từ 0.10.1 đến 0.11.3) đều gặp phải cùng một lỗi khi cố gắng chạy các mô hình GPT-OSS 20B GGUF . Thông báo lỗi tensor blk0.ffn.down.exps.weight has invalid ggml type 39 (NONE) xuất hiện liên tục trên nhiều hệ điều hành và cấu hình phần cứng khác nhau, bao gồm cả thiết lập CUDA và ROCm . Điều thú vị là các mô hình tương tự hoạt động hoàn hảo khi chạy trực tiếp thông qua llama.cpp , cho thấy đây là vấn đề tương thích đặc thù của Ollama .

Giải thích kỹ thuật đến từ ggerganov , người tạo ra llama.cpp , đã xác định rằng triển khai tùy chỉnh của Ollama thiếu hỗ trợ cho một số loại tensor mà các mô hình mới hơn yêu cầu. Điều này tạo ra tình huống bực bội khi người dùng có thể tải xuống mô hình thành công nhưng không thể chạy chúng, mặc dù các mô hình hoạt động hoàn hảo trong các công cụ khác.

Các phiên bản Ollama bị ảnh hưởng:

  • Phiên bản 0.10.1
  • Phiên bản 0.11.2
  • Phiên bản 0.11.3-rc0
  • Phiên bản 0.11.3

Chi tiết lỗi:

  • Thông báo lỗi: "tensor blk0.ffn.down.exps.weight has invalid ggml type 39 (NONE)"
  • Ảnh hưởng đến nhiều nguồn mô hình GGUF: unsloth/gpt-oss-20b-GGUF và ggml-org/gpt-oss-20b-GGUF
  • Các mô hình hoạt động bình thường trong llama.cpp nhưng gặp lỗi trong Ollama

Phản Ứng Dữ Dội Của Cộng Đồng Về Các Quyết Định Kỹ Thuật

Sự cố này đã phơi bày những lo ngại sâu sắc hơn về hướng đi chiến lược của Ollama . Các thành viên cộng đồng đã chỉ trích quyết định của công ty khi rời bỏ llama.cpp , cho rằng điều này tạo ra các vấn đề tương thích không cần thiết trong khi mang lại ít lợi ích cho người dùng. Một nhà phát triển lưu ý rằng Ollama hiện liên kết trực tiếp với thư viện ggml cấp thấp thay vì sử dụng llama.cpp như một thư viện, đòi hỏi họ phải tái phát minh nhiều thứ mà không mang lại lợi ích gì cả.

Tuy nhiên, ban lãnh đạo Ollama đã bảo vệ cách tiếp cận của họ, giải thích rằng việc llama.cpp nhanh chóng áp dụng các tối ưu hóa cấp độ nghiên cứu khiến nó không phù hợp cho các đối tác doanh nghiệp. Họ ưu tiên tính ổn định và hiệu suất có thể dự đoán hơn các tính năng tiên tiến, ngay cả khi điều đó có nghĩa là tốc độ chậm hơn và ít khả năng hơn.

Cấu hình phần cứng bị ảnh hưởng:

  • Thiết lập CUDA ( Tesla V100 , GPU-6000c )
  • Phiên bản ROCm 1.15 ( RX7700xt )
  • Hệ thống macOS
  • Hệ thống Ubuntu Linux
  • Các cấu hình bộ nhớ khác nhau (tổng cộng 125.8 GiB , báo cáo 114.1 GiB còn trống trong một trường hợp)

Tác Động Rộng Lớn Đối Với Hệ Sinh Thái

Cuộc tranh cãi vượt ra ngoài vấn đề tương thích đơn lẻ này. Những người chỉ trích chỉ ra rằng Ollama có hơn 1.800 vấn đề mở và không nhất quán trong việc chuyển đổi các mô hình mới nhất sang định dạng độc quyền của họ. Hạn chế này ngăn cản người dùng chạy các mô hình nguồn mở tiên tiến nhất trừ khi Ollama hỗ trợ cụ thể cho chúng.

Ollama có thể làm cho cuộc sống của mình dễ dàng hơn nhiều bằng cách sinh ra llama-server như một tiến trình con lắng nghe trên unix socket , và chuyển tiếp các yêu cầu đến nó.

Tình hình này đã khiến một số thành viên cộng đồng ủng hộ các giải pháp thay thế như llama-server hoặc các công cụ chuyển đổi mô hình khác duy trì khả năng tương thích gần gũi hơn với hệ sinh thái rộng lớn hơn. Khi Ollama tiếp tục theo đuổi các đối tác doanh nghiệp và nguồn vốn đầu tư mạo hiểm, căng thẳng giữa tính ổn định thương mại và nhu cầu cộng đồng dường như đang gia tăng.

Vấn đề tương thích GPT-OSS 20B đóng vai trò như một ví dụ cụ thể về cách các quyết định kỹ thuật được đưa ra vì lý do kinh doanh có thể tác động đến trải nghiệm người dùng và lòng tin của cộng đồng trong bối cảnh công cụ AI phát triển nhanh chóng.

Tham khảo: gpt-oss 20b gguf model fail to run #11714