Chi phí phần cứng của Cerebras bị chỉ trích khi cộng đồng đặt câu hỏi về mức giá 135 triệu đô la Mỹ cho việc lưu trữ mô hình AI

Nhóm Cộng đồng BigGo
Chi phí phần cứng của Cerebras bị chỉ trích khi cộng đồng đặt câu hỏi về mức giá 135 triệu đô la Mỹ cho việc lưu trữ mô hình AI

Cộng đồng công nghệ đang sôi sục với những cuộc tranh luận gay gắt về tính kinh tế phần cứng của Cerebras Systems sau khi công ty công bố việc lưu trữ Qwen3-235B với tốc độ chưa từng có. Trong khi Cerebras tự hào về hiệu suất 1.500 token mỗi giây, các nhà phát triển đang tính toán những con số vẽ nên bức tranh đáng lo ngại về chi phí cơ bản.

Thông số kỹ thuật

  • Model: Qwen3-235B với hỗ trợ ngữ cảnh 131K
  • Hiệu suất: 1.500 token mỗi giây
  • Yêu cầu bộ nhớ: ~2TB cho độ chính xác fp16 đầy đủ
  • SRAM Cerebras mỗi chip: 44GB
  • Giá cả: $0.60 cho một triệu token đầu vào, $1.20 cho một triệu token đầu ra

Phân tích chi phí phần cứng gây ra những lo ngại lớn

Các thành viên cộng đồng đã tính toán rằng việc chạy Qwen3-235B với đầy đủ ngữ cảnh 131K sẽ yêu cầu đầu tư phần cứng khổng lồ. Một phân tích chi tiết cho thấy việc lưu trữ mô hình trong SRAM sẽ cần 45 chip Cerebras với giá 3 triệu đô la Mỹ mỗi chip, tổng cộng 135 triệu đô la Mỹ. Ngược lại, hai hệ thống NVIDIA DGX B200 với bộ nhớ 2.8TB có thể xử lý cùng khối lượng công việc với khoảng 1 triệu đô la Mỹ - chênh lệch chi phí gây sốc 135 lần.

Tuy nhiên, các đại diện của Cerebras đã phản bác những tính toán này, với các quan chức công ty tuyên bố rằng con số 3 triệu đô la Mỹ mỗi chip là hoàn toàn sai. Công ty vẫn chưa cung cấp chi tiết giá cả thực tế, khiến cộng đồng phải suy đoán về chi phí thực.

SRAM (Static Random Access Memory) là bộ nhớ siêu nhanh trên chip cho phép truy cập dữ liệu nhanh chóng nhưng đắt hơn nhiều so với các loại bộ nhớ truyền thống.

So sánh Chi phí Phần cứng

  • Giải pháp Cerebras : 45 chip × 3 triệu USD = 135 triệu USD (bị công ty tranh cãi)
  • Phương án thay thế NVIDIA : 2× hệ thống DGX B200 = 1 triệu USD
  • Chênh lệch Chi phí: Phương pháp Cerebras đắt hơn 135 lần

Cuộc tranh luận về kiến trúc bộ nhớ ngày càng gay gắt

Cuộc thảo luận đã phát triển thành một cuộc đào sâu kỹ thuật về kiến trúc bộ nhớ. Một số thành viên cộng đồng cho rằng Cerebras không cần lưu trữ toàn bộ mô hình trong SRAM, thay vào đó sử dụng hệ thống MemoryX để truyền dữ liệu từ bộ nhớ băng thông cao bên ngoài. Cách tiếp cận này sẽ giảm đáng kể yêu cầu phần cứng trong khi vẫn duy trì lợi thế về tốc độ.

Những người chỉ trích chỉ ra rằng nếu Cerebras dựa vào bộ nhớ ngoài như các thiết lập GPU truyền thống, lợi thế cơ bản của cách tiếp cận quy mô wafer sẽ giảm đi. Lợi ích cốt lõi của bộ nhớ trên chip khổng lồ sẽ bị mất nếu hệ thống thường xuyên truy cập bộ nhớ ngoài chip.

Những câu hỏi về lượng tử hóa vẫn chưa được giải đáp

Một mối quan tâm lớn khác tập trung vào việc lượng tử hóa mô hình - quá trình giảm yêu cầu bộ nhớ bằng cách sử dụng số có độ chính xác thấp hơn. Các hệ thống AI hiện đại thường sử dụng 6-8 bit mỗi trọng số thay vì độ chính xác 16-bit đầy đủ, cắt giảm đáng kể nhu cầu bộ nhớ mà không làm giảm chất lượng đáng chú ý.

Không có lý do gì để chạy các mô hình cho suy luận ở fp16 tĩnh, các định dạng lượng tử hóa hiện đại gán động độ chính xác cho các lớp cần chúng, trung bình 6bpw là không thể phân biệt được từ độ chính xác đầy đủ.

Cerebras chưa tiết lộ họ đang sử dụng phương pháp lượng tử hóa nào cho Qwen3-235B , khiến các nhà phát triển không chắc chắn về yêu cầu phần cứng thực tế và liệu các tuyên bố hiệu suất có dựa trên các mô hình được tối ưu hóa hay độ chính xác đầy đủ.

Tác động của Quantization đến Bộ nhớ

  • Độ chính xác đầy đủ (fp16): Sử dụng 100% bộ nhớ
  • Quantization 8-bit: Giảm ~50% bộ nhớ
  • Quantization 6-bit: Giảm ~62.5% bộ nhớ
  • Mixed precision hiện đại: Thay đổi tùy theo tầm quan trọng của từng lớp

Kiểm tra thực tế thị trường

Bất chấp những thành tựu kỹ thuật, nhiều nhà phát triển đặt câu hỏi về đề xuất giá trị thực tế. Tốc độ cực cao có thể chỉ có ý nghĩa đối với các ứng dụng chuyên biệt như giao dịch tần số cao hoặc phân tích tài chính thời gian thực, nơi mili giây quan trọng hơn chi phí.

Đối với quy trình phát triển điển hình, cộng đồng dường như chia rẽ giữa sự phấn khích về phản hồi AI gần như tức thì và sự hoài nghi về việc trả giá cao cho cải thiện tốc độ. Cuộc tranh luận phản ánh những câu hỏi rộng hơn về việc liệu các khoản đầu tư cơ sở hạ tầng AI hiện tại có bền vững hay đại diện cho một bong bóng công nghệ khác.

Cuộc tranh cãi này làm nổi bật cách thức ngay cả những thành tựu kỹ thuật ấn tượng cũng có thể đối mặt với sự giám sát khi tính kinh tế cơ bản không phù hợp với kỳ vọng thị trường. Khi chi phí cơ sở hạ tầng AI tiếp tục tăng, các công ty như Cerebras phải cân bằng hiệu suất tiên tiến với khả năng chi trả thực tế.

Tham khảo: Cerebras Launches Qwen3-235B: World's Fastest Frontier Al Model with Full 131K Context Support