Một triển khai mã nguồn mở mới của mô hình ngôn ngữ lớn DeepSeek đã gây ra cuộc thảo luận sôi nổi về chi phí thực sự của suy luận AI và biên lợi nhuận có thể cực kỳ lớn mà các nhà cung cấp thương mại đang hưởng. Triển khai này, được xây dựng bằng SGLang trên 96 GPU H100 , đạt hiệu suất gần như tương đương hệ thống DeepSeek chính thức trong khi tiết lộ chi phí vận hành thấp hơn đáng kể so với mức giá mà hầu hết các nhà cung cấp tính cho khách hàng.
Các Chỉ Số Hiệu Suất
- Thông lượng đầu vào: 52.300 token mỗi giây trên mỗi node
- Thông lượng đầu ra: 22.300 token mỗi giây trên mỗi node
- Tổng hệ thống: 96 GPU H100 trên 12 node
- Độ dài chuỗi đầu vào: 2.000 token
![]() |
---|
Slide này minh họa việc triển khai mô hình ngôn ngữ của DeepSeek , thể hiện kiến trúc của nó và các kỹ thuật tiên tiến được sử dụng để đạt hiệu suất tối ưu trên nhiều GPU |
Phân tích chi phí phơi bày khoảng cách định giá trong ngành
Cộng đồng đã sôi động với các tính toán vẽ nên bức tranh ấn tượng về kinh doanh suy luận AI. Triển khai mã nguồn mở chạy với chi phí khoảng 0,20 đô la Mỹ trên một triệu token đầu ra, tức là khoảng một phần năm chi phí của API chính thức DeepSeek . Điều gây sốc hơn là so sánh với các nhà cung cấp khác, nơi một số thành viên cộng đồng phát hiện chi phí triển khai rẻ hơn 10 lần so với các lựa chọn rẻ nhất có sẵn trên các nền tảng như OpenRouter .
Khi người dùng đào sâu vào phép tính bằng giá cloud, họ phát hiện rằng ngay cả khi tính đến mức giá theo yêu cầu của AWS cho các instance H100 , chi phí tính toán thực tế vào khoảng 2-4,70 đô la Mỹ trên một triệu token. Tuy nhiên, nhóm đã sử dụng hosting Atlas Cloud với giá 1,80 đô la Mỹ mỗi H100 mỗi giờ, đưa chi phí xuống khoảng 0,92-2,15 đô la Mỹ trên một triệu token. Điều này cho thấy các nhà cung cấp AI lớn có thể đang hoạt động với biên lợi nhuận đáng kể.
GPU H100 là các đơn vị xử lý đồ họa cao cấp được thiết kế đặc biệt cho khối lượng công việc AI và các tác vụ học máy.
So sánh chi phí (trên một triệu token đầu ra)
- Triển khai mã nguồn mở: $0.20 USD
- API chính thức DeepSeek : ~$1.00 USD (đắt hơn 5 lần)
- Lựa chọn rẻ nhất OpenRouter : ~$2.00 USD (đắt hơn 10 lần)
- Chi phí tính toán AWS H100 : $2.00-4.70 USD
- Chi phí tính toán Atlas Cloud : $0.92-2.15 USD
![]() |
---|
Biểu đồ cột này so sánh lợi ích hiệu suất của Token-Based Optimization trong các giai đoạn prefill và decode, làm nổi bật các khía cạnh hiệu quả chi phí được thảo luận trong bài viết |
Thách thức sử dụng thực tế
Mặc dù các con số thô trông ấn tượng, những người quan sát có kinh nghiệm trong ngành đã chỉ ra những lưu ý quan trọng ảnh hưởng đến lợi nhuận thực tế. Thách thức lớn nhất là đạt được mức sử dụng GPU nhất quán trong môi trường sản xuất.
Mức sử dụng GPU đạt 10-20%. Bây giờ, nếu bạn là một công ty lớn chi tiêu nhiều tiền cho việc huấn luyện các mô hình mới, bạn có thể hình dung việc sắp xếp suy luận RL hoặc huấn luyện mô hình diễn ra trong những giờ thấp điểm này, tối đa hóa mức sử dụng.
Thực tế của việc vận hành dịch vụ suy luận bao gồm một số chi phí ẩn. Các công ty thường cần hợp đồng GPU nhiều năm thay vì định giá theo yêu cầu, phải lập kế hoạch cho mức sử dụng cao điểm có thể cao hơn 2-3 lần so với mức trung bình, và đối mặt với các hạn chế khu vực ngăn cản cân bằng tải toàn cầu. Những yếu tố này có thể ăn mòn đáng kể những biên lợi nhuận dường như khổng lồ đó.
![]() |
---|
Sơ đồ thời gian này minh họa các tương tác chi tiết giữa Prefill Server và Decode Server , làm nổi bật những thách thức vận hành trong việc đạt được hiệu suất sử dụng GPU hiệu quả trong suy luận AI |
Đổi mới kỹ thuật đằng sau hiệu suất
Triển khai đạt được kết quả ấn tượng thông qua một số đổi mới chính. Nhóm đã tách riêng các giai đoạn prefill và decode của suy luận mô hình ngôn ngữ, cho phép mỗi giai đoạn được tối ưu hóa độc lập. Họ cũng triển khai song song chuyên gia quy mô lớn để xử lý kiến trúc Mixture of Experts của DeepSeek một cách hiệu quả.
Hệ thống xử lý 52.300 token đầu vào và 22.300 token đầu ra mỗi giây trên mỗi node, đại diện cho triển khai mã nguồn mở đầu tiên gần như tương đương hiệu suất DeepSeek chính thức ở quy mô này. Thành tựu này đòi hỏi quản lý bộ nhớ tinh vi và tối ưu hóa giao tiếp trên cụm 12 node.
Prefill và decode là hai giai đoạn của việc tạo văn bản AI - prefill xử lý lời nhắc đầu vào, trong khi decode tạo ra các token mới từng cái một.
Kiến trúc Kỹ thuật
- Tách biệt Prefill-Decode: Phân tách giai đoạn prefill tốn nhiều tài nguyên tính toán khỏi giai đoạn decode tốn nhiều bộ nhớ
- Tính song song Expert (EP): Phân phối trọng số Mixture of Experts trên nhiều thiết bị
- Tính song song Dữ liệu (DP): Được sử dụng cho các lớp attention, dense FFN và LM head
- Tích hợp DeepEP: Hỗ trợ chế độ dispatch thông thường (prefill) và chế độ dispatch độ trễ thấp (decode)
- Truyền tải RDMA: Sử dụng Remote Direct Memory Access để truyền tải dữ liệu hiệu quả giữa các node
Tác động đến ngành
Bản chất mã nguồn mở của triển khai này có thể định hình lại động lực cạnh tranh trong thị trường suy luận AI. Bằng cách làm cho công nghệ phục vụ hiệu suất cao có sẵn miễn phí, nó làm giảm rào cản cho những người tham gia mới và gây áp lực lên các nhà cung cấp hiện tại để biện minh cho việc định giá của họ.
Tuy nhiên, không nên đánh giá thấp độ phức tạp kỹ thuật liên quan. Triển khai thành công các hệ thống như vậy đòi hỏi chuyên môn sâu về điện toán phân tán, tối ưu hóa GPU và quản lý cơ sở hạ tầng quy mô lớn. Đối với nhiều tổ chức, việc trả mức giá cao cho các dịch vụ được quản lý vẫn có thể có ý nghĩa kinh tế mặc dù có sự khác biệt chi phí rõ ràng.
Cuộc thảo luận đã làm nổi bật cách thị trường suy luận AI vẫn đang phát triển nhanh chóng. Khi các triển khai hiệu quả hơn trở nên có sẵn và chi phí phần cứng tiếp tục phát triển, chúng ta có thể mong đợi áp lực liên tục lên việc định giá trên toàn ngành.
Tham khảo: Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs