DGX Spark của NVIDIA hứa hẹn mang lại hiệu suất AI đạt cấp độ siêu máy tính cho các trạm làm việc để bàn, nhưng các bài kiểm tra gần đây từ cộng đồng đã tiết lộ những khoảng cách hiệu suất đáng ngạc nhiên và châm ngòi cho một cuộc tranh luận sôi nổi về giá trị mà nó mang lại. Mặc dù hệ thống AI nhỏ gọn của NVIDIA sở hữu các thông số kỹ thuật ấn tượng bao gồm 128GB bộ nhớ thống nhất và kết nối liên lạc 200Gbps, các bài kiểm tra độc lập cho thấy nó có thể gặp khó khăn trong việc cạnh tranh với cả GPU tiêu dùng và các hệ thống thay thế khác trong các tác vụ suy luận thực tế.
![]() |
---|
Bao bì NVIDIA DGX Spark, tượng trưng cho cam kết của thương hiệu về hiệu suất AI trong các máy trạm để bàn |
Điểm Chuẩn Hiệu Suất Châm Ngòi Tranh Cãi
Băng thông bộ nhớ 273 GB/s của DGX Spark đã nổi lên như một điểm nghẽn nghiêm trọng trong các bài kiểm tra của cộng đồng. Một bình luận viên lưu ý rằng RTX 5090 có băng thông bộ nhớ là 1792 GB/s, trong khi DGX Spark chỉ có 273 GB/s, tức là khoảng 1/6.5. Sự khác biệt đáng kể này thể hiện rõ ràng trong kết quả điểm chuẩn, nơi Spark chỉ đạt 94,67 token mỗi giây cho prefill và 11,66 token mỗi giây cho decode khi chạy GPT-OSS 120B sử dụng Ollama. Những con số này có vẻ kém ấn tượng so với các hệ thống như Strix Halo của AMD, hệ thống được báo cáo là đạt 420 token mỗi giây prefill và hơn 40 token mỗi giây decode cho cùng mô hình.
Có một số điểm chuẩn trên reddit: tóm lại là nó bị Strix Halo áp đảo hoàn toàn, với mức giá chỉ bằng một nửa.
Chính phương pháp kiểm tra cũng bị chỉ trích, với một số chuyên gia cho rằng việc sử dụng llama.cpp thay vì Ollama có thể tiết lộ hiệu suất tốt hơn đáng kể. Một bình luận viên tự nhận là người tạo ra llama.cpp đã chia sẻ kết quả mẫu cho thấy mô hình GPT-OSS 120B đạt 1792,32 token mỗi giây cho prefill và 38,54 token mỗi giây cho decode trên hệ thống Spark của họ - cao hơn đáng kể so với các con số được báo cáo trong bài đánh giá ban đầu.
So sánh hiệu năng (GPT-OSS 120B)
- DGX Spark (Ollama): 94.67 tps prefill / 11.66 tps decode
- DGX Spark (llama.cpp): 1792.32 tps prefill / 38.54 tps decode
- Strix Halo: ~420 tps prefill / >40 tps decode
- RTX 5090: ~4100 tps prefill / ~40 tps decode
Giá Cả và Đề Xuất Giá Trị Bị Đặt Nghi Vấn
Với mức giá 4000 đô la Mỹ, DGX Spark nằm trong một phân khúc giá cạnh tranh bao gồm chính RTX 5090 của NVIDIA với giá khoảng 2000 đô la Mỹ và các hệ thống Strix Halo của AMD với giá khoảng 1800-2000 đô la Mỹ. Các thành viên cộng đồng nhanh chóng nhận thấy rằng một hệ thống được xây dựng xung quanh RTX 5090 sẽ cung cấp hiệu suất GPU và băng thông bộ nhớ cao hơn đáng kể, mặc dù bị giới hạn ở 32GB VRAM. Bộ nhớ thống nhất 128GB vẫn là lợi thế chính của Spark để chạy các mô hình cực lớn mà không thể vừa với bộ nhớ GPU rời riêng lẻ.
Sự so sánh với hệ sinh thái của Apple cũng thu hút thảo luận đáng kể. Trong khi Mac Studio với 128GB bộ nhớ thống nhất có giá 3499 đô la Mỹ, các bình luận viên lưu ý rằng khả năng tương thích CUDA mang lại cho hệ thống NVIDIA quyền truy cập vào một hệ sinh thái rộng lớn hơn nhiều các công cụ và framework AI. Tuy nhiên, một số người đặt câu hỏi tại sao bài kiểm tra ban đầu không bao gồm framework MLX của Apple, điều mà có thể đã cho thấy hiệu suất tốt hơn cho các hệ thống Mac trong các tác vụ suy luận AI.
So sánh giá
- DGX Spark: 4.000 USD
- RTX 5090: ~2.000 USD
- Strix Halo: 1.800-2.000 USD
- Mac Studio (128GB): 3.499 USD
![]() |
---|
Thiết kế nhỏ gọn và thanh lịch của phần cứng Apple, đóng vai trò như một tiêu chuẩn cạnh tranh so với đề xuất giá trị của NVIDIA DGX Spark |
Góc Nhìn Kỹ Thuật và Quan Điểm Thay Thế
Ngoài những con số hiệu suất thô, cộng đồng đã xác định một số yếu tố kỹ thuật có thể giải thích cho đặc điểm của DGX Spark. Việc sử dụng bộ nhớ LPDDR5x, mặc dù cung cấp dung lượng lớn trong một thiết kế nhỏ gọn, nhưng vốn dĩ đã giới hạn băng thông so với bộ nhớ GDDR7 được sử dụng trong GPU rời. Lựa chọn thiết kế này phản ánh vị thế của Spark như một nền tảng phát triển và tạo mẫu hơn là một máy chủ suy luận cho sản xuất.
Khả năng kết nối liên lạc đã nhận được lời khen ngợi, với một bình luận viên nhận xét rằng Spark có các kết nối liên lạc cực kỳ nhanh. Loại kết nối liên lạc mà người ta muốn sử dụng trong một trung tâm dữ liệu AI thực sự, vì vậy bạn có thể sử dụng nhiều hơn một Spark cùng một lúc. Cổng QSFP kép hỗ trợ băng thông tổng hợp 200Gbps cho phép nhiều Spark làm việc cùng nhau như một cụm nhỏ, có khả năng khắc phục những hạn chế của từng đơn vị riêng lẻ cho các khối lượng công việc suy luận phân tán.
So sánh băng thông bộ nhớ
- DGX Spark: 273 GB/s (LPDDR5x)
- RTX 5090: 1792 GB/s (GDDR7)
- Strix Halo: 256 GB/s (DDR5)
Kết Luận
DGX Spark đại diện cho một sự thỏa hiệp thú vị giữa khả năng tiếp cận và hiệu suất trong lĩnh vực phần cứng AI. Mặc dù các bài kiểm tra từ cộng đồng đã tiết lộ những lo ngại chính đáng về hiệu suất suy luận của nó so với các hệ thống cạnh tranh, sự kết hợp độc đáo giữa bộ nhớ thống nhất lớn, kết nối liên lạc tốc độ cao và thiết kế nhỏ gọn của nền tảng này vẫn có thể khiến nó có giá trị cho các trường hợp sử dụng cụ thể. Khi sự hỗ trợ phần mềm trưởng thành và các phương pháp kiểm tra được cải thiện, khả năng thực sự của hệ thống không theo lối mòn này có thể sẽ trở nên rõ ràng hơn. Hiện tại, sự đồng thuận từ cộng đồng cho thấy rằng những người mua tiềm năng nên đánh giá cẩn thận yêu cầu khối lượng công việc cụ thể của họ trước khi lựa chọn Spark thay cho các lựa chọn thay thế truyền thống hơn.
Tham khảo: NVIDIA DGX Spark In-Depth Review: A New Standard for Local AI Inference