Tại hội nghị Hot Chips 2025, Nvidia đã cung cấp cái nhìn sâu sắc về kiến trúc Blackwell Ultra của mình, tiết lộ những cải tiến hiệu suất đáng kể và khả năng công nghệ mới giúp định vị các GPU mới nhất của công ty ở vị trí dẫn đầu trong lĩnh vực điện toán AI. Thông báo này được đưa ra khi Nvidia tiếp tục thống trị thị trường phần cứng AI, bất chấp kết quả thu nhập gần đây cho thấy tâm lý nhà đầu tư trái chiều do các hạn chế thương mại với Trung Quốc.
Điểm nổi bật tài chính quý 2/2025 của Nvidia
- Tổng doanh thu: 46,74 tỷ USD (+56% so với cùng kỳ năm trước)
- Doanh thu trung tâm dữ liệu: 41,1 tỷ USD (+56% so với cùng kỳ năm trước, +5% so với quý trước)
- Lợi nhuận ròng: 26,4 tỷ USD (+40,8% so với quý trước)
- Thu nhập trên mỗi cổ phiếu: 1,08 USD (so với dự báo 1,02 USD)
- Tỷ suất lợi nhuận gộp: 72,4% (tăng từ 61% quý trước)
- Doanh số H20 tại Trung Quốc: 0 USD (do các hạn chế thương mại)
- Tiềm năng thị trường Trung Quốc: 2-5 tỷ USD nếu các vấn đề địa chính trị được giải quyết
Hiệu Suất NVFP4 Được Tăng Cường với Tensor Cores Tối Ưu Hóa
Các GPU Blackwell Ultra B300-series có các lõi Tensor được tối ưu hóa mới được thiết kế đặc biệt cho định dạng dữ liệu độc quyền NVFP4 của Nvidia. Cải tiến này mang lại hiệu suất NVFP4 PetaFLOPS cao hơn tới 50% so với dòng Blackwell B100/B200 tiêu chuẩn. Tuy nhiên, tối ưu hóa này đi kèm với những đánh đổi, vì hiệu suất NVFP4 được tăng cường dẫn đến giảm khả năng tính toán INT8 và FP64. Định dạng NVFP4 đại diện cho một bước tiến đáng kể trong hiệu quả xử lý AI, sử dụng bố cục E2M1 nhỏ gọn với phương pháp chia tỷ lệ kép giúp duy trì độ chính xác gần với BF16 trong khi giảm đáng kể yêu cầu bộ nhớ.
Thông số kỹ thuật định dạng NVFP4
- Bố cục định dạng: E2M1 (1-bit dấu, 2-bit số mũ, 1-bit mantissa)
- Phạm vi số: Khoảng -6 đến +6
- Phương pháp chia tỷ lệ: Hai tầng ( FP8 E4M3 cho nhóm 16 giá trị, hệ số toàn cục FP32 )
- Hiệu quả bộ nhớ: Thấp hơn 1.8 lần so với FP8 , thấp hơn 3.5 lần so với FP16
- Độ chính xác: Độ lệch dưới 1% so với FP8 trong hầu hết các khối lượng công việc
- Khả năng huấn luyện: Khả thi cho việc tiền huấn luyện quy mô nghìn tỷ token
![]() |
---|
So sánh hiệu suất của NVFP4 với BF16 cho các tác vụ AI, thể hiện những cải tiến về độ chính xác và hiệu quả |
Nâng Cấp Bộ Nhớ và Kết Nối Đáng Kể
Các GPU Blackwell Ultra hiện có 288 GB bộ nhớ HBM3E, tăng đáng kể so với 186 GB có trong các triển khai Blackwell trước đây. Việc mở rộng bộ nhớ này cho phép kích thước batch lớn hơn và chuỗi dài hơn cho các khối lượng công việc AI. Ngoài ra, dòng B300 trở thành GPU trung tâm dữ liệu chính thức đầu tiên hỗ trợ kết nối PCIe 6.0, cung cấp băng thông hai chiều 128 GB/s trên mỗi khe x16 thông qua tín hiệu PAM4 và mã hóa dựa trên FLIT. Hiện tại, chỉ có các CPU Grace của Nvidia hỗ trợ khả năng PCIe 6.0 này, tạo ra một hệ sinh thái tích hợp chặt chẽ.
So sánh Blackwell và Blackwell Ultra
Thông số kỹ thuật | Blackwell (B100/B200) | Blackwell Ultra (B300) |
---|---|---|
Hiệu năng NVFP4 | Tiêu chuẩn | Tăng cường +50% |
Bộ nhớ HBM3E | 186 GB | 288 GB |
Hỗ trợ PCIe | 5.0 | 6.0 |
TDP | 1,200W | 1,400W |
Tensor Cores | Tiêu chuẩn | Tối ưu hóa NVFP4 |
Hiệu năng INT8/FP64 | Tiêu chuẩn | Giảm |
Đánh Đổi Tiêu Thụ Điện Năng để Tăng Hiệu Suất
Các khả năng được tăng cường của Blackwell Ultra đi kèm với chi phí tăng tiêu thụ điện năng. Dòng B300 hoạt động ở TDP 1.400W, tăng 200W so với TDP 1.200W của các bộ xử lý Blackwell tiêu chuẩn. Sự gia tăng công suất này phản ánh các tài nguyên tính toán bổ sung và dung lượng bộ nhớ được tích hợp vào kiến trúc Ultra, làm nổi bật thách thức liên tục trong việc cân bằng hiệu suất với hiệu quả năng lượng trong các ứng dụng điện toán hiệu suất cao.
Định Dạng NVFP4 Độc Quyền Tạo Lợi Thế Cạnh Tranh
Định dạng NVFP4 của Nvidia mở rộng ra ngoài các ứng dụng suy luận đơn giản để hỗ trợ huấn luyện trước ở quy mô hàng nghìn tỷ token. Các thí nghiệm ban đầu với các mô hình 7 tỷ tham số được huấn luyện trên 200 tỷ token cho thấy kết quả tương đương với độ chính xác BF16. Định dạng này đạt được yêu cầu bộ nhớ thấp hơn khoảng 1,8 lần so với FP8 và 3,5 lần so với FP16, giảm đáng kể chi phí lưu trữ và di chuyển dữ liệu qua các fabric NVLink và NVSwitch. Mặc dù là độc quyền và giới hạn trong phần cứng Nvidia, công ty đang tích hợp hỗ trợ NVFP4 vào các framework mã nguồn mở bao gồm Cutclass, NCCL và TensorRT Model Optimizer.
![]() |
---|
So sánh điểm số độ chính xác thể hiện hiệu suất vượt trội của NVFP4 so với FP8 qua các đánh giá mô hình khác nhau |
Vị Thế Thị Trường Giữa Thách Thức Thương Mại Trung Quốc
Thông báo về Blackwell Ultra trùng với báo cáo thu nhập gần đây của Nvidia, cho thấy hiệu suất mạnh mẽ nhưng làm một số nhà đầu tư thất vọng do doanh số chip H20 bằng không cho khách hàng có trụ sở tại Trung Quốc. Doanh thu đạt 46,74 tỷ đô la Mỹ, vượt dự báo của Wall Street là 46,52 tỷ đô la Mỹ, với doanh thu trung tâm dữ liệu tăng 56% so với cùng kỳ năm trước lên 41,1 tỷ đô la Mỹ. CEO Jensen Huang nhấn mạnh rằng sản xuất Blackwell Ultra đang tăng tốc với tốc độ tối đa, và nhu cầu là phi thường, định vị kiến trúc mới là trung tâm của cuộc đua cơ sở hạ tầng AI đang diễn ra bất chấp các ràng buộc địa chính trị ảnh hưởng đến một số thị trường nhất định.