Kiến trúc GPU Blackwell mới nhất của Nvidia đã gây ra những cuộc thảo luận sôi nổi trong cộng đồng công nghệ, với các chuyên gia đặt câu hỏi về tính hợp lệ của các phương pháp đánh giá hiệu năng hiện tại và nêu lên mối lo ngại về độ phức tạp trong sản xuất. GPU hàng đầu này hứa hẹn những cải tiến đáng kể với bộ nhớ thanh ghi 192KB và bộ nhớ đệm lệnh 512KB, nhưng những tác động thực tế vẫn đang được tranh luận.
Thông số kỹ thuật chính của Nvidia Blackwell:
- Số lượng transistor: 208 tỷ
- Kích thước die: 750mm²
- Quy trình sản xuất: TSMC 4NP
- Tệp thanh ghi: 192KB
- Bộ nhớ đệm L1D lệnh: 512KB
- Dung lượng bộ nhớ đệm L2: 144MB
- Băng thông bộ nhớ: Lên đến 5TB/s
- Kích thước transistor ước tính: ~85nm x 85nm
Cuộc tranh luận về đánh giá hiệu năng OpenCL so với CUDA
Một điểm tranh cãi lớn tập trung vào cách thức đo lường hiệu năng của Blackwell. Các nhà phân tích công nghệ đã nêu lên mối lo ngại rằng nhiều đánh giá GPU dựa chủ yếu vào thử nghiệm OpenCL, điều này có thể không phản ánh các mẫu sử dụng thực tế. Vấn đề xuất phát từ việc hầu hết các chuyên gia mua GPU Nvidia để làm việc tính toán thực sự sử dụng các framework CUDA hoặc HIP, có quy trình biên dịch khác nhau.
Tuy nhiên, một số thành viên cộng đồng cho rằng đối với mã đánh giá hiệu năng cơ bản, sự khác biệt giữa OpenCL, CUDA và HIP là tối thiểu. Sự khác biệt chỉ trở nên đáng kể trong các ứng dụng phức tạp khởi chạy nhiều tác vụ xử lý và di chuyển lượng lớn dữ liệu giữa chúng. Điều này đã dẫn đến các cuộc thảo luận liên tục về việc liệu các phân tích hiệu năng hiện tại có thực sự đại diện cho những gì người dùng có thể mong đợi từ Blackwell trong các ứng dụng thực tế hay không.
OpenCL (Open Computing Language) là một framework để viết các chương trình chạy trên các loại bộ xử lý khác nhau, trong khi CUDA là nền tảng tính toán song song độc quyền của Nvidia.
Độ phức tạp sản xuất và mật độ transistor
Các thông số kỹ thuật của Blackwell cho thấy những con số ấn tượng, nhưng chúng cũng làm nổi bật những thách thức trong sản xuất. Với 208 tỷ transistor được đóng gói trong một die 750mm² sử dụng quy trình 4NP của TSMC, chip này đại diện cho một thành tựu kỹ thuật đáng kể. Các tính toán của cộng đồng cho thấy kích thước transistor khoảng 85nm x 85nm, mặc dù các chuyên gia lưu ý rằng tỷ lệ sử dụng thực tế thường chỉ đạt 70-75% do cần thiết phải có khoảng cách cho dây dẫn và các yêu cầu sản xuất.
Quy trình sản xuất bao gồm nhiều lớp dây dẫn kim loại được xếp chồng lên trên các transistor, tạo ra một cấu trúc ba chiều phức tạp. Các quy tắc thiết kế yêu cầu không gian bổ sung cho các diode anten và các yếu tố bảo vệ khác để đảm bảo sản xuất thành công và tỷ lệ thành phẩm tốt. Những yếu tố này góp phần vào kích thước die tổng thể và chi phí sản xuất.
Chuỗi cung ứng và định vị thị trường
Tình trạng có sẵn cho người tiêu dùng vẫn là một vấn đề dai dẳng, với tình trạng thiếu hụt liên tục ảnh hưởng đến thị trường gaming. Nguyên nhân gốc rễ dường như là nhu cầu khổng lồ từ các công ty AI sẵn sàng trả giá cao cho việc phân bổ wafer. Điều này đã khiến GPU tiêu dùng trở nên kém hấp dẫn hơn để sản xuất từ góc độ kinh doanh, dẫn đến giá cả cao hơn và tình trạng có sẵn hạn chế.
Hiểu biết của tôi là nhu cầu AI và sự sẵn sàng trả số tiền điên rồ cho wafer khiến GPU tiêu dùng trở thành sản phẩm kém hấp dẫn hơn đáng kể để sản xuất.
Các vấn đề kiểm soát chất lượng gần đây, bao gồm việc thiếu ROP (Render Output Units) trong một số card tiêu dùng, đã làm phức tạp thêm tình hình cung ứng. Những khiếm khuyết này đã buộc phải trả lại và đổi hàng, gây thêm áp lực lên hàng tồn kho vốn đã hạn chế.
ROP là các thành phần chuyên biệt trong GPU chịu trách nhiệm xử lý pixel cuối cùng và xuất ra màn hình.
So sánh thị trường GPU (Mật độ công suất):
- Nvidia RTX 5090 : công suất đỉnh 575W, die 750mm²
- Intel Core Ultra 285K : công suất đỉnh 250W, die 243mm²
- Công suất trên diện tích: CPU sử dụng nhiều hơn 25% công suất trên mm² so với GPU
- Lưu ý: CPU bao gồm lớp tản nhiệt bổ sung, GPU sử dụng làm mát trực tiếp trên die
Cân nhắc kiến trúc tương lai
Nhìn về phía trước, các cuộc thảo luận đã nổi lên về việc liệu Nvidia có nên phát triển các bộ xử lý chuyên biệt hơn tương tự như TPU (Tensor Processing Units) của Google hay không. Những bộ xử lý này sẽ ít có thể lập trình hơn nhưng có khả năng hiệu quả hơn cho các tác vụ suy luận AI. Tuy nhiên, các tensor core hiện tại của Nvidia đã tích hợp các mảng systolic nhỏ, và các khoản đầu tư hệ sinh thái mạnh mẽ của công ty khiến những thay đổi kiến trúc mạnh mẽ không có khả năng xảy ra trong thời gian ngắn.
Cuộc tranh luận phản ánh những câu hỏi rộng lớn hơn về tương lai của thiết kế GPU khi các khối lượng công việc AI tiếp tục thống trị thị trường. Trong khi Blackwell đại diện cho sự tiến hóa của kiến trúc GPU truyền thống, một số người tự hỏi liệu các phương pháp chuyên biệt hơn có thể phục vụ tốt hơn thị trường suy luận đang phát triển.
Sự đồng thuận của cộng đồng cho thấy rằng trong khi Blackwell cung cấp các thông số kỹ thuật ấn tượng trên giấy, việc đánh giá hiệu năng thực tế vẫn còn thách thức do các hạn chế trong đánh giá hiệu năng và bản chất phức tạp của các khối lượng công việc tính toán hiện đại. Khi kiến trúc trưởng thành và các phương pháp thử nghiệm đa dạng hơn xuất hiện, một bức tranh rõ ràng hơn về khả năng thực sự của Blackwell sẽ phát triển.
Tham khảo: Blackwell: Nvidia's Intensive GPU