Nvidia ra mắt GPU Rubin CPX cho suy luận AI ngữ cảnh dài với hiệu suất tăng 6,5 lần

Nhóm biên tập BigGo

Nvidia ra mắt GPU Rubin CPX cho suy luận AI ngữ cảnh dài với hiệu suất tăng 6,5 lần

Nvidia đã giới thiệu một phương pháp đột phá trong xử lý AI với việc ra mắt GPU Rubin CPX , được thiết kế đặc biệt để xử lý giai đoạn xử lý ngữ cảnh tính toán chuyên sâu của các ứng dụng AI ngữ cảnh dài. Đây là bước đi tiên phong trong ngành hướng tới việc tách biệt khối lượng công việc suy luận AI trên phần cứng chuyên biệt, có khả năng yêu cầu hai GPU hoạt động song song để đạt được hiệu suất và lợi nhuận tối đa.

Giải quyết thách thức ngữ cảnh dài

Rubin CPX nhắm đến các ứng dụng yêu cầu hơn một triệu token đầu vào ngữ cảnh, giải quyết một nút thắt quan trọng trong xử lý AI. Các ứng dụng hiện tại gặp khó khăn với ngữ cảnh cực dài, chẳng hạn như xử lý 100.000 dòng mã hoặc phân tích video nhiều khung hình, nơi người dùng thường phải chờ 5-10 phút để token đầu tiên xuất hiện. Các ứng dụng xử lý video thậm chí còn phải đối mặt với độ trễ dài hơn từ 10-20 giây trở lên, điều này giải thích tại sao các LLM video hiện tại thường bị giới hạn ở các clip ngắn.

Thông số kỹ thuật và hiệu suất

Rubin CPX cung cấp 30 petaFLOP sức mạnh tính toán NVFP4 kết hợp với 128 GB bộ nhớ GDDR7 . Nvidia tuyên bố chip này đạt được hiệu suất tốt hơn tới 6,5 lần so với GB300 Blackwell Ultra sắp ra mắt cho các ứng dụng có độ dài ngữ cảnh lớn. Việc sử dụng GDDR7 thay vì bộ nhớ HBM đắt tiền khiến giải pháp này tiết kiệm chi phí hơn trong khi vẫn cung cấp băng thông cần thiết cho các tác vụ xử lý ngữ cảnh.

Thông số kỹ thuật Rubin CPX

Sức mạnh tính toán: 30 petaFLOPs NVFP4
Bộ nhớ: 128 GB GDDR7
Hiệu suất so với Blackwell Ultra: Nhanh hơn tới 6,5 lần cho các ứng dụng ngữ cảnh dài
Độ dài ngữ cảnh: Được tối ưu hóa cho hơn 1 triệu token

Cấu hình triển khai và khả năng mở rộng

Nvidia dự định cung cấp Rubin CPX trong hai cấu hình chính. Rack hàng đầu Vera Rubin NVL144 CPX tích hợp 144 GPU Rubin CPX , 144 GPU Rubin tiêu chuẩn và 36 CPU Vera , cung cấp tổng cộng 8 exaFLOP hiệu suất tính toán NVFP4 . Điều này thể hiện sự cải thiện 7,5 lần so với các hệ thống Blackwell Ultra . Đối với khách hàng hiện tại, Nvidia sẽ cung cấp các rack CPX riêng biệt có thể được thêm vào các cài đặt Rubin hiện tại, tăng hiệu suất từ 5 exaFLOP lên 8 exaFLOP trong khi hỗ trợ tới 150TB bộ nhớ GDDR7 nhanh.

Cấu hình Rack Vera Rubin NVL144 CPX

144 GPU Rubin CPX
144 GPU Rubin
36 CPU Vera
Tổng sức mạnh tính toán: 8 exaFLOPs NVFP4
Hỗ trợ bộ nhớ: Lên đến 150TB GDDR7
Cải thiện hiệu suất: Gấp 7.5 lần so với Blackwell Ultra

Tác động kinh tế và dự báo lợi tức đầu tư

Theo dự báo của Nvidia , khoản đầu tư 3 triệu đô la Mỹ vào hệ thống GB200 NVL72 có thể tạo ra 30 triệu đô la Mỹ doanh thu token. Công ty ước tính rằng ngay cả với cạnh tranh miễn phí, GB200 NVL72 có thể tăng lợi nhuận token gần bốn lần. Việc bổ sung công nghệ CPX dự kiến sẽ nâng cao thêm những lợi nhuận này, với Nvidia tuyên bố lợi tức đầu tư từ 30 đến 50 lần cho nền tảng mới.

Dự báo Kinh tế

Đầu tư GB200 NVL72: 3 triệu USD
Doanh thu Token dự kiến: 30 triệu USD
ROI cho Nền tảng Mới: 30x đến 50x
Tăng hiệu suất với Bộ phận GPU Thông minh: 3x với cùng chi phí/năng lượng

Ứng dụng thị trường và triển vọng tương lai

Nvidia đã xác định việc lập trình các chương trình lớn và xử lý video là những ứng dụng chính yêu cầu ngữ cảnh triệu token. Công ty ước tính rằng khoảng 20% các ứng dụng AI hiện tại gặp phải độ trễ đáng kể khi chờ đợi việc tạo token đầu tiên. Rubin CPX dự kiến sẽ có mặt trong vòng một năm tới, với lộ trình cập nhật mở rộng đến kiến trúc Feynman vào năm 2028. Động thái chiến lược này định vị Nvidia duy trì lợi thế cạnh tranh trên thị trường phần cứng AI trong khi có khả năng buộc các đối thủ như Google và AMD phải phát triển các giải pháp chuyên biệt tương tự.

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌