Các nhà nghiên cứu đã thành công chứng minh cuộc tấn công Rowhammer đầu tiên nhắm vào bộ nhớ GPU, đặc biệt ảnh hưởng đến card đồ họa RTX A6000 của NVIDIA. Cuộc tấn công đột phá này, được gọi là GPUHammer, đại diện cho sự mở rộng đáng kể của các lỗ hổng bảo mật dựa trên bộ nhớ từ hệ thống CPU truyền thống sang phần cứng GPU hiện đại được sử dụng rộng rãi trong các khối lượng công việc AI và machine learning.
Nhóm nghiên cứu đã thành công tạo ra các bit lỗi trên tất cả các ngân hàng DRAM được kiểm tra trong bộ nhớ GDDR6 của A6000, bất chấp các biện pháp bảo mật tích hợp như Target Row Refresh (TRR). Cuộc thử nghiệm ấn tượng nhất của họ cho thấy cách một bit bị hỏng có thể tàn phá các mô hình machine learning, giảm độ chính xác từ 80% xuống chỉ còn 0.1% trên năm mạng neural ImageNet khác nhau.
Hiệu suất tấn công:
- Số lần kích hoạt tối thiểu (TRH): ~12K lần kích hoạt
- Bit flips quan sát được: 8 lần lật bit đơn khác biệt
- Suy giảm độ chính xác mô hình ML: Từ 80% xuống 0.1% với một lần lật bit đơn
- Các mô hình bị ảnh hưởng: 5 mô hình DNN ImageNet khác nhau được thử nghiệm
![]() |
---|
Tổng quan về nghiên cứu GPUHammer , làm nổi bật những tác động của các cuộc tấn công Rowhammer đối với bộ nhớ GPU |
Thách Thức Kỹ Thuật và Sự Quan Tâm Của Cộng Đồng
Môi trường GPU đặt ra những trở ngại độc đáo so với các cuộc tấn công Rowhammer dựa trên CPU truyền thống. Bộ nhớ GDDR6 hoạt động với độ trễ cao hơn và tốc độ làm mới nhanh hơn so với DDR4, khiến việc đồng bộ hóa chính xác cần thiết cho các cuộc tấn công thành công trở nên khó khăn hơn. Ngoài ra, GPU NVIDIA không tiết lộ địa chỉ bộ nhớ vật lý cho mã cấp người dùng, buộc các nhà nghiên cứu phải reverse-engineer ánh xạ bộ nhớ thông qua phân tích thời gian.
Thành tựu kỹ thuật này đã khơi dậy các cuộc thảo luận triết học trong cộng đồng bảo mật về bản chất của các lỗ hổng phần cứng. Một số người quan sát thấy những cuộc tấn công này đặc biệt hấp dẫn vì chúng khai thác vật lý cơ bản làm nền tảng cho hệ thống máy tính thay vì lỗi phần mềm hoặc thiếu sót thiết kế.
Bạn thoát khỏi một vũ trụ ảo khép kín không phải bằng cách 'đột phá' theo nghĩa truyền thống, khai thác một số lỗi trong ranh giới của hypervisor VM, mà bằng cách trực tiếp thao túng vật lý cơ bản của vũ trụ mà vũ trụ ảo được xây dựng trên đó, chỉ bằng cách tạo ra một mẫu bên trong chính vũ trụ ảo đó.
Phần cứng bị ảnh hưởng:
- NVIDIA RTX A6000 (48 GB GDDR6) - Dễ bị tấn công
- NVIDIA RTX 3080 - Không bị ảnh hưởng trong quá trình thử nghiệm
- NVIDIA A100 (bộ nhớ HBM) - Không bị ảnh hưởng
- NVIDIA H100 (HBM3) - Được bảo vệ bởi ECC tích hợp trên chip
- RTX 5090 (GDDR7) - Được bảo vệ bởi ECC tích hợp trên chip
![]() |
---|
Minh họa về xử lý song song trong điện toán GPU liên quan đến phương pháp tấn công GPUHammer |
Tác Động Thực Tế và Mối Quan Ngại Về Giảm Thiểu
Những tác động thực tế của GPUHammer vẫn còn hạn chế do các mô hình triển khai GPU hiện tại. Các nhà cung cấp đám mây lớn như AWS, Google Cloud và Microsoft Azure thường phân bổ toàn bộ GPU cho từng tenant riêng lẻ thay vì chia sẻ chúng giữa nhiều người dùng. Sự cô lập này làm giảm đáng kể bề mặt tấn công, vì mã độc hại sẽ cần chạy cùng với khối lượng công việc của nạn nhân trên cùng một phần cứng vật lý.
Tuy nhiên, nghiên cứu này làm nổi bật mối quan ngại ngày càng tăng về bảo mật GPU khi các bộ xử lý này ngày càng trở thành trung tâm của cơ sở hạ tầng AI. Cuộc tấn công hoạt động thông qua mã CUDA tiêu chuẩn mà bất kỳ người dùng GPU nào cũng có thể thực thi, khiến nó có thể tiếp cận được với những kẻ tấn công có quyền truy cập GPU hợp pháp.
NVIDIA đã thừa nhận lỗ hổng này và khuyến nghị kích hoạt Error Correction Codes (ECC) như một chiến lược giảm thiểu. Mặc dù ECC có thể ngăn chặn các bit lỗi đơn như những gì được chứng minh trong nghiên cứu, nhưng nó đi kèm với chi phí hiệu suất lên đến 10% và giảm dung lượng bộ nhớ khả dụng 6.25% trên các hệ thống bị ảnh hưởng.
Chi phí giảm thiểu ECC:
- Tác động hiệu suất: Chậm lại tới 10% đối với suy luận ML
- Giảm dung lượng bộ nhớ: 6.25% trên A6000
- Lệnh kích hoạt:
nvidia-smi -e 1
(yêu cầu khởi động lại)
![]() |
---|
Các chỉ số hiệu suất minh họa tác động của Mã Sửa Lỗi ( ECC ) trong việc ngăn chặn các cuộc tấn công Rowhammer trên bộ nhớ GPU |
Tiến Hóa Phần Cứng và Triển Vọng Tương Lai
Lỗ hổng này dường như chỉ giới hạn ở các cấu hình phần cứng cụ thể. Kiểm tra cho thấy chỉ có NVIDIA A6000 với bộ nhớ GDDR6 cho thấy tính nhạy cảm với cuộc tấn công, trong khi các GPU khác bao gồm RTX 3080 và A100 với bộ nhớ HBM vẫn không bị ảnh hưởng. Sự khác biệt này có thể xuất phát từ sự khác nhau về nhà cung cấp bộ nhớ, đặc điểm chip và điều kiện hoạt động.
Các thế hệ GPU mới hơn có thể cung cấp bảo vệ tốt hơn. H100 và RTX 5090 sắp tới có tính năng ECC trên chip sẽ che giấu các bit lỗi đơn, mặc dù các nhà nghiên cứu lưu ý rằng các biến thể tấn công multi-bit trong tương lai có thể vượt qua các biện pháp bảo vệ như vậy.
Nghiên cứu này nhấn mạnh những căng thẳng đang diễn ra trong thiết kế phần cứng giữa tối ưu hóa hiệu suất và tính mạnh mẽ của bảo mật. Các nhà sản xuất bộ nhớ từ lâu đã biết về các vấn đề nhạy cảm mẫu cho phép các cuộc tấn công Rowhammer, nhưng áp lực thị trường trong lịch sử đã ưu tiên bộ nhớ nhanh hơn, dày đặc hơn thay vì các lựa chọn thay thế an toàn hơn. Như một thành viên cộng đồng đã lưu ý, ngành công nghiệp phải đối mặt với một vấn đề kinh tế ngoại tác cổ điển khi các nhà sản xuất không phải chịu trách nhiệm pháp lý về sự bất cẩn trong bảo mật, dẫn đến việc triển khai rộng rãi phần cứng dễ bị tổn thương.
Nghiên cứu GPUHammer vừa là một thành tựu kỹ thuật vừa là một cảnh báo về việc mở rộng bề mặt tấn công khi GPU trở nên trung tâm hơn trong cơ sở hạ tầng máy tính. Mặc dù rủi ro thực tế ngay lập tức có vẻ hạn chế, công trình này chứng minh rằng không có nền tảng máy tính nào vẫn miễn nhiễm với các kỹ thuật khai thác sáng tạo ở cấp độ phần cứng.
Tham khảo: GPUHammer: Rowhammer Attacks on GPU Memories are Practical