GPU Nvidia dễ bị tấn công bởi cuộc tấn công GPUHammer mới có thể phá hủy độ chính xác của mô hình AI

Nhóm biên tập BigGo
GPU Nvidia dễ bị tấn công bởi cuộc tấn công GPUHammer mới có thể phá hủy độ chính xác của mô hình AI

Một kỹ thuật tấn công mạng mới được phát hiện có tên GPUHammer đã phơi bày những lỗ hổng nghiêm trọng trong card đồ họa Nvidia , đặc biệt là những card được trang bị bộ nhớ GDDR6 . Cuộc tấn công tinh vi này có thể âm thầm làm hỏng các mô hình trí tuệ nhân tạo mà không cần chạm vào mã nguồn hay dữ liệu đầu vào, gây ra những lo ngại nghiêm trọng cho khối lượng công việc AI và môi trường điện toán chia sẻ.

Hiểu về mối đe dọa GPUHammer

GPUHammer đại diện cho sự tiến hóa tập trung vào GPU của cuộc tấn công Rowhammer nổi tiếng, khai thác các lỗ hổng trong bộ nhớ truy cập ngẫu nhiên động (DRAM) bằng cách liên tục truy cập các hàng bộ nhớ để gây ra hiện tượng lật bit ở các khu vực liền kề. Các nhà nghiên cứu bảo mật từ Đại học Toronto đã chứng minh tiềm năng tàn phá của cuộc tấn công này bằng cách thử nghiệm trên Nvidia RTX A6000 với bộ nhớ GDDR6 48GB . Cuộc tấn công đã thành công gây ra nhiều lần lật bit trên bốn ngân hàng DRAM , với số lần kích hoạt tối thiểu khoảng 12.000 lần thử để tạo ra một lần lật.

Tác động hiệu suất của cuộc tấn công GPUHammer

Chỉ số Trước khi tấn công Sau khi tấn công
Độ chính xác mô hình AI 80% 0.1%
Số bit flip cần thiết 1 Một bit flip duy nhất
Số lần kích hoạt tối thiểu ~12,000 Phù hợp với kết quả trên DDR4

Tác động tàn phá đến hiệu suất mô hình AI

Khía cạnh đáng báo động nhất của GPUHammer nằm ở khả năng làm tê liệt các mô hình học máy thông qua sự can thiệp tối thiểu. Các nhà nghiên cứu đã chứng minh cách lật chỉ một bit duy nhất trong bộ nhớ có thể làm giảm thảm khốc độ chính xác của mô hình AI từ 80% xuống chỉ còn 0,1%. Sự suy giảm hiệu suất đáng kể này xảy ra vì cuộc tấn công nhắm vào các trọng số mạng nơ-ron được lưu trữ trong bộ nhớ GPU , thay đổi cơ bản cách hệ thống AI xử lý thông tin và đưa ra quyết định.

Phần cứng bị ảnh hưởng và phạm vi

Lỗ hổng mở rộng trên nhiều thế hệ GPU Nvidia , bao gồm các kiến trúc Blackwell , Volta , Turing , Ampere , Ada và Hopper . Trong khi RTX A6000 đóng vai trò là nền tảng thử nghiệm chính, rủi ro bao gồm một loạt rộng các card đồ họa cấp máy trạm và máy chủ sử dụng bộ nhớ GDDR6 . Tuy nhiên, các mô hình GPU mới hơn như RTX 5090 và H100 tích hợp bảo vệ Error Correction Code (ECC) trực tiếp trên chip, cung cấp khả năng phòng thủ tự động chống lại các cuộc tấn công như vậy.

Các kiến trúc GPU Nvidia bị ảnh hưởng

  • Blackwell
  • Volta
  • Turing
  • Ampere
  • Ada
  • Hopper

Lưu ý: Các GPU mới hơn như RTX 5090 và H100 có tích hợp bảo vệ ECC

Môi trường rủi ro chính

Cuộc tấn công này gây ra mối đe dọa lớn nhất trong môi trường GPU chia sẻ hơn là các thiết lập tiêu dùng cá nhân. Máy chủ chơi game đám mây, cụm đào tạo AI , cơ sở hạ tầng máy tính để bàn ảo (VDI) và môi trường điện toán đa thuê bao nơi nhiều người dùng chia sẻ cùng một phần cứng đại diện cho các tình huống dễ bị tổn thương nhất. Trong những bối cảnh này, các tác nhân độc hại có thể can thiệp vào khối lượng công việc của người dùng khác mà không cần truy cập trực tiếp vào dữ liệu hoặc ứng dụng của họ.

Phản ứng giảm thiểu của Nvidia

Nvidia đã phản ứng kịp thời bằng cách khuyến nghị người dùng kích hoạt giảm thiểu System Level Error-Correcting Code cho các GPU bị ảnh hưởng. Cơ chế bảo vệ này thêm các bit dư thừa vào các hoạt động bộ nhớ và tự động sửa lỗi một bit, duy trì độ tin cậy và chính xác của dữ liệu. Người dùng có thể kích hoạt bảo vệ ECC thông qua công cụ dòng lệnh của Nvidia bằng lệnh nvidia-smi -e 1 và xác minh trạng thái kích hoạt với nvidia-smi -q | grep ECC .

Đánh đổi khi sử dụng bảo vệ ECC

  • Tác động đến hiệu suất: Hiệu suất ML chậm hơn khoảng 10%
  • Tác động đến bộ nhớ: Giảm 6-6.5% VRAM khả dụng
  • Lệnh kích hoạt: nvidia-smi -e 1
  • Kiểm tra trạng thái: nvidia-smi -q | grep ECC

Đánh đổi hiệu suất và cân nhắc

Việc triển khai bảo vệ ECC đi kèm với chi phí hiệu suất có thể đo lường được. Người dùng có thể mong đợi hiệu suất chậm hơn khoảng 10% cho các tác vụ học máy và giảm 6-6,5% dung lượng VRAM có thể sử dụng. Tuy nhiên, đối với các ứng dụng AI quan trọng nơi tính toàn vẹn dữ liệu là tối quan trọng, những đánh đổi này đại diện cho một sự thỏa hiệp hợp lý để tăng cường bảo mật.

Tác động ngành và mối lo ngại tương lai

GPUHammer làm nổi bật sự thay đổi rộng lớn hơn trong các mối đe dọa an ninh mạng khi GPU ngày càng trở thành trung tâm của AI , công việc sáng tạo và các ứng dụng năng suất. Khả năng hoạt động ở cấp độ phần cứng của cuộc tấn công khiến việc phát hiện trở nên cực kỳ khó khăn, vì các thay đổi xảy ra một cách vô hình mà không có các biện pháp bảo mật dựa trên phần mềm truyền thống phát hiện được sự can thiệp. Đối với các ngành được quy định bao gồm chăm sóc sức khỏe, tài chính và lái xe tự động, sự hỏng hóc âm thầm như vậy có thể dẫn đến quyết định sai, thất bại bảo mật và hậu quả pháp lý nghiêm trọng.