GPUHammer – lỗ hổng mới trên GPU Nvidia gây lỗi bit VRAM, phá hoại mô hình AI
Lỗ hổng Rowhammer giờ đánh vào VRAM GDDR6 của GPU Nvidia, khiến mô hình AI mất 99 % hiệu năng – cần bật ECC và nâng cấp phần cứng chuyên dụng.
Các nhà nghiên cứu từ Đại học Toronto đã phát triển GPUHammer — một biến thể mới của tấn công Rowhammer nhắm đến bộ nhớ VRAM GDDR6 trên GPU Nvidia như RTX A6000. Bằng cách “đập” nhanh vào các hàng bộ nhớ, tấn công này có thể làm thay đổi bit từ xa trên nhiều ngân hàng VRAM, dù đã có cơ chế TRR (refresh ngăn chặn bit-flip) – trước đó vốn chỉ áp dụng cho CPU RAM.
Trận tấn công thành công trên A6000 cho thấy trong 4 ngân hàng GDDR6 có tới 8 bit bị lật, chỉ với vài nghìn lần truy cập nhanh, đủ để ảnh hưởng nghiêm trọng đến các mô hình học máy chạy trên GPU này.
Hậu quả đáng lo ngại
-
Mô hình AI như nhận diện ảnh giảm accuracy từ 80 % xuống chỉ còn 0,1 % chỉ vì một số bit bị lỗi — biểu hiện cho việc thuật toán “ngừng học” ngay lập tức.
-
GPUHammer có thể được triển khai trong môi trường chia sẻ GPU như trong cluster AI hoặc cloud, kẻ tấn công chỉ cần truy cập chung thiết bị để gây nhiễu mà không cần có mã hoặc dữ liệu của bạn.
-
Lỗ hổng ảnh hưởng rộng đến nhiều dòng GPU: Ampere, Ada, Hopper, Turing… đặc biệt trong môi trường doanh nghiệp hoặc trung tâm dữ liệu.
5 giải pháp bảo vệ cấp bách
-
Bật ECC (Error Correction Code)
Đây là biện pháp đơn giản và hiệu quả để sửa bit-flip tự động. ECC trên GDDR6 có thể làm hệ thống chậm ~10 % nhưng rất quan trọng cho môi trường AI quan trọng. -
Chọn phần cứng có ECC hỗ trợ tích hợp
Các dòng GPU mới như RTX 5090, H100, hoặc A6000 khi bật ECC bảo vệ bộ nhớ VRAM mức cao mà không cần cấu hình đặc biệt. -
Giám sát độ ổn định mô hình AI liên tục
Thiết lập kiểm tra chất lượng đầu ra mô hình (như accuracy drop kiểm tra định kỳ) để phát hiện sớm dấu hiệu bit-flip do Rowhammer. -
Phân tách môi trường GPU chia sẻ
Tránh để người dùng không xác thực truy cập chung GPU; trong môi trường cloud, hãy dùng container hoặc VM chuyên biệt để hạn chế xung đột bộ nhớ. -
Theo dõi cập nhật từ Nvidia hoặc nhà sản xuất phần cứng
Nvidia đã khuyến nghị bật ECC đầy đủ; tổ chức cần cập nhật driver, firmware và chính sách phần cứng theo hướng dẫn mới để đảm bảo an toàn.
GPUHammer đánh dấu bước tiến mới trong tấn công phần cứng: thay vì chỉ nhắm vào CPU, hacker giờ đã tận dụng được VRAM để thâm nhập và phá hoại AI. Việc bật ECC, sử dụng phần cứng mạnh, giám sát và thiết lập quy trình cho môi trường GPU chia sẻ là cách thiết yếu để bảo vệ việc huấn luyện và khai thác mô hình trí tuệ nhân tạo khỏi rủi ro bí mật này.
Hương - Theo TheHackerNews