Atacul „GPUHammer” reduce precizia AI de la 80% la 0,1% pe RTX A6000
Un grup de cercetători de la Universitatea din Toronto a descoperit un nou atac numit GPUHammer, care poate inversa biții din memoria GPU-urilor NVIDIA, corupând în mod silențios modelele AI și provocând daune grave, fără a atinge vreodată codul propriu-zis sau datele introduse, potrivit BleepingComputer.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
Din fericire, Nvidia este deja cu un pas înaintea hackerilor și a publicat un set de îndrumări privind modul de atenuare a riscurilor implicate în această situație. Indiferent de situație, dacă utilizați o placă cu memorie GDDR6, merită să acordați atenție acestui aspect.
Echipa care a făcut această descoperire, a arătat cum atacul poate reduce precizia unui model AI de la 80% la sub 1% – doar prin inversarea unui singur bit din memorie. Nu este doar teoretic, deoarece l-au testat pe un NVIDIA RTX A6000 real, folosind o tehnică care influențează celulele de memorie până când una din apropiere se inversează, afectând datele stocate.
NVIDIA avertizează utilizatorii să activeze ECC la nivel de sistem (System Level Error-Correcting Code) pentru a se proteja împotriva atacurilor Rowhammer asupra procesoarelor grafice cu memorie GDDR6.
Compania a oferit recomandarea la aflarea rezultatelor cercetării publicate de Universitatea din Toronto, care demonstrează practicitatea atacurilor Rowhammer împotriva unui GPU (unitate de procesare grafică) NVIDIA A6000.
„Am rulat GPUHammer pe un NVIDIA RTX A6000 (48 GB GDDR6) pe module DRAM și am observat 8 inversări distincte de un singur bit și inversări de biți pe toate bancurile de memorie testate”, descriu cercetătorii.
„Folosind aceste inversări, am efectuat primul atac de degradare a preciziei ML(machine learning) folosind Rowhammer pe un GPU.”
Rowhammer este o eroare hardware care poate fi declanșată prin procese software și provine din celulele de memorie care sunt prea apropiate unele de altele. Atacul a fost demonstrat pe celulele DRAM, dar poate afecta și memoria GPU.
Ce este GPUHammer
GPUHammer este o versiune axată pe GPU a unei probleme hardware cunoscute, veche de aproape 10 ani, numită Rowhammer.
Aceasta există din 2018 în lumea procesoarelor și a memoriei RAM. Practic, cipurile de memorie moderne sunt atât de dens împachetate încât citirea sau scrierea repetată a unui rând poate provoca interferențe electrice care inversează biții din rândurile din apropiere. Bitul inversat poate fi orice: un număr, o comandă sau un parametru al unei rețele neuronale, și aici apar problemele.
Până acum, aceasta era o problemă care afecta în principal memoria de sistem DDR4, dar GPUHammer demonstrează că poate apărea și pe VRAM GDDR6, care alimentează multe plăci NVIDIA moderne, în special în domeniul AI și al stațiilor de lucru.
Efectul poate fi o condiție de atac tip DDOS, coruperea datelor sau chiar escaladarea privilegiilor.
Acesta este un motiv serios de îngrijorare, cel puțin în situații specifice. Cercetătorii au demonstrat că, chiar și cu unele măsuri de protecție în vigoare, acestea pot provoca inversări multiple de biți în mai multe bancuri de memorie. Într-un caz, acest lucru a distrus complet un model AI antrenat, făcându-l practic inutil.
Codurile de corectare a erorilor la nivel de sistem (System Level ECC) pot păstra integritatea datelor prin adăugarea de biți redundanți și corectarea erorilor de un singur bit pentru a menține fiabilitatea și acuratețea datelor.
În GPU-urile pentru stații de lucru și centre de date, unde VRAM gestionează seturi mari de date și calcule precise legate de sarcinile de lucru AI, ECC trebuie să fie activat pentru a preveni erori cruciale în funcționarea acestora.
Notificarea de securitate a NVIDIA menționează că cercetătorii de la Universitatea din Toronto au demonstrat „un potențial atac Rowhammer împotriva unui GPU NVIDIA A6000 cu memorie GDDR6” în care ECC la nivel de sistem nu era activat.
Deși hammering-ul (tehnica de atac care implică accesarea repetată continuă) este mai dificil pe GDDR6 din cauza latenței mai mari și a reîmprospătării mai rapide în comparație cu DDR4 bazat pe CPU, cercetătorii au reușit să demonstreze că atacurile Rowhammer asupra băncilor de memorie GPU sunt posibile.
Modele de GPU pentru care se recomandă activarea ECC
În afară de RTX A6000, producătorul GPU recomandă, de asemenea, activarea ECC la nivel de sistem pentru următoarele produse:
GPU-uri pentru centre de date:
- Ampere: A100, A40, A30, A16, A10, A2, A800
- Ada: L40S, L40, L4
- Hopper: H100, H200, GH200, H20, H800
- Blackwell: GB200, B200, B100
- Turing: T1000, T600, T400, T4
- Volta: Tesla V100, Tesla V100S
GPU-uri pentru stații de lucru:
- Ampere RTX: A6000, A5000, A4500, A4000, A2000, A1000, A400
- Ada RTX: 6000, 5000, 4500, 4000, 4000 SFF, 2000
- Blackwell RTX PRO (cea mai nouă linie de stații de lucru)
- Turing RTX: 8000, 6000, 5000, 4000
- Volta: Quadro GV100
Încorporate / industriale:
- Jetson AGX Orin Industrial
- IGX Orin
Producătorul GPU menționează că GPU-urile mai noi, precum Blackwell RTX 50 Series (GeForce), Blackwell Data Center GB200, B200, B100 și Hopper Data Center H100, H200, H20 și GH200, sunt dotate cu protecție ECC integrată pe cip, care nu necesită intervenția utilizatorului.
O modalitate de a verifica dacă ECC la nivel de sistem este activat este utilizarea unei metode out-of-band care utilizează BMC (Baseboard Management Controller) al sistemului și software-ul de interfață hardware, precum API-ul Redfish, pentru a verifica starea „ECCModeEnabled”.
Instrumente precum NSM Type 3 și NVIDIA SMBPBI pot fi, de asemenea, utilizate pentru configurare, deși necesită acces la portalul NVIDIA Partner Portal.
Există și o a doua metodă în bandă, care utilizează utilitarul de linie de comandă nvidia-smi din CPU-ul sistemului pentru a verifica și activa ECC acolo unde este acceptat.
Activarea ECC are un dezavantaj
Sailshwar estimează că aceste recomandări determină o încetinire de până la 10% a inferenței ML și o pierdere de capacitate de memorie de 6,5% pentru toate sarcinile de lucru.
Rowhammer reprezintă o problemă reală de securitate care ar putea cauza coruperea datelor sau permite atacuri în medii multi-tenant, cum ar fi serverele cloud, unde sunt utilizate GPU-uri vulnerabile.
Cu toate acestea, riscul real depinde de context, iar exploatarea Rowhammer în mod fiabil este complicată, necesitând condiții specifice, rate de acces ridicate și un control precis, ceea ce face ca acest atac să fie dificil de executat.