VaultGemma este noul model al familiei Gemma de la Google, cu 1 miliard de parametri și confidențialitate diferențială, o metodă de antrenare concepută pentru a oferi confidențialitate garantată matematic, cu utilitate practică pentru aplicațiile din lumea reală. Modelul LLM este antrenat de la zero cu metoda DP-SGD de confidențialitate diferențială, oferă o fereastră de context context de 1.024 de tokenuri și ponderi deschise, potrivit ArsTechnica.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
VaultGemma oferă un punct de pornire cercetătorilor din domeniul inteligenței artificiale care doresc sa construiască LLM-urile care pun confidențialitatea pe primul loc.
Companiile care doresc să construiască modele LLM se lovesc de problema lipsei datelor de antrenament de înaltă calitate. Pe măsură ce firmele de tehnologie caută pe web mai multe date pentru a-și alimenta modelele, acestea ar putea să se bazeze din ce în ce mai mult pe date potențial sensibile ale utilizatorilor. Pornind de la aceste nevoi o echipă de la Google Research a explorat noi tehnici pentru a face ca modelele lingvistice mari (LLM) rezultate să fie mai puțin susceptibile de a „memora” orice conținut.
Majoritatea LLM-urilor pot memora și reproduce în mod involuntar fragmente din datele de antrenament, creând un risc serios pentru confidențialitate pentru companii și entități care lucrează cu date sensibile din punct de vedere al confidențialității. VaultGemma abordează această problemă prin integrarea confidențialității în antrenamentul prealabil, în loc să încerce să o adapteze ulterior.
Ce este confidențialitatea diferențială
Confidențialitatea diferențială este modalitatea de antrenare a modelelor AI prin adăugare de „zgomot” sau elemente aleatorii atunci când AI învață. Prin acest proces Vault-Gemma poate auzi mesajul general, dar nu cuvintele exacte. Acest lucru asigură că modelul nu memorează informații private, cum ar fi numere de telefon, e-mailuri sau detalii personale specifice. Poate înțelege în continuare ideile și modelele generale pentru a ajuta la răspunsul la întrebări sau la rezumarea textului în siguranță.
Nevoia de confidențialitate în LLM-uri
LLM-urile oferă rezultate non-deterministice, ceea ce înseamnă că nu puteți prezice exact ce vor spune. Deși rezultatul variază chiar și pentru intrări identice, modelele regurgitează uneori fragmente din datele lor de antrenament, astfel dacă sunt antrenate cu date personale, rezultatul ar putea constitui o încălcare a confidențialității utilizatorilor.
Majoritatea modelelor de inteligență artificială – IA nu au protecții puternice de confidențialitate, ceea ce înseamnă că există riscul ca datele personale să fie divulgate accidental. Modelele LLM antrenate pe seturi de date vaste la scară web sunt predispuse la atacuri de memorare, în care informații sensibile sau de identificare personală pot fi extrase din model. Studiile au arătat că datele de antrenament verbale pot reapărea, în special în versiunile cu ponderi deschise.
Pentru a contracara această problemă echipa Google a creat noi reguli și tehnici pentru a antrena Gemma în mod eficient, fără a-i pierde capacitatea de a înțelege bine limbajul.
Confidențialitatea diferențială poate preveni o astfel de memorare prin introducerea de zgomot calibrat în timpul fazei de antrenament.
Această metodă oferă o garanție matematică care împiedică orice exemplu de antrenament să influențeze în mod semnificativ modelul. Spre deosebire de abordările care aplică DP numai în timpul reglării fine, post antrenare, VaultGemma impune un antrenament preliminar complet confidențial, asigurându-se că protecția acesteia începe la nivel fundamental.
Adăugarea confidențialității diferențiale la un model LLM are dezavantaje în ceea ce privește precizia și cerințele de calcul.
Prin efectuarea de experimente cu dimensiuni variabile ale modelului și rapoarte zgomot-date de antrenament, echipa a stabilit un echilibru între bugetul de calcul, confidențialitate și bugetul de date. Pe scurt, un zgomot mai mare duce la rezultate de calitate inferioară, cu excepția cazului în care este compensat cu un buget de calcul (FLOP) sau un buget de date (tokenuri) mai mare.
Construirea VaultGemma
Această lucrare privind confidențialitatea diferențială a dus la crearea acestui nou model Google cu ponderi deschise, numit VaultGemma. Deocamdată, însă, acest prim model al companiei este un experiment.
VaultGemma se bazează pe modelul fundamental Gemma 2, care este cu o generație în urma celei mai recente familii de modele deschise, open source de la Google. Acest model nu este deosebit de mare în ansamblu, având doar 1 miliard de parametri. Cu toate acestea, Google Research afirmă că VaultGemma are performanțe similare cu modelele open source cu ponderi deschise de dimensiuni similare și este cel mai bun în ceea ce privește echilibrul între utilitate și confidențialitate la această dimensiune.
Echipa speră că această experiment va ajuta și pe alții să aloce în mod eficient resurse pentru antrenarea modelelor private de IA. Probabil că acest lucru nu va schimba modul în care funcționează cele mai mari și mai performante modele de IA, performanța este totul în modelele AI generale de dimensiuni mari. Și, indiferent de asta, cercetarea sugerează că confidențialitatea diferențială funcționează mai bine cu LLM-uri mai mici, cum ar fi modelele special concepute care alimentează anumite funcții de IA.
Puteți descărca VaultGemma acum de pe Hugging Face și Kaggle. La fel ca alte modele Gemma, acesta are ponderi deschise, dar nu este chiar open source. Deși Google vă permite să modificați și să distribuiți modelele Gemma, trebuie să acceptați să nu le utilizați în scopuri dăunătoare și să distribuiți o copie a licenței Gemma împreună cu toate versiunile modificate.