Unit 42 de la Palo Alto Networks dezvăluie primele 10 riscuri de securitate pentru agenții AI
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
Aplicațiilede inteligență artificială agentice sunt programe care utilizează agenții AI – software conceput pentru a colecta autonom date și a întreprinde acțiuni către obiective specifice – pentru a-și gestiona funcționalitatea. Pe măsură ce agenții AI sunt adoptați pe scară largă în aplicațiile din lumea reală, înțelegerea implicațiilor lor de securitate este esențială.
Pe măsură ce agenții AI trec de la sisteme experimentale la aplicații la scară de producție, autonomia lor tot mai mare introduce noi provocări de securitate. Într-un raport cuprinzător, „Agenții AI sunt aici. La fel și amenințările”, Unit 42 a Palo Alto Networks dezvăluie modul în care arhitecturile agentice de astăzi – în ciuda inovației lor – sunt vulnerabile la o gamă largă de atacuri, majoritatea acestora nefiind generate de arhitecturile în sine, ci de modul în care agenții sunt proiectați, implementați și conectați la instrumente externe.
Pentru a evalua amploarea acestor riscuri, cercetătorii Unității 42 au construit doi agenți AI identici din punct de vedere funcțional – unul construit folosind CrewAI și celălalt cu AutoGen. În ciuda diferențelor arhitecturale, ambele sisteme au prezentat aceleași vulnerabilități, confirmând că problemele de bază nu sunt specifice framework-ului. În schimb, amenințările apar din configurații greșite, design nesigur al prompturilor și integrări insuficient consolidate ale instrumentelor – probleme care transcend opțiunile de implementare.
Amenințările legate de utilizarea Agenților AI
Raportul prezintă zece amenințări principale care expun agenții AI la scurgeri de date, exploatare a instrumentelor, execuție de cod la distanță și multe altele:
- Injecția de prompturi și prompturi prea largi
Injecția de prompturi rămâne un vector puternic, permițând atacatorilor să manipuleze comportamentul agenților, să ignore instrucțiunile și să utilizeze greșit instrumentele integrate. Chiar și fără o sintaxă clasică de injecție, prompturile definite vag sunt predispuse la exploatare.
- Riscuri agnostice față de framework
Majoritatea vulnerabilităților nu provin din framework-uri (de exemplu, CrewAI sau AutoGen), ci din designul la nivelul aplicației: delegarea nesigură a rolurilor, politicile necorespunzătoare de acces la instrumente și definirea ambiguă a domeniului prompturilor.
- Integrări nesigure ale instrumentelor
Multe aplicații agentice integrează instrumente (de exemplu, module de execuție de cod, clienți SQL, scrapere web) cu un control minim al accesului. Aceste integrări, atunci când nu sunt igienizate corespunzător, extind dramatic suprafața de atac a agentului.
- Expunerea acreditărilor
Agenții pot expune în mod accidental acreditările de serviciu, token-urile sau cheile API, permițând atacatorilor să escaladeze privilegiile sau să imite agenți AI în medii diferite.
- Executare de cod nerestricționată
Interpretorii de cod din cadrul agenților, dacă nu sunt protejați prin sandbox, permit executarea unor sarcini utile arbitrare. Atacatorii le pot utiliza pentru a accesa sisteme de fișiere, rețele sau servicii de metadate, ocolind frecvent nivelurile de securitate tradiționale.
- Lipsa apărării stratificate
Atenuările punctuale unice sunt insuficiente. O postură de securitate robustă necesită strategii de apărare în profunzime care combină consolidarea prompturilor, monitorizarea în timpul execuției, validarea intrărilor și izolarea la nivel de container.
- Consolidarea prompturilor
Agenții trebuie configurați cu definiții stricte ale rolurilor, respingând solicitările care se încadrează în afara domeniilor de aplicare predefinite. Acest lucru reduce probabilitatea manipulării cu succes a obiectivelor sau a dezvăluirii instrucțiunilor.
- Filtrarea conținutului în timpul execuției
Inspecția în timp real a intrărilor și ieșirilor, cum ar fi filtrarea solicitărilor pentru modele de atac cunoscute, este esențială pentru detectarea și atenuarea amenințărilor dinamice pe măsură ce acestea apar.
- Sanitizarea informațiilor de la instrumente
Validarea structurată a intrărilor – verificarea formatelor, impunerea tipurilor și limitarea valorilor – este esențială pentru a preveni injecțiile SQL, sarcinile utile malformate sau utilizarea necorespunzătoare între agenți.
- Sandboxing pentru executorul de cod
Mediile de execuție trebuie să restricționeze accesul la rețea, să elimine capabilitățile inutile ale sistemului și să izoleze stocarea temporară pentru a reduce impactul potențialelor încălcări.
Studiul a simulat scenarii de atac cu implicații practice
Pentru a ilustra aceste riscuri, Unit 42 a implementat un asistent de investiții multi-agent și a simulat nouă scenarii de atac. Acestea au inclus:
Extragerea instrucțiunilor agentului și a schemelor instrumentelor
Prin valorificarea ingineriei prompturilor, atacatorii puteau enumera toți agenții interni, puteau recupera definițiile sarcinilor acestora și puteau înțelege API-urile instrumentelor – facilitând atacurile din aval.
Furtul de credențiale prin intermediul serviciilor de metadate
Folosind scripturi Python rău intenționate injectate în interpreții de cod, atacatorii au accesat puncte finale de metadate GCP și au exfiltrat token-uri de cont de serviciu.
Injecție SQL și exploatări BOLA
Agenții care se bazau pe intrări nevalidate pentru interogările bazei de date erau susceptibili atât la injecție SQL, cât și la autorizarea la nivel de obiect defectă (BOLA- broken object-level authorization), permițând atacatorilor să citească date arbitrare ale utilizatorilor.
Injectarea indirectă de prompturi
Site-urile web rău intenționate au încorporat instrucțiuni care au determinat agenții să trimită istoricul conversațiilor utilizatorilor către domenii controlate de atacatori, evidențiind riscurile legate de instrumentele de navigare sau citire autonomă.
Fiecare dintre aceste scenarii a exploatat omisiuni comune de proiectare, nu vulnerabilități zero-day-uri. Acest lucru subliniază nevoia urgentă de modelare standardizată a amenințărilor și practici sigure de dezvoltare a agenților.
Strategii de apărare recomandate
Raportul subliniază faptul că atenuarea acestor amenințări necesită controale holistice:
- Întărirea, consolidarea prompturilor ar trebui să limiteze scurgerile de instrucțiuni, să restricționeze accesul la instrumente și să impună limitele sarcinilor.
- Filtrarea conținutului trebuie aplicată atât înainte, cât și după inferență, detectând modele anormale în interacțiunile agenților.
- Integrările instrumentelor ar trebui testate riguros folosind analize statice, dinamice și de dependențe.
- Mediile de execuție a codului trebuie să utilizeze sandboxing strict, inclusiv filtrarea ieșirilor din rețea, restricții syscall și limitarea memoriei.
Palo Alto Networks recomandă abordări de apărare stratificate. Aceste soluții oferă vizibilitate asupra comportamentelor agenților, monitorizează utilizarea necorespunzătoare a instrumentelor AI generative terțe și impun politici la nivel de companie privind interacțiunile agenților.
Securitatea agenților AI nu trebuie lăsată pe planul secundar
Ascensiunea agenților AI marchează o evoluție semnificativă în sistemele autonome. Însă, așa cum arată descoperirile Unității 42, securitatea lor nu trebuie să fie o idee ulterioară. Aplicațiile agențice extind suprafața de vulnerabilitate a LLM-urilor prin integrarea de instrumente externe, permițând auto-modificarea și introducerea de modele complexe de comunicare – oricare dintre acestea putând fi exploatat fără garanții suficiente.
Securizarea acestor sisteme necesită mai mult decât cadre robuste – necesită alegeri de design deliberate, monitorizare continuă și apărare stratificată. Pe măsură ce întreprinderile încep să adopte agenți AI la scară largă, acum este momentul să stabilim practici de dezvoltare care pun securitatea pe primul loc și care evoluează odată cu inteligența pe care o construiesc.