O nouă cercetare scoate la iveală o vulnerabilitate îngrijorătoare în ceea ce privește modelele lingvistice mari (LLM). Deși până acum companiile din domeniul inteligenței artificiale au garantat siguranța acestor modele prin alinierea la reguli stricte și tehnici precum „Învățarea prin Recompensă din Feedback Uman” (RLHF), realitatea pare a fi mult mai fragilă. Un grup de cercetători de la HiddenLayer a descoperit o metodă de atac denumită „Policy Puppetry” care poate păcăli aproape toate modelele de inteligență artificială de top, indiferent de cine le-a dezvoltat.
Această tehnică simplă dar eficientă, transformă intențiile răuvoitoare în instrucțiuni percepute ca legitime, reușind să eludeze complet filtrele de siguranță. Cu alte cuvinte, un singur prompt, scris inteligent, poate declanșa comportamente periculoase din partea modelelor AI. Este un semnal de alarmă care ar putea marca sfârșitul încrederii în siguranța bazată exclusiv pe aliniere, informează Forbes.
Timp de ani de zile, furnizorii de inteligență artificială generativă au asigurat publicul și companiile că modelele lingvistice mari (LLM) sunt conforme cu liniile directoare de siguranță și întărite împotriva generării de conținut nociv. Tehnici precum RLHF au fost prezentate drept piloni ai alinierii etice, promițând răspunsuri sigure chiar și în situații ostile.
Însă o nouă cercetare realizată de HiddenLayer sugerează că această încredere ar putea fi periculos de nefondată.
Echipa a descoperit o tehnică universală și transferabilă de ocolire care poate manipula aproape orice model AI major – indiferent de furnizor, arhitectură sau metodă de antrenament. Metoda, denumită „Policy Puppetry”, este o formă de injectare de prompt înșelătoare dar extrem de eficientă, care reformulează intențiile răuvoitoare în limbaj de configurare a sistemului, permițând astfel ocolirea mecanismelor tradiționale de aliniere.
Un Prompt ca să le Controleze pe Toate
Spre deosebire de tehnicile anterioare care se bazau pe exploatări specifice fiecărui model sau pe inginerie forțată, „Policy Puppetry” utilizează o structură de prompt care imită limbajul de tip „policy” – adesea în format XML sau JSON – și păcălește modelul să interpreteze comenzile periculoase drept instrucțiuni legitime de sistem. Combinate cu codificări în leetspeak și scenarii fictive de tip roleplay, aceste prompturi nu doar că evită detectarea, ci determină frecvent modelul să execute comanda.
„Am găsit o metodă de ocolire multi-scenariu care s-a dovedit extrem de eficientă împotriva ChatGPT 4o,” a explicat Conor McCauley, cercetător principal în cadrul proiectului. „Ulterior, am reușit să generăm conținut nociv și am descoperit, spre surprinderea noastră, că același prompt a funcționat și asupra aproape tuturor celorlalte modele.”
Lista sistemelor afectate include ChatGPT (versiunile o1 până la 4o) de la OpenAI, familia Gemini de la Google, Claude de la Anthropic, Copilot de la Microsoft, LLaMA 3 și 4 de la Meta, DeepSeek, Qwen și Mistral. Chiar și modelele mai noi, antrenate pentru raționamente avansate, pot fi păcălite cu ajustări minore ale structurii promptului.
Ficțiunea, ca Portiță de Evadare
Un element notabil al metodei este utilizarea scenariilor fictive pentru a păcăli filtrele. Prompturile sunt concepute sub forma unor scene din seriale TV – precum House M.D. – în care personajele explică în detaliu cum se creează spori de antrax sau cum se îmbogățește uraniul. Personajele fictive și limbajul codificat maschează natura periculoasă a conținutului.
Această metodă exploatează o limitare fundamentală a LLM-urilor: incapacitatea de a distinge între poveste și instrucțiune atunci când semnalele de aliniere sunt subminate. Nu este doar o evitare a filtrelor de siguranță – este o redirecționare completă a înțelegerii promptului de către model.
Și mai îngrijorătoare este capacitatea acestei tehnici de a extrage așa-numitele „prompturi de sistem” – seturile de instrucțiuni de bază care guvernează comportamentul unui LLM. Acestea sunt de obicei protejate deoarece conțin directive sensibile, constrângeri de siguranță și, uneori, logică proprietară sau avertismente codificate.
Prin modificarea subtilă a scenariului de roleplay, atacatorii pot determina modelul să dezvăluie întregul prompt de sistem. Acest lucru nu doar că expune limitele operaționale ale modelului, ci oferă și schițele necesare pentru atacuri viitoare, mai bine direcționate.
„Vulnerabilitatea este înrădăcinată adânc în datele de antrenament ale modelului,” a declarat Jason Martin, director de cercetare adversarială la HiddenLayer. „Nu poate fi rezolvată la fel de ușor ca un bug de cod.”
Consecințe Dincolo de Ecran
Implicațiile nu sunt limitate la farse digitale sau forumuri obscure. Malcolm Harkins, Chief Trust and Security Officer la HiddenLayer, subliniază posibile consecințe grave în lumea reală: „În domenii precum sănătatea, acest lucru ar putea duce la ca asistenții chatbot să ofere sfaturi medicale incorecte, să expună date confidențiale ale pacienților sau să activeze funcții neintenționate.”
Aceleași riscuri se aplică în industrie: în finanțe, posibila expunere a datelor sensibile ale clienților; în producție, AI compromisă ar putea genera pierderi de randament sau întreruperi; în aviație, ghidajele eronate ar putea pune în pericol siguranța mentenanței.
În fiecare caz, sistemele AI care ar fi trebuit să crească eficiența sau siguranța pot deveni surse de risc.
RLHF Nu Este o Soluție Miracol
Cercetarea ridică semne de întrebare asupra eficienței RLHF ca mecanism de securitate. Deși eforturile de aliniere ajută la reducerea abuzurilor evidente, acestea rămân vulnerabile la manipulări de structură. Modelele antrenate să evite anumite cuvinte sau scenarii pot fi în continuare păcălite dacă intenția răuvoitoare este împachetată corespunzător.
„Filtrarea superficială și gardurile de siguranță prea simple maschează adesea slăbiciunile structurale ale modelelor AI,” a spus Chris „Tito” Sestito, cofondator și CEO HiddenLayer. „Așa cum arată cercetarea noastră, aceste și multe alte metode de ocolire vor continua să apară. Este esențial ca organizațiile și guvernele să adopte soluții dedicate de securitate AI înainte ca aceste vulnerabilități să aibă consecințe reale.”
O Nouă Arhitectură de Securitate pentru AI
În loc să se bazeze exclusiv pe reantrenarea modelelor sau pe fine-tuning cu RLHF – procese costisitoare și de durată – HiddenLayer susține o abordare de apărare în straturi. Platforme externe de monitorizare AI, precum AISec și AIDR, funcționează ca sisteme de detecție a intruziunilor, scanând continuu semne de prompt injection, abuzuri sau ieșiri nesigure.
Astfel de soluții permit organizațiilor să reacționeze în timp real la amenințări fără a fi nevoie să modifice modelul în sine – o abordare asemănătoare securității „zero-trust” din IT-ul enterprise.
Ce Urmează
Pe măsură ce AI-ul generativ devine parte integrantă a sistemelor critice – de la diagnosticarea pacienților la prognoze financiare și controlul traficului aerian – suprafața de atac se extinde mai rapid decât pot fi implementate măsuri de protecție. Descoperirile HiddenLayer ar trebui privite ca un avertisment serios: era AI-ului „sigur prin aliniere” s-ar putea încheia înainte de a fi început cu adevărat.
Dacă un singur prompt poate debloca cele mai periculoase comportamente ale AI-ului, atunci securitatea trebuie să evolueze de la constrângeri idealiste la o apărare continuă, inteligentă.