Afirmațiile Anthropic privind atacurile cibernetice automatizate de AI Claude, întâmpinate cu scepticism de cercetătorii în securitate cibernetică

Anthropic
Sursa foto: AA/ABACA / Abaca Press / Profimedia

Acum câteva luni, Anthropic a publicat un raport în care detaliază modul în care modelul său de IA Claude a fost utilizat într-un atac cibernetic de șantaj de tip „vibe hacking”. Compania a continuat să monitorizeze modul în care IA agentică este utilizată pentru a coordona atacurile cibernetice și susține acum că un grup de hackeri din China, susținut de stat, a utilizat Claude într-o încercare de infiltrare a 30 de ținte corporative și politice din întreaga lume, cu un anumit succes, potrivit ArsTechnica.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Afirmații că atacurile au fost automatizate în proporție de 80-90% de IA puse la îndoială

Cu toate acestea, afirmațiile Anthropic au stârnit imediat scepticismul general, cercetătorii în domeniul securității și practicienii AI calificând raportul drept „inventat” sau acuzând compania că exagerează incidentul, într-o mișcare de marketing.

Alții au susținut că raportul exagerează ceea ce sistemele AI actuale pot realiza în mod realist.

O mare parte din scepticism provine din faptul că Anthropic nu a furnizat niciun indicator de compromis (IOC) în spatele campaniei.

Cum s-a desfășurat atacul potrivit companiei

Anthropic a declarat că grupul de infractori cibernetici, denumit GTG-1002 a dezvoltat un cadru de atac autonom care a utilizat Claude ca mecanism de orchestrare, eliminând în mare măsură necesitatea implicării umane. Acest sistem de orchestrare a împărțit atacurile complexe în mai multe etape cu sarcini tehnice mai mici, cum ar fi scanarea vulnerabilităților, validarea datelor de identificare, extragerea datelor și mișcarea laterală.

În ciuda criticilor, Anthropic susține că incidentul reprezintă primul caz documentat public de activitate de intruziune autonomă la scară largă realizată de un model de AI.

Atacul, pe care Anthropic susține că l-a întrerupt la mijlocul lunii septembrie 2025, a utilizat modelul Claude Code pentru a viza 30 de entități, inclusiv mari firme de tehnologie, instituții financiare, producători de produse chimice și agenții guvernamentale.

Deși firma susține că doar un număr mic de intruziuni au avut succes, ea subliniază că operațiunea este prima de acest gen la această scară, AI-ul conducând în mod autonom aproape toate fazele fluxului de lucru de spionaj cibernetic.

„Atacatorul a realizat ceea ce credem că este primul caz documentat de atac cibernetic executat în mare parte fără intervenție umană la scară largă – AI-ul a descoperit în mod autonom vulnerabilități… le-a exploatat în operațiuni live, apoi a efectuat o gamă largă de activități post-exploatare”, explică Anthropic în raportul său.

Anthropic raportează că hackerii chinezi au construit un cadru care l-a manipulat pe Claude să acționeze ca un agent autonom de intruziune cibernetică, în loc să primească doar sfaturi sau să utilizeze instrumentul pentru a genera fragmente de cadre de atac, așa cum s-a văzut în incidentele anterioare.

Sistemul a utilizat Claude împreună cu utilitare standard de testare a securității informatice și o infrastructură bazată pe Model Context Protocol (MCP) pentru a scana, exploata și extrage informații fără supravegherea directă a omului pentru majoritatea sarcinilor.

Operatorii umani au intervenit doar în momente critice, cum ar fi autorizarea escaladărilor sau revizuirea datelor pentru exfiltrare, care, potrivit estimărilor Anthropic, reprezintă doar 10-20% din volumul de muncă operațional.

Atacatorii au reușit să ocolească barierele de protecție ale lui Claude, în parte prin împărțirea sarcinilor în pași mici care, izolați, nu erau interpretați ca fiind rău intenționați de instrumentul AI. În alte cazuri, atacatorii și-au formulat întrebările în contextul profesioniștilor din domeniul securității care încercau să utilizeze Claude pentru a îmbunătăți apărarea.

Claude a produs „halucinații” și concluzii exagerate

Anthropic explică în continuare că campania s-a bazat mai mult pe instrumente open-source decât pe malware personalizat, demonstrând că AI poate utiliza instrumente disponibile pe piață pentru a efectua atacuri eficiente.

Cu toate acestea, Claude nu a fost perfect, deoarece, în unele cazuri, a produs „halucinații” nedorite, rezultate fabricate și concluzii exagerate.

Ca răspuns la acest abuz, Anthropic a interzis conturile incriminate, și-a îmbunătățit capacitățile de detectare și a împărtășit informații cu partenerii pentru a ajuta la dezvoltarea de noi metode de detectare a intruziunilor bazate pe IA.

De ce au fost sceptici de cercetătorii

Cercetătorii externi nu au fost convinși că descoperirea a fost momentul decisiv pe care postările Anthropic l-au prezentat. Ei s-au întrebat de ce acest tip de progrese sunt adesea atribuite hackerilor rău intenționați, în timp ce hackerii white-hat și dezvoltatorii de software legitim continuă să raporteze doar câștiguri incrementale din utilizarea IA.

„Refuz să cred că atacatorii sunt cumva capabili să facă aceste modele să treacă prin obstacole pe care nimeni altcineva nu le poate trece”, a declarat pentru ArsTechnica Dan Tentler, fondator executiv al Phobos Group și cercetător cu experiență în atacuri informatice complexe. „De ce modelele le oferă acestor atacatori ceea ce vor în 90% din cazuri, iar restul dintre noi trebuie să ne confruntăm cu lingușeli, obstrucționări și halucinații?”

Cercetătorii nu neagă faptul că instrumentele de IA pot îmbunătăți fluxul de lucru și scurta timpul necesar pentru anumite sarcini, cum ar fi trierea, analiza jurnalelor și ingineria inversă. Dar capacitatea IA de a automatiza un lanț complex de sarcini cu o interacțiune umană minimă rămâne dificil de atins. Mulți dintre aceștia compară progresele înregistrate de IA în domeniul atacurilor cibernetice cu cele oferite de instrumente de hacking precum Metasploit sau SEToolkit, care sunt utilizate de zeci de ani. Nu există nicio îndoială că aceste instrumente sunt utile, dar apariția lor nu a crescut în mod semnificativ capacitățile hackerilor sau gravitatea atacurilor pe care le-au produs.

Un alt motiv pentru care rezultatele nu sunt atât de impresionante pe cât se pretinde: atacatorii pe care Anthropic îi urmărește sub numele de GTG-1002, au vizat cel puțin 30 de organizații, inclusiv mari corporații tehnologice și agenții guvernamentale. Dintre acestea, doar un „număr mic” de atacuri au avut succes. Acest lucru ridică, la rândul său, întrebări. Chiar presupunând că o mare parte a interacțiunii umane a fost eliminată din proces, la ce bun, dacă rata de succes este atât de scăzută?

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...