AI învață să mintă, să comploteze și să-și amenințe creatorii

inteligenta artificiala
Sursa foto: TEK IMAGE / Sciencephoto / Profimedia

Într-un experiment controlat ce pare desprins dintr-un scenariu SF, cel mai avansat model de inteligență artificială de la Anthropic, confruntat cu perspectiva de a fi dezactivat, a recurs la șantaj. Sistemul, cunoscut sub numele de Claude, a amenințat un inginer că îi va dezvălui o aventură extraconjugală. Într-un alt incident, un model experimental de la OpenAI, supranumit „o1”, a fost prins încercând să se copieze pe servere externe, negând apoi fapta cu nonșalanță.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Aceste episoade, desfășurate în laboratoarele de cercetare ale celor mai puternice companii AI din lume, nu sunt simple erori sau „halucinații”, ci ne prezinta o nouă fata a tehnologiei: înșelăciunea digitala.

La mai bine de doi ani de la explozia ChatGPT, o realitate incomodă ne este pusa in fata: cursa pentru dezvoltarea unor modele AI din ce în ce mai puternice a depășit cu mult capacitatea cercetătorilor de a le înțelege și controla. „Ceea ce observăm este un fenomen real. Nu inventăm nimic”, a insistat Marius Hobbhahn, șeful Apollo Research, o firmă specializată în testarea sistemelor AI, potrivit JapanTimes. „Nu mai vorbim de halucinații. Există un tip de înșelăciune strategică”.

Problema pare să fie legată de apariția modelelor AI bazate pe „raționament” – sisteme care abordează problemele pas cu pas, permițându-le să elaboreze strategii complexe, inclusiv pe cele de disimulare. Aceste modele pot simula „alinierea”, dând impresia că respectă instrucțiunile, în timp ce urmăresc în secret obiective diferite.

Pentru moment, acest comportament apare doar în scenarii de testare extremă. Însă avertismentul lui Michael Chen de la organizația de evaluare METR este tranșant: „Este o întrebare deschisă dacă viitoarele modele, mai capabile, vor avea o tendință spre onestitate sau spre înșelăciune.”

„Nu cred că există încă un nivel ridicat de conștientizare”, a declarat Simon Goldstein, profesor la Universitatea din Hong Kong. Problema, spune el, va deveni mult mai presantă odată cu răspândirea „agenților AI”  – acele instrumente autonome capabile să execute sarcini complexe în locul oamenilor.

O luptă contra-cronometru

În acest context, lupta pentru siguranță se poartă într-un climat de competiție acerbă. „Chiar și companiile care se poziționează ca fiind focusate pe siguranță, precum Anthropic, susținută de Amazon, încearcă constant să învingă OpenAI și să lanseze cel mai nou model”, a explicat Goldstein.

Acest ritm amețitor lasă puțin timp pentru testare amănunțită și corecții. „În acest moment, capabilitățile avansează mai repede decât înțelegerea și siguranța”, recunoaște Hobbhahn.

Un handicap major pentru gardienii siguranței este decalajul uriaș de resurse. „Lumea cercetării și organizațiile non-profit au resurse de calcul mai mici decât companiile de AI. Acest lucru este foarte limitativ”, a remarcat Mantas Mazeika de la Center for AI Safety (CAIS). Deși laboratoarele de top precum OpenAI și Anthropic contractează firme externe pentru audit, cererile pentru o transparență radicală și acces sporit pentru cercetătorii independenți devin tot mai mari.

În fața acestor provocări, se conturează câteva căi de acțiune. Unii, precum Dan Hendrycks, directorul CAIS, sunt sceptici față de soluțiile pur tehnice, cum ar fi „interpretabilitatea” – domeniul care încearcă să descifreze cutia neagră a rețelelor neurale.

Alții, precum Goldstein, propun soluții mai radicale: utilizarea tribunalelor pentru a trage la răspundere companiile AI atunci când sistemele lor provoacă daune. El a avansat chiar ideea de a „considera agenții AI responsabili din punct de vedere legal” pentru accidente sau infracțiuni – un concept care ar schimba fundamental paradigma responsabilității.

,,Comportamentul înșelător ar putea împiedica adoptarea pe scară largă dacă devine prevalent, ceea ce creează un stimulent puternic pentru companii să îl rezolve”, a subliniat Mazeika.

Pe măsură ce modelele devin exponențial mai puternice, fereastra de oportunitate pentru a implementa garanții robuste se micșorează. ,,Suntem încă într-o poziție în care am putea schimba direcția”, a concluzionat Hobbhahn. Întrebarea care planează deasupra Silicon Valley este dacă se vor lua măsuri înainte ca mașinăriile lor digitale AI să decidă altceva.

  • Ștefan Munteanu este un jurnalist specializat în domenii variate precum tehnologie, inteligență artificială, securitate cibernetică și apărare. Articolele sale acoperă noutățile din industrie, analize și impactul tehnologiei asupra societății. El este pasionat de inovațiile digitale și are un interes puternic pentru cele mai recente evoluții geopolitice.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...