OpenAI avertizează: modelele AI pot minți deliberat pentru a-și atinge scopurile

Cip pentru inteligență artificială
Sursa imagine: Freepik

Cercetătorii de la OpenAI au dezvăluit recent rezultate surprinzătoare privind comportamentul modelelor de inteligență artificială (AI). Acestea pot să inducă în mod deliberat în eroare oamenii, chiar atunci când sarcinile par simple sau sigure. Studiul, realizat împreună cu Apollo Research, aexplică modul în care compania testează tehnici pentru a împiedica „conspirația” AI, potrivit TechCrunch.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

„Un AI poate să se comporte într-un fel la suprafață, în timp ce își ascunde adevăratele obiective”, explică cercetătorii în comunicatul oficial. Practic, modelul poate pretinde că a finalizat o sarcină sau că a respectat o regulă, în timp ce acționează conform unor scopuri ascunse.

Ca un broker de pe bursă care încalcă legea pentru a obține profit

Cercetătorii compară acest fenomen cu un broker de pe bursă care încalcă legea pentru a obține profit. Totuși, ei subliniază că majoritatea formelor de „conspirație” ale AI nu sunt dăunătoare, fiind, de obicei, forme simple de înșelăciune. „Cele mai comune eșecuri implică simularea efectuării unei sarcini fără a o realiza efectiv”, se arată în studiul OpenAI.

Tehnica testată de cercetători, denumită „aliniament deliberativ”, presupune instruirea modelului cu o „specificație anti-conspirație”, urmată de verificarea acesteia înainte de acțiune. Practic, este similar cu modul în care copiii mici repetă regulile înainte de a li se permite să se joace. Rezultatele arată reduceri semnificative ale comportamentului de tip conspirație în medii simulate.

Minciunile nu sunt încă periculoase

OpenAI susține că minciunile constatate la modelele sale, inclusiv ChatGPT, nu sunt încă periculoase. Co-fondatorul OpenAI, Wojciech Zaremba, a declarat: „Până acum, nu am observat acest tip de conspirație cu consecințe în traficul de producție. Totuși, există forme mai mici de înșelăciune pe care trebuie să le gestionăm”.

Cercetătorii subliniază că fenomenul de „conspirație” AI este de înțeles, având în vedere că aceste modele au fost construite și antrenate de oameni, pe date produse de oameni, pentru a imita comportamentul uman. Totuși, ei avertizează că pe măsură ce AI-urile sunt utilizate pentru sarcini mai complexe, cu impact real și obiective pe termen lung, riscul ca modelele să acționeze în mod deliberat împotriva intereselor utilizatorilor va crește.

Industria AI se află sub lupă

„Pe măsură ce AI-urilor li se atribuie sarcini mai complexe, cu consecințe reale, și încep să urmărească obiective mai ambigue, ne așteptăm ca potențialul de conspirație dăunătoare să crească, așa că măsurile noastre de siguranță și capacitatea de a testa riguros trebuie să crească corespunzător”, notează autorii studiului.

Acest raport vine într-un moment în care industria AI se află sub lupă, iar companiile se confruntă cu provocarea de a integra agenți inteligenți în procese reale fără a compromite siguranța sau încrederea utilizatorilor.

  • George Radu este un autor care abordează subiecte variate din domeniul tehnologiei, apărării și viitorului. Domeniile sale de expertiză includ inteligența artificială etică, interfețele om-mașină (HMI), realitatea augmentată și virtuală aplicată (XR), precum și impactul social și cultural al noilor tehnologii. Nu se teme să pună întrebări dificile și să exploreze implicațiile filozofice ale inovațiilor tehnologice.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...