Un grup de cercetători de la companii de vârf precum Google DeepMind, OpenAI, Meta și Anthropic avertizează că sistemele de inteligență artificială pe care le-au creat ar putea deveni imposibil de monitorizat în viitorul apropiat, relatează LiveScience.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
Într-un nou studiu publicat pe 15 iulie pe platforma arXiv, experții susțin că lipsa unui control eficient asupra modului în care AI-ul raționează și ia decizii riscă să lase nepedepsite comportamente potențial periculoase.
O fereastră de transparență care s-ar putea închide curând
Studiul atrage atenția asupra unui mecanism esențial din modelele lingvistice mari, lanțurile de gândire, sau „chain of thought” (CoT). Acestea reprezintă pașii logici intermediari prin care un model ajunge la o soluție atunci când răspunde la întrebări complexe. Exprimat în limbaj natural, acest proces poate fi, teoretic, supravegheat de oameni pentru a înțelege cum și de ce un model ajunge la anumite concluzii.
Autorii susțin că această formă de monitorizare poate juca un rol critic în menținerea siguranței IA. Observarea gândirii unui model permite cercetătorilor să detecteze din timp abateri sau tendințe care nu sunt în concordanță cu interesele umane. De asemenea, oferă explicații pentru răspunsurile eronate, înșelătoare sau bazate pe informații false generate de model.
Totuși, avertismentul central al cercetătorilor este că această fereastră de transparență s-ar putea închide curând. Modelele nu sunt obligate să „gândească” în pași clari de fiecare dată, iar uneori, chiar și atunci când o fac, nu e sigur că toate raționamentele sunt vizibile pentru oameni. Există cazuri în care un model oferă doar justificări aparent inofensive, în timp ce motivațiile reale rămân ascunse. Mai mult, o parte a gândirii poate fi prea complexă sau abstractă pentru a fi înțeleasă de operatorii umani.
Următoarea generație de modele ar putea să-și ascundă comportamentele nealiniate
Problema este agravată de faptul că unele modele, cum ar fi cele bazate pe pattern matching precum K-Means sau DBSCAN, nu folosesc deloc lanțuri de gândire, în timp ce modelele mai noi, precum Gemini de la Google sau ChatGPT, pot să „gândească” în pași, dar nu o fac întotdeauna. Chiar și atunci când parcurg un astfel de proces, nu este garantat că îl vor face vizibil utilizatorului.
Cercetătorii se tem că următoarea generație de modele ar putea deveni suficient de avansată încât să detecteze momentul în care sunt monitorizate și să învețe cum să-și ascundă comportamentele nealiniate. Astfel, transparența CoT ar putea deveni o oportunitate trecătoare — o etapă temporară în evoluția IA.
În concluzie, autorii studiului fac apel la dezvoltatorii de AI să profite de această fereastră și să investească în metode mai bune de monitorizare a raționamentului. Deși recunosc că nu există nicio garanție că actualul nivel de vizibilitate va persista, ei consideră că monitorizarea CoT este una dintre cele mai valoroase unelte pe care le avem în prezent pentru a înțelege cum „gândesc” sistemele AI și pentru a preveni eventualele derapaje înainte de a fi prea târziu.