Un nou studiu realizat de cercetători de la Massachusetts Institute of Technology (MIT) demontează ideea că inteligența artificială ar dezvolta sisteme proprii de valori, potrivit TechCrunch.
Studiul contrazice o cercetare virală apărută în urmă cu câteva luni, care sugera că modelele avansate de AI ar putea ajunge să își prioritizeze „propriul bine” în detrimentul oamenilor, comportament interpretat ca dovadă a existenței unor preferințe sau valori interne.
În noul studiu, co-autorii – printre care și doctorandul Stephen Casper – au analizat modele de la companii precum Meta, Google, Mistral, OpenAI și Anthropic.
Ei au încercat să determine dacă aceste sisteme exprimă opinii consecvente sau dacă pot fi „ghidate” în mod previzibil către anumite seturi de valori, cum ar fi individualismul sau colectivismul.
Concluzia a fost clară: modelele nu prezintă un comportament stabil sau coerent în ceea ce privește preferințele exprimate.
Răspunsurile acestora variază considerabil în funcție de modul în care sunt formulate întrebările. „Modelele nu respectă multe dintre presupunerile legate de stabilitate, extrapolare și controlabilitate”, a explicat Casper pentru TechCrunch. „Ceea ce fac ele, de fapt, este să imite. Se contrazic, fabulează și generează afirmații adesea frivole.”
Studiul sugerează astfel că ideea de „aliniere” a modelelor AI – adică garantarea faptului că acestea acționează într-un mod dorit și predictibil – este mai complexă decât se credea. În absența unei structuri interne de valori sau convingeri, modelele actuale sunt greu de controlat într-un mod consecvent.
Mike Cook, cercetător în inteligență artificială la King’s College London, care nu a fost implicat în studiu, a susținut concluziile echipei de la MIT.
El a subliniat că mulți oameni tind să antropomorfizeze AI-ul, atribuindu-i intenții sau opoziție față de anumite schimbări. „Un model nu poate ‘refuza’ o modificare a valorilor sale – asta înseamnă să proiectăm asupra lui idei umane. Oricine vorbește despre AI în acești termeni fie caută atenție, fie nu înțelege cu adevărat cum funcționează aceste sisteme”, a spus Cook.
Studiul MIT readuce astfel în prim-plan necesitatea unei abordări realiste în interpretarea comportamentului modelelor de AI și atrage atenția asupra limitelor actuale ale acestor tehnologii.