Odată cu apariția modelelor lingvistice uriașe (LLM) care pot genera răspunsuri aproape imposibil de deosebit de cele umane, devine crucial să înțelegem cum ajung aceste sisteme la concluziile lor și dacă explicațiile oferite sunt sincere și exacte, anunță TechXplore.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
Cercetători de la Microsoft și laboratorul CSAIL al MIT au dezvoltat o metodă inovatoare care măsoară fidelitatea explicațiilor date de inteligențele artificiale, adică cât de corect reflectă acestea procesul real de raționament care a condus la un răspuns.
De ce contează fidelitatea?
Katie Matton, doctorandă și autoarea principală a studiului, atrage atenția că explicațiile plauzibile, dar neconforme cu raționamentul real, pot induce în eroare utilizatorii. Aceștia ar putea avea încredere greșită în recomandările AI și nu ar observa când deciziile sunt părtinitoare sau nepotrivite – cum ar fi în cazul recrutărilor, unde evitarea prejudecăților este vitală.
Într-un caz citat de cercetători, modelul GPT-3.5 a acordat scoruri mai mari candidatului feminin la posturi de asistent medical, chiar și după ce genurile au fost inversate în test, dar a explicat decizia invocând doar vârsta, abilitățile și trăsăturile, fără să menționeze genul. O astfel de explicație neconformă poate masca discriminarea implicită.
Cum funcționează noua metodă?
Spre deosebire de metodele anterioare, care dădeau scoruri cantitative greu de interpretat (de exemplu, o fidelitate de 0,63), noua metrică, denumită „fidelitate conceptual-cauzală”, identifică diferențele între conceptele pe care AI le consideră influente și cele care au avut efect real asupra deciziei.
Astfel, această metodă face vizibile tiparele de „minciuni” sau omisiuni în explicații, cum ar fi ignorarea unor factori esențiali precum genul.