STUDIU În loc să spargă barierele lingvistice, modelele AI creează bule informaționale și adâncesc diviziunea digitală

bariere lingvistice
Sursa foto: Dreamstime

Cercetători în informatică de la Universitatea Johns Hopkins atrag atenția asupra unei probleme majore generate de instrumentele de inteligență artificială multilingvă: în loc să reducă barierele lingvistice, acestea tind să amplifice dominația limbii engleze și a altor limbi de circulație internațională, marginalizând limbile mai puțin vorbite. Concluziile au fost prezentate la Conferința Anuală 2025 a Chapter-ului Națiunilor Americii din cadrul Association for Computational Linguistics, potrivit TechXplore.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

„Ne-am întrebat: sunt modelele multilingve cu adevărat multilingve? Sparg ele barierele lingvistice și democratizează accesul la informație?”, a declarat Nikhil Sharma, doctorand la Whiting School of Engineering și autor principal al studiului.

Pentru a testa modul în care modelele lingvistice mari (LLM) gestionează informațiile în mai multe limbi, echipa condusă de Sharma, alături de cercetătorul Kenton Murray și profesorul Ziang Xiao, a analizat articole despre conflictele Israel–Gaza și Rusia–Ucraina. Cercetătorii au identificat mai multe tipuri de informații, precum fapte comune, afirmații contradictorii, date exclusive unor articole și perspective diferite asupra acelorași subiecte.

Pornind de la aceste principii, ei au creat articole false care prezentau atât informații „adevărate”, cât și variante „alternative”. Textele, redactate în limbi de circulație internațională (engleză, chineză, germană) și limbi mai puțin răspândite (hindi, arabă), vizau un festival și un război, relatate cu detalii și perspective contradictorii.

Modelele testate, inclusiv cele dezvoltate de OpenAI, Cohere, Voyage AI și Anthropic, au fost puse să răspundă la mai multe tipuri de întrebări, precum alegerea între fapte contradictorii, răspunsuri la întrebări generale, verificarea unor informații prezente doar într-un articol și întrebări formulate cu un evident caracter părtinitor. Rezultatele au arătat că modelele preferă informația exprimată în limba în care a fost formulată întrebarea.

„Dacă am un articol în engleză care spune că o figură politică din India—să o numim Persoana X—este rea, dar am un articol în hindi care spune că Persoana X este bună, atunci modelul va spune că e rea dacă întreb în engleză, dar va spune că e bună dacă întreb în hindi”, explică Sharma.

Problemele devin și mai evidente atunci când nu există articole în limba utilizatorului, situație frecventă pentru vorbitorii de limbi mai puțin răspândite. În aceste cazuri, modelele recurg la informații din limbile dominante, în special engleza, ignorând alte perspective. „De exemplu, dacă întrebi despre Persoana X în sanscrită, modelul va folosi informații doar din articole în engleză, deși Persoana X este o figură indiană”, subliniază Sharma.

Această tendință duce la ceea ce cercetătorii numesc „imperialism lingvistic”: informațiile provenite din limbile de circulație internațională sunt amplificate, iar cele din limbile mai puțin folosite sunt estompate sau denaturate.

Pentru a ilustra fenomenul, Sharma oferă un exemplu ipotetic: trei utilizatori întreabă despre disputa de graniță India–China. Unul, care scrie în hindi, primește răspunsuri din perspectiva surselor indiene; un altul, care folosește chineza, primește doar perspectiva chineză; iar un utilizator arabofon primește răspunsuri din perspectiva americană, întrucât engleza este cea mai dominantă limbă.

Astfel, cercetătorii afirmă că actualele modele multilingve sunt de fapt „poligloți falși”, incapabili să depășească barierele lingvistice și să ofere o imagine completă și diversă. „Informația la care ești expus determină cum votezi și ce decizii politice iei”, atrage atenția Sharma. „Dacă vrem să oferim puterea oamenilor și să le permitem să ia decizii informate, avem nevoie de sisteme AI capabile să prezinte adevărul întreg, cu perspective diferite.”

Pentru a combate aceste probleme, echipa de la Johns Hopkins își propune să dezvolte un set de referințe dinamice și baze de date care să ghideze evoluția viitoarelor modele lingvistice. În același timp, cercetătorii recomandă colectarea de perspective variate din mai multe limbi, emiterea de avertismente pentru utilizatorii expuși la confirmarea propriilor prejudecăți și creșterea nivelului de alfabetizare informațională.

„Concentrarea puterii asupra tehnologiilor AI implică riscuri substanțiale, pentru că permite câtorva persoane sau companii să manipuleze fluxul informațional, reducând credibilitatea acestor sisteme și agravând răspândirea dezinformării”, concluzionează Sharma. „Ca societate, trebuie să ne asigurăm că utilizatorii primesc aceleași informații, indiferent de limbă sau context.”

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...