Problema uriașă a cărților piratate folosite în antrenarea inteligenței artificiale

Sursa foto: TechRider (generată AI)

În momentul în care angajații Meta au început să dezvolte modelul lor principal de inteligență artificială, Llama 3, s-au confruntat cu o întrebare simplă de ordin etic, relatează The Atlantic. Programul avea nevoie de o cantitate uriașă de texte de înaltă calitate pentru a concura cu produse precum ChatGPT, iar obținerea legală a tuturor acestor scrieri putea dura foarte mult. Ar fi trebuit să le pirateze în schimb?

Când au discutat cu mai multe companii despre licențierea de cărți și lucrări de cercetare, Meta nu a găsit soluții atrăgătoare. „Pare nejustificat de scump,” a scris un cercetător pe un chat intern al companiei, potrivit unor documente din instanță. Un manager de rang înalt din echipa Llama a adăugat că acest proces ar fi și „incredibil de lent”: „Le ia peste 4 săptămâni să livreze date.” Într-un alt document legal, un director de inginerie a menționat și o altă problemă: „Problema este că oamenii nu înțeleg că, dacă licențiem măcar o singură carte, nu vom mai putea apela la strategia de fair use,” făcând referire la un posibil argument legal pentru folosirea operelor protejate prin drepturi de autor în antrenarea IA.

Documentele de instanță publicate aseară arată că managerul principal considera „foarte important” ca Meta „să obțină cărți cât mai repede”, deoarece „cărțile sunt de fapt mai importante decât datele de pe web.” Angajații Meta și-au îndreptat atenția către Library Genesis (LibGen), una dintre cele mai mari biblioteci de materiale piratate care circulă online, cu peste 7,5 milioane de cărți și 81 de milioane de articole științifice. În cele din urmă, echipa Meta a obținut aprobarea de la „MZ”—o referință aparentă la CEO-ul Meta, Mark Zuckerberg—pentru a descărca și folosi acest set de date.

Acest demers, alături de alte informații rezumate aici, a devenit public după ce unele comunicații interne ale Meta au fost făcute cunoscute în cadrul unui proces de încălcare a drepturilor de autor, intentat companiei de Sarah Silverman, Junot Díaz și alți autori ale căror cărți se regăsesc în LibGen. Un alt proces similar, inițiat de un grup de autori, a scos la iveală faptul că și OpenAI a folosit LibGen în trecut. (Un purtător de cuvânt Meta a refuzat să comenteze, invocând litigiul în curs. OpenAI nu a răspuns solicitărilor de comentarii.)

Până acum, majoritatea oamenilor nu știau ce se află în această bibliotecă, deși mulți au folosit deja produse de inteligență artificială care o utilizează; potrivit lui Zuckerberg, asistentul „Meta AI” a fost folosit de sute de milioane de persoane (este integrat în aplicații precum Facebook, WhatsApp și Instagram). Pentru a arăta ce fel de lucrări au fost folosite de Meta și OpenAI, am accesat o captură a metadatelor LibGen—o modalitate prin care pot fi văzute titlurile din bibliotecă fără a descărca sau distribui efectiv cărțile și articolele științifice.

Există, totuși, câteva aspecte importante. Este imposibil să știm exact care părți din LibGen au fost folosite de Meta și OpenAI pentru a-și antrena modelele și ce părți ar fi fost excluse. De asemenea, baza de date este în continuă creștere. Captura mea a fost realizată în ianuarie 2025, cu mai bine de un an după ce Meta ar fi accesat-o, potrivit documentelor din instanță, așa că unele titluri nu ar fi fost disponibile atunci.

Metadatele LibGen sunt dezorganizate și conțin numeroase erori. Deși le-am curățat în anumite privințe, biblioteca rămâne prea mare și plină de neconcordanțe pentru a le corecta pe toate. Cu toate acestea, oferă o perspectivă asupra cantității uriașe de materiale piratate accesibile modelelor IA. Cujo, The Gulag Archipelago, mai multe cărți de Joan Didion traduse în diverse limbi, un articol academic numit „Surviving a Cyberapocalypse”—toate acestea și multe altele pot fi folosite de companiile de IA la antrenarea modelelor.

Meta și OpenAI au susținut în instanță că folosirea operelor protejate prin drepturi de autor la antrenarea modelelor IA reprezintă „fair use”, deoarece LLM-urile „transformă” materialul original în conținut nou. Această argumentație ridică întrebări complicate, care probabil vor rămâne fără răspuns definitiv o vreme. Însă folosirea LibGen aduce o altă problemă: descărcarea în masă se face, de obicei, prin BitTorrent, un protocol folosit frecvent de pirați pentru anonimitate, iar torrenting-ul implică deseori și distribuirea simultană a fișierelor către alți utilizatori. Comunicările interne arată că angajații Meta au folosit într-adevăr torrenting pentru a descărca LibGen, ceea ce înseamnă că Meta ar fi putut nu doar să acceseze, ci și să distribuie materiale piratate—un fapt considerat în general ilegal, indiferent de verdictul privind folosirea conținutului protejat la antrenarea IA. (Meta susține că „a luat precauții pentru a nu da seed fișierelor” și că nu există „probe” că acestea ar fi fost partajate altora. Metoda prin care OpenAI a descărcat conținutul nu este încă cunoscută.)

Angajații Meta au recunoscut în discuțiile interne că antrenarea Llama cu LibGen prezintă un „risc juridic mediu-ridicat” și au discutat diverse „măsuri de atenuare” menite să ascundă activitatea. Un angajat a recomandat să se „înlăture datele marcate clar ca piratate/furate” și să nu se „menționeze extern” folosirea niciunui set de date de antrenament, inclusiv LibGen. Altul a propus ștergerea oricărei linii care conține „ISBN,” „Copyright,” „©,” „All rights reserved.” Un manager senior al echipei Llama a sugerat să se ajusteze modelul pentru a „refuza să răspundă la solicitări de genul: «Redă primele trei pagini din ‘Harry Potter și Piatra Filozofală.’»” Un alt angajat a remarcat că „să faci torrenting de pe un laptop de serviciu nu pare tocmai în regulă.”

Nu este dificil de înțeles de ce LibGen atrage companiile de IA, care au nevoie de volume uriașe de text. LibGen este uriaș, de multe ori mai mare decât Books3, o altă colecție piratată de cărți despre care s-a discutat în 2023. Alte titluri disponibile în LibGen includ literatură și non-ficțiune recentă de la autori precum Sally Rooney, Percival Everett, Hua Hsu, Jonathan Haidt și Rachel Khong, precum și articole din reviste academice de top, precum Nature, Science, și The Lancet. Există, de asemenea, milioane de articole din reviste științifice publicate de Elsevier și Sage Publications.

LibGen a fost creat în jurul anului 2008 de cercetători din Rusia. Conform unui administrator, proiectul există pentru a servi persoane din „Africa, India, Pakistan, Iran, Irak, China, Rusia și fostul spațiu sovietic etc.”, dar și pe cei „care nu fac parte din mediul academic.” De-a lungul anilor, colecția s-a extins masiv, pe măsură ce oamenii au încărcat tot mai multe lucrări piratate. Inițial, majoritatea conținutului era în limba rusă, însă lucrările în engleză au ajuns rapid să domine baza de date. LibGen a reușit să crească și să evite blocarea din partea autorităților tocmai pentru că este distribuit prin rețele peer-to-peer, în diferite versiuni, spre deosebire de bibliotecile găzduite într-un singur loc și protejate prin parole.

Mulți din mediul academic susțin că editorii și-au atras singuri această piraterie, făcând accesul la cercetare scump și dificil. Sci-Hub, un proiect înrudit cu LibGen, a fost lansat în 2011 de o studentă kazahă la neuroștiințe, Alexandra Elbakyan, a cărei universitate nu oferea acces la marile baze de date academice. Tot în 2011, activistul informatic Aaron Swartz a fost arestat după ce a descărcat milioane de articole din JSTOR, încercând să creeze un tip similar de bibliotecă.

Editorii au încercat să oprească răspândirea lucrărilor piratate. În 2015, Elsevier a depus o plângere împotriva LibGen, Sci-Hub și a altor site-uri, precum și împotriva Alexandrei Elbakyan personal. Instanța a decis închiderea site-urilor și a ordonat plata unor daune de 15 milioane de dolari. Cu toate acestea, site-urile au rămas online, iar amenda a rămas neachitată. O situație asemănătoare a avut loc în 2023, când mai mulți editori de manuale și publicații educaționale, printre care Macmillan Learning și McGraw Hill, au dat în judecată LibGen. Instanța a stabilit daune de 30 de milioane de dolari, într-unul dintre „cele mai ample ordine anti-piraterie pronunțate de o instanță din SUA,” potrivit TorrentFreak. Dar nici această amendă nu a fost plătită, iar autoritățile nu au reușit să blocheze extinderea bibliotecilor piratate. La 17 ani de la crearea sa, LibGen continuă să se mărească.

Fără îndoială, toate acestea fac literatura și cunoașterea mai accesibile, însă se bazează pe munca celor care creează aceste opere—o muncă ce necesită timp, expertiză și adesea resurse financiare. Mai grav, chatbot-urile de inteligență artificială sunt prezentate ca niște „oracole” care au „învățat” din datele de antrenament și adesea nu citează sursele (sau citează surse imaginare), scoțând informația din context și împiedicând colaborarea între oameni. În plus, împiedică autorii să-și construiască reputația și să intre într-un dialog intelectual real. Companiile de IA susțin că produsele lor vor aduce progrese științifice, însă aceste afirmații rămân în mare parte ipotetice.

Una dintre cele mai mari întrebări ale erei digitale este cum gestionăm fluxul de cunoaștere și creație în beneficiul societății. LibGen și alte biblioteci piratate fac informația mai ușor de accesat, permițând oamenilor să citească lucrări originale fără să plătească pentru ele. Dar companiile de IA precum Meta merg mai departe: scopul lor este să absoarbă aceste opere în produse tehnologice profitabile care pot ajunge să concureze cu originalul. Oare situația aceasta va fi mai benefică pentru societate decât dialogul uman pe care aceste produse încep deja să-l înlocuiască?

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...