O investigație bazată pe documente judiciare recent declasificate aruncă o lumină nouă asupra metodelor controversate prin care giganții tehnologici dezvoltă modelele lor de inteligență artificială. În centrul scandalului se află Meta, compania mamă a Facebook, care a folosit sistematic conținut piratat pentru a antrena Llama 3, unul dintre cele mai avansate modele de AI ale sale, informează The Atlantic.

Când echipa Meta a început dezvoltarea modelului Llama 3, s-a confruntat cu o provocare fundamentală. Mai exact, avea nevoie de cantități uriașe de text de înaltă calitate pentru a putea concura cu produse precum ChatGPT. Obținerea legală a acestor materiale părea însă o misiune imposibilă din punctul de vedere al timpului și costurilor.

Documentele judiciare publicate recent în cadrul procesului intentat de autori precum Sarah Silverman și Junot Díaz dezvăluie conversațiile interne ale angajaților Meta. Într-unul dintre aceste mesaje, un cercetător se plângea că licențierea legală a cărților pare „nerezonabil de scumpă”, în timp ce un manager senior din echipa Llama sublinia că procesul ar fi și „incredibil de lent”, cu termene de livrare de peste patru săptămâni.

Mai mult, un director de inginerie a identificat o problemă juridică suplimentară: „Problema este că oamenii nu realizează că dacă licențiem o singură carte, nu vom putea miza pe strategia de fair use”, o potențială apărare legală pentru utilizarea materialului protejat prin drepturi de autor în antrenarea AI.

Library Genesis: Biblioteca piratată de 7,5 milioane de cărți

Soluția la care s-a îndreptat Meta a fost Library Genesis (LibGen), una dintre cele mai mari biblioteci digitale piratate din lume. Cu peste 7,5 milioane de cărți și 81 de milioane de lucrări științifice, LibGen reprezintă un tezaur imens de cunoaștere accesibil ilegal.

Conform documentelor judiciare, managerul senior considera „foarte important ca Meta să obțină cărți cât mai repede„, argumentând că „tomurile sunt de fapt mai importante decât datele web”. În cele din urmă, echipa a obținut permisiunea de la „MZ”, o referire aparentă la CEO-ul Mark Zuckerberg, pentru a descărca și utiliza acest set de date masiv.

Această decizie nu a fost luată la întâmplare. LibGen conține o varietate impresionantă de opere: de la romanul „Cujo” de Stephen King la „Arhipelagul Gulag” de Aleksandr Soljenițîn, de la lucrări ale scriitoarei Joan Didion traduse în multiple limbi la articole academice de ultimă oră.

Literatura contemporană este bine reprezentată, cu autori precum Sally Rooney, Percival Everett, Hua Hsu, Jonathan Haidt și Rachel Khong, alături de articole din reviste academice prestigioase ca Nature, Science și The Lancet.

OpenAI, același model controversat

Meta nu este singura companie care a recurs la această practică. Într-un proces separat, s-a descoperit că și OpenAI, creatoarea ChatGPT, a folosit LibGen în trecut. Deși un purtător de cuvânt OpenAI a precizat că „modelele care alimentează astăzi ChatGPT și API-ul nostru nu au fost dezvoltate folosind aceste seturi de date”, recunoscând că acestea „au fost folosite ultima dată în 2021”, precedentul rămâne îngrijorător.

Riscurile juridice și măsurile de „mascare”

Angajații Meta erau conștienți de implicațiile juridice ale acțiunilor lor. În discuțiile interne, au recunoscut că antrenarea Llama cu material din LibGen presupune un „risc juridic mediu-ridicat” și au discutat diverse măsuri de „mascare” pentru a diminua urmările potențiale.

Printre strategiile propuse se numărau ștergerea datelor marcate clar ca fiind piratate, eliminarea liniilor cu ISBN, Copyright sau simbolul ©, și ajustarea modelului pentru a „refuza să reproducă primele trei pagini din Harry Potter și Piatra Filozofală”. Un angajat a remarcat pragmatic: „Să torentezi de pe un laptop corporativ nu pare în regulă”.

Această ultimă observație ridică o problemă juridică suplimentară. Descărcarea masivă de pe LibGen se face prin BitTorrent, un protocol asociat cu pirateria care implică distribuirea simultană a fișierelor către alți utilizatori. Aceasta înseamnă că Meta nu doar a accesat material piratat, ci ar fi putut să îl și distribuie, un act considerat ilegal indiferent de verdictul privind fair use.

Meta susține că a „luat măsuri pentru a nu partaja fișierele descărcate” și că „nu există dovezi că le-ar fi distribuit altora”, însă natura tehnologiei BitTorrent face această afirmație dificil de verificat.

Istoria controversată a LibGen

Library Genesis a fost creat în jurul anului 2008 de un grup de oameni de știință ruși cu o misiune aparent nobilă. Anume să servească cercetătorilor din „Africa, India, Pakistan, Iran, Irak, China, Rusia, spațiul ex-sovietic etc., și, separat, celor din afara mediului academic”. Inițial dominată de lucrări în limba rusă, colecția a crescut exponențial prin contribuții voluntare, ajungând rapid să fie dominată de lucrări în engleză.

Unii cercetători argumentează că editorii au provocat acest tip de piraterie prin politici de acces restrictive și costuri prohibitive. Alexandra Elbakyan, o studentă kazahă, a lansat în 2011 platforma similară Sci-Hub după ce universitatea sa nu oferea acces la bazele mari de date academice.

În același an, hacktivistul Aaron Swartz a fost arestat pentru că încerca să descarce milioane de articole din JSTOR pentru a construi o bibliotecă similară.

Bătălia juridică continuă

Editorii nu au rămas pasivi față de această provocare. În 2015, gigantul editorial Elsevier a dat în judecată LibGen, Sci-Hub și personal pe Elbakyan, obținând o hotărâre de închidere a site-urilor și daune de 15 milioane de dolari.

Site-urile au rămas însă online iar amenzile nu au fost plătite. În 2023, un grup de editori educaționali și profesioniști, inclusiv Macmillan Learning și McGraw Hill, a câștigat un proces similar, iar LibGen a fost condamnat să plătească 30 de milioane de dolari. Nici această amendă nu a fost plătită.

La 17 ani de la înființare, LibGen continuă să crească și să funcționeze prin site-uri satelit, ceea ce demonstrează limitele sistemului juridic tradițional în fața tehnologiilor descentralizate.

Impactul asupra autorilor și cercetătorilor

Deși LibGen și platformele similare fac cunoașterea mai accesibilă, ele se bazează pe munca autorilor și cercetătorilor, muncă uriașă care necesită timp, expertiză și resurse financiare considerabile. Problema se agravează însă în contextul inteligenței artificiale generative.

Chatbot-urile AI sunt prezentate publicului ca „oracole” care au „învățat” din vastele lor seturi de date de antrenament, fără să citeze sursele sau, în multe cazuri, inventându-le. Aceasta scoate cunoașterea din contextul său original, împiedică colaborarea umană autentică și îngreunează procesul prin care autorii și cercetătorii își construiesc reputația și își susțin activitatea.

Întrebarea fundamentală a erei digitale

Cazul Meta și LibGen ridică una dintre cele mai importante întrebări ale erei digitale… cum gestionăm fluxul de cunoștințe și opere creative pentru binele societății? Pe de o parte, bibliotecile piratate fac informația accesibilă, permițând oamenilor din întreaga lume să citească gratuit opere care altfel ar fi inaccesibile din cauza costurilor sau restricțiilor geografice.

Pe de altă parte, companiile de inteligență artificială generativă precum Meta merg mai departe. Scopul lor este să absoarbă această muncă intelectuală în produse tehnologice profitabile care concurează direct cu operele originale. Asistentul „Meta AI” a fost folosit, potrivit lui Zuckerberg, de sute de milioane de persoane, fiind integrat în produse precum Facebook, WhatsApp și Instagram.

Întrebarea care rămâne deschisă este dacă aceste produse vor fi într-adevăr mai benefice pentru societate decât dialogul uman autentic pe care încep deja să îl înlocuiască. În timp ce Meta și OpenAI susțin în instanță că utilizarea operelor protejate pentru antrenarea AI constituie „fair use” pentru că modelele transformă materialul original în ceva nou, dezbaterea etică și juridică este departe de a fi încheiată.