Un nou studiu ridică mizele în bătălia legală privind copyrightul în era inteligenței artificiale. Cercetătorii au descoperit că unul dintre modelele Meta a memorat aproape integral cărți populare, ceea ce ar putea duce la daune de ordinul miliardelor de dolari, anunță NewScientist.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
O anchetă științifică recentă, publicată pe platforma ArXiv, scoate la iveală o problemă majoră în dezvoltarea modelelor de inteligență artificială, memorarea cuvânt cu cuvânt a cărților folosite în antrenarea algoritmilor. Potrivit cercetării, modelul Llama 3.1 70B dezvoltat de Meta ar fi reprodus aproape în întregime texte din volume celebre, inclusiv Harry Potter și Piatra Filozofală, 1984 de George Orwell și Marele Gatsby de F. Scott Fitzgerald.
Descoperirea vine într-un moment sensibil, în contextul unor procese colective intentate împotriva giganților tech de către scriitori și edituri, care acuză companiile că le-au folosit ilegal operele pentru a-și antrena modelele AI. În SUA și Marea Britanie, instanțele urmează să decidă dacă utilizarea acestor opere fără permisiune poate fi justificată legal prin conceptele de „fair use” (folosință echitabilă) sau „fair dealing” (utilizare corectă).
De la învățare la memorare integrală
Studiul realizat de o echipă coordonată de profesorul Mark Lemley de la Universitatea Stanford a testat capacitatea a 13 modele AI open-source de a reproduce fragmente din cărți protejate prin drepturi de autor. Cercetătorii au împărțit fragmente scurte în două părți – un început (prefix) și o continuare (sufix), și au analizat dacă modelele pot completa exact propozițiile.
Deși majoritatea modelelor au arătat un grad scăzut de memorare, modelul Meta Llama 3.1 70B a reprodus aproape integral mai multe texte, indicând că nu s-a limitat doar la „învățarea relațiilor statistice dintre cuvinte”, ci a memorat literalmente pasaje lungi.
Conform estimărilor, dacă un model AI este găsit vinovat de reproducerea a doar 3% din conținutul dataset-ului Books3, un set de date controversat ce conține aproximativ 200.000 de cărți, multe dintre ele piratate – compania ar putea fi obligată să plătească daune de până la 1 miliard de dolari.
Implicații legale internaționale
Mark Lemley, care anterior a apărat Meta în procesul Kadrey v. Meta Platforms, a anunțat în ianuarie 2025 că se retrage din colaborarea cu compania, deși afirmă în continuare că Meta ar trebui să câștige procesul. De partea cealaltă, un purtător de cuvânt al Meta a declarat că „folosința echitabilă a materialelor protejate este esențială pentru dezvoltarea AI” și că poziția reclamanților nu reflectă întreaga realitate.
Situația diferă însă între jurisdicții. În timp ce în SUA conceptul de fair use permite în anumite condiții utilizarea de opere protejate fără permisiune, legislația britanică este mult mai strictă. Avocatul Robert Lands, de la firma Howard Kennedy din Londra, avertizează că memorarea de cărți întregi nu ar putea fi justificată în Marea Britanie, unde excepțiile la copyright sunt limitate.
O întrebare-cheie: aveau dreptul să folosească aceste opere?
Avocatul Randy McCarthy, de la firma Hall Estill din Oklahoma, consideră că metoda folosită în studiu reprezintă un instrument valoros pentru identificarea cazurilor de memorare, dar nu oferă un răspuns clar la întrebarea juridică esențială: aveau sau nu companiile dreptul să folosească acele materiale pentru antrenarea modelelor AI?
În lipsa unui precedent judiciar clar, dezbaterea rămâne deschisă. Dar odată cu apariția unor dovezi concrete de memorare integrală, companiile din domeniul inteligenței artificiale ar putea fi nevoite să își regândească atât practicile de antrenare, cât și strategiile legale.