Un studiu cu implicații majore ridică noi semne de întrebare privind modul sunt antrenate modelele AI

Inteligenta artificiala
Sursa foto: – / Wavebreak / Profimedia

Un studiu realizat de cercetători de la Stanford University și Yale University aduce în discuție modul în care unele dintre cele mai avansate modele de inteligență artificială gestionează textele protejate prin drepturi de autor, cu posibile implicații pentru întreaga industrie, relatează Futurism.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Cercetarea vizează una dintre principalele afirmații ale companiilor din domeniu, potrivit căreia modelele lingvistice nu stochează datele folosite la antrenare, ci doar extrag tipare statistice din acestea. Această distincție a fost invocată constant în procesele privind drepturile de autor, inclusiv de companii precum OpenAI, Google, Meta și Anthropic.

Autorii studiului au testat patru modele majore – GPT-4.1, Gemini 2.5 Pro, Grok 3 și Claude 3.7 Sonnet – și au analizat capacitatea acestora de a reproduce pasaje din cărți protejate prin copyright. Potrivit rezultatelor, unele modele au fost capabile să redea fragmente extinse din opere cunoscute, cu un grad ridicat de fidelitate.

Claude 3.7 Sonnet ar fi reprodus pasaje aproape identice din mai multe volume, cu rate de acuratețe de peste 95%, în timp ce Gemini a generat porțiuni ample din „Harry Potter și Piatra Filozofală”. De asemenea, Claude a redat fragmente din romanul „1984” de George Orwell cu o fidelitate raportată de peste 94%.

Concluziile studiului ar putea avea impact asupra apărării juridice bazate pe principiul „fair use” în procesele aflate pe rol în Statele Unite. Potrivit unei analize publicate de The Atlantic, capacitatea modelelor de a reproduce conținut protejat ridică întrebări legate de posibilitatea ca acestea să păstreze, într-o formă sau alta, fragmente din datele de antrenament.

Specialiști în dreptul proprietății intelectuale avertizează că astfel de constatări ar putea expune companiile din domeniul AI la riscuri financiare semnificative, în cazul în care instanțele vor considera că are loc o reproducere neautorizată a conținutului protejat.

Totuși, studiul nu clarifică definitiv dacă textele sunt efectiv stocate de modele sau dacă reproducerea este rezultatul unui proces de generare dinamică. Companiile de inteligență artificială continuă să respingă ideea stocării directe a materialelor protejate și își mențin poziția juridică exprimată până în prezent.

  • Ștefan Munteanu este un jurnalist specializat în domenii variate precum tehnologie, inteligență artificială, securitate cibernetică și apărare. Articolele sale acoperă noutățile din industrie, analize și impactul tehnologiei asupra societății. El este pasionat de inovațiile digitale și are un interes puternic pentru cele mai recente evoluții geopolitice.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...