Microsoft a lansat un proiect de cercetare pentru a estima influența anumitor exemple de antrenament asupra conținutului generat de modelele AI, inclusiv text, imagini și alte tipuri de media, conform techcrunch.com
Informația provine dintr-un anunț de angajare publicat în decembrie și recirculat recent pe LinkedIn.
Conform anunțului, proiectul urmărește să demonstreze că modelele pot fi antrenate astfel încât impactul unor date specifice – precum fotografii și cărți – asupra rezultatelor lor să poată fi estimat eficient. Cercetarea, denumită „training-time provenance”, are ca scop creșterea transparenței modelelor AI, oferind recunoaștere și, posibil, compensații pentru creatorii de conținut ale căror date sunt utilizate în antrenarea acestora.
Această inițiativă vine pe fondul unor procese în curs împotriva Microsoft și a altor companii AI, acuzate de utilizarea ilegală a conținutului protejat de drepturi de autor.
De exemplu, The New York Times a dat în judecată Microsoft și OpenAI în decembrie 2023, susținând că modelele acestora au fost antrenate pe milioane de articole publicate de Times. De asemenea, mai mulți dezvoltatori de software au intentat procese împotriva Microsoft, afirmând că GitHub Copilot a fost antrenat fără permisiunea lor.
Jaron Lanier, cercetător Microsoft și susținător al conceptului de „demnitate a datelor”, este implicat în acest proiect. Lanier a propus un sistem în care creatorii de conținut să fie recunoscuți și compensați pentru contribuțiile lor esențiale în generarea conținutului AI.
În prezent, câteva companii, precum Bria sau Adobe, oferă unele forme de compensare, însă metodele lor sunt adesea opace.
Deși proiectul Microsoft ar putea rămâne doar un experiment, el marchează o diferență față de abordarea unor companii precum OpenAI și Google, care pledează pentru relaxarea normelor de copyright în favoarea dezvoltării AI. Rămâne de văzut dacă această inițiativă va avea un impact real asupra industriei.