DeepSeek, un startup chinez din domeniul inteligenței artificiale, colaborează cu Universitatea Tsinghua din Beijing pentru a crea modele AI mai eficiente, care necesită mai puține resurse pentru antrenare, transmite Bloomberg.
Scopul inițiativei este reducerea costurilor operaționale și creșterea performanței fără a depinde de putere de calcul excesivă.
În cadrul acestei colaborări, cercetătorii au dezvoltat o nouă metodă de antrenare bazată pe recompensarea comportamentului dorit al modelului, astfel încât acesta să învețe să ofere răspunsuri mai clare și mai apropiate de așteptările umane.
Metoda se numește „self-principled critique tuning” și presupune ca modelul să își evalueze propriile răspunsuri și să se corecteze în funcție de anumite principii predefinite.
Această abordare a fost testată pe mai multe benchmarkuri standard și a obținut rezultate mai bune decât metodele existente, folosind în același timp mai puține resurse de procesare.
Noul sistem de antrenare a stat la baza dezvoltării modelelor DeepSeek-GRM, unde „GRM” vine de la generalist reward modeling – modelare generalistă a recompenselor.
Aceste modele vor fi puse la dispoziția publicului în regim open source, ceea ce înseamnă că vor putea fi preluate și utilizate liber de alte organizații sau dezvoltatori.
Modelele DeepSeek-GRM se bazează pe arhitectura Mixture of Experts (MoE), o tehnologie care permite distribuirea sarcinilor între mai multe rețele neurale specializate, activând doar o parte dintre ele la fiecare solicitare.
Astfel, se reduce consumul de energie și se îmbunătățește eficiența fără a sacrifica performanța.
Recent, Meta (compania-mamă a Facebook) a anunțat lansarea noii generații de modele AI, Llama 4, care adoptă la rândul ei arhitectura MoE. Meta a comparat performanțele acestui nou model cu cele ale DeepSeek, semn că startup-ul din Hangzhou devine un punct de referință în industrie.
Alte companii mari din domeniu, precum Alibaba și OpenAI, explorează la rândul lor soluții prin care modelele de inteligență artificială să se poată îmbunătăți singure în timpul rulării, adaptându-se la cerințele utilizatorilor în timp real.