Startup-ul chinezesc de inteligență artificială (AI) DeepSeek a dezvăluit o nouă metodă de raționament, în anticiparea lansării modelului său de nouă generație. Potrivit rapoartelor, compania tocmai a introdus o abordare nouă care va ajuta capabilitățile de raționament ale modelelor mari de limbaj (LLM), în timp ce publicul așteaptă lansarea noului său model anunță SCMP si Cryptopolitan.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
Potrivit rapoartelor, o lucrare publicată recent pe resursa de lucrări științifice online arXhiv, a dezvăluit că performanța a fost realizată printr-o colaborare între cercetătorii de la Universitatea Tsinghua și startup-ul AI. Potrivit lucrării, DeepSeek a reușit să dezvolte o tehnică care combină metode denumite modelare a recompenselor generative (GRM- generative reward modeling) și reglarea auto-principială. Abordarea duală va permite LLM-urilor să ofere rezultate mai bune și mai rapide la întrebările generale.
Potrivit cercetătorilor, modelele DeepSeek-GRM rezultate au reușit să depășească metodele existente, obținând o performanță competitivă cu marile modele publice bazate pe recompensă. Modelarea recompensei este un proces care ajută un LLM să determine preferințele umane. Cercetătorii au menționat că startup-ul AI intenționează să facă modelele GRM open source, dar compania încă nu a oferit un calendar pentru dezvoltare.
Lucrarea de cercetare academică publicată vine după speculații cu privire la potențiala următoare mișcare a startup-ului, după ce s-a bucurat de atenția globală pe care a obținut-o din modelul său de fundație DeepSeek V3 și modelul său de raționament R1. La acea vreme, modelul R1, care a fost lansat la începutul acestui an, a câștigat importanță după ce s-a descoperit că a avut performanțe mai bune decât unele modele mai vechi, inclusiv primul model ChatGPT al OpenAI.
Lansarea modelului R1 a surprins Silicon Valley, având în vedere faptul că modelul era open source și a fost construit cu o fracțiune din costurile folosite în alte modele AI. În timp ce atenția pare să scadă, s-au înregistrat progrese remarcabile în rândul firmelor rivale din industria AI, arătând că rivalitatea din sector este una la nivel foarte ridicat.
Cu toate acestea, un raport Reuters de luna trecută a menționat că DeepSeek-2, succesorul celebrului R1, ar putea fi în lucru. Potrivit raportului, compania ar putea să-l lanseze spre sfârșitul acestei luni, deoarece caută să-și valorifice profilul în creștere în industria AI. DeepSeek, pe de altă parte, a rămas tăcut cu privire la modelul R2, păstrând tăcerea pe canalele publice oficiale.
Dezvoltarea pe modelul V3 continuă
DeepSeek, cu sediul în Hangzhou, a fost fondată în 2023 de către antreprenorul Liang Wenfeng și a fost în centrul atenției la nivel mondial datorită rezultatelor modelelor AI proprii. Cu toate acestea, compania a refuzat să facă comunicări publice, hotărând să-și concentreze tot timpul și energia pe cercetare și dezvoltare. Deși rămâne de văzut ce are compania pregătit pentru industria AI, cu siguranță are ceva potrivit zvonurilor.
Luna trecută, compania a anunțat o dezvoltare la care lucrează, arătând lumii modelul său V3 actualizat, numit DeepSeek-V3-0324. Potrivit companiei, modelul modernizat a oferit „capacități de raționament îmbunătățite, dezvoltare web optimizată pentru front-end și competențe de scriere în limba chineză îmbunătățite”. În Februarie, compania a publicat cinci dintre depozitele sale de cod in regim open-source, permițând dezvoltatorilor să revizuiască și să contribuie la dezvoltarea sa de software. Startup-ul a menționat că va face „progres sincer, cu transparență deplină”.
Open source este un termen care inițial se referea la software cu sursă deschisă (OSS). Software-ul open source este un cod conceput pentru a fi accesibil publicului – oricine poate vedea, modifica și distribui codul după cum crede de cuviință.
În aceeași lună, Liang a publicat un studiu tehnic privind atenția nativă dispersată, o metodă folosită pentru a îmbunătăți eficiența LLM-urilor în procesarea unor cantități mari de date. Liang, în vârstă de 40 de ani, este, de asemenea, fondatorul firmei-mamă a DeepSeek, High-Flyer Quant, fondul speculativ care a oferit talentul financiar pentru a finanța progresele tehnice ale startup-ului AI. La sfârșitul lunii februarie, antreprenorul a făcut parte dintr-un simpozion care a reunit antreprenori din tehnologie, găzduit de președintele chinez Xi Jinping. Președintele a salutat startup-ul ca un semn al rezistenței țării în fața mișcărilor Statelor Unite de a limita progresul Chinei în domeniul inteligenței artificiale.