Dezvoltatorul chinez de IA DeepSeek a declarat că a cheltuit 294.000 de dolari pentru antrenarea modelului său R1, o sumă mult mai mică decât cifrele raportate de rivalii americani, un anunț care probabil va reaprinde dezbaterea privind locul Beijingului în cursa pentru dezvoltarea inteligenței artificiale, scrie Reuters.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
Precizarea din partea companiei cu sediul în Hangzhou – prima estimare pe care a publicat-o cu privire la costurile de antrenare ale modelului R1 – a apărut într-un articol revizuit în revista academică Nature.
Lansarea de către DeepSeek a ceea ce a descris ca fiind sisteme AI cu costuri mai mici în ianuarie a determinat investitorii globali să vândă acțiunile din domeniul tehnologic, deoarece se temeau că noile modele ar putea amenința dominația liderilor AI, inclusiv Nvidia.
De atunci, compania și fondatorul Liang Wenfeng au dispărut în mare parte din ochii publicului, cu excepția lansării câtorva actualizări de produse noi.
Articolul din Nature, care îl menționa pe Liang ca unul dintre coautori, afirma că modelul R1 al DeepSeek, axat pe raționament, a costat 294.000 de dolari pentru antrenare și a utilizat 512 cipuri Nvidia H800. O versiune anterioară a articolului publicat în ianuarie nu conținea aceste informații.
Costurile de antrenare pentru modelele lingvistice de mari dimensiuni care alimentează chatboții AI se referă la cheltuielile ocazionate de rulare a unui cluster de cipuri puternice timp de săptămâni sau luni pentru a procesa cantități uriașe de text și cod.
Sam Altman, CEO al gigantului american OpenAI, a declarat în 2023 că antrenarea modelelor fundamentale a costat „mult mai mult” de 100 de milioane de dolari, deși compania sa nu a furnizat cifre detaliate pentru niciuna dintre lansările sale.
Unele dintre dezvăluirile DeepSeek cu privire la costurile de dezvoltare și tehnologia utilizată au fost puse sub semnul întrebării de către companii și oficiali americani.
Cipurile H800 menționate au fost proiectate de Nvidia pentru piața chineză după ce, în octombrie 2022, SUA au interzis companiei să exporte cipurile AI H100 și A100, mai puternice, în China.
Oficialii americani au declarat pentru Reuters în iunie că DeepSeek are acces la „volume mari” de cipuri H100 care au fost achiziționate după implementarea controalelor americane asupra exporturilor. Nvidia a declarat pentru Reuters la momentul respectiv că DeepSeek a utilizat cipuri H800 achiziționate legal, nu H100.
Într-un document informativ suplimentar care însoțește articolul din Nature, compania a recunoscut pentru prima dată că deține cipuri A100 și a declarat că le-a utilizat în etapele pregătitoare ale dezvoltării.
„În ceea ce privește cercetarea noastră privind DeepSeek-R1, am utilizat GPU-urile A100 pentru a pregăti experimentele cu un model mai mic”, au scris cercetătorii. După această fază inițială, R1 a fost antrenat timp de 80 de ore pe clusterul de 512 cipuri H800, au adăugat ei.
Unul dintre motivele pentru care DeepSeek a reușit să atragă cele mai strălucite minți din China a fost faptul că era una dintre puținele companii autohtone care opera un cluster de supercalculatoare A100.