Modelul de inteligență artificială R1, dezvoltat de startup-ul chinez DeepSeek, a zguduit piețele financiare din SUA la lansarea sa în ianuarie. Acum, o analiză detaliată publicată în prestigioasa revistă Nature dezvăluie secretele din spatele acestui succes, un proces de antrenament inovator, care a costat doar 294.000 de dolari.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
R1 este specializat în sarcini de raționament, precum matematica și programarea. A devenit rapid cel mai popular model de tip „open weight”, adică disponibil gratuit pentru oricine, și a fost descărcat de peste 10,9 milioane de ori de pe platforma Hugging Face, subliniază Nature.
Costul redus, un avantaj major
Documentele atașate studiului arată că, deși costul total al modelului de bază DeepSeek a fost de aproximativ 6 milioane de dolari, suma pentru antrenamentul specific al modelului R1 a fost surprinzător de mică. Prin comparație, se estimează că modelele rivale de top, dezvoltate de companii americane, au costat zeci de milioane de dolari.
Modelele au fost antrenate pe cipuri Nvidia H800, a căror vânzare către China a fost ulterior interzisă prin controalele la export impuse de SUA.
O premieră în lumea AI: validare științifică
R1 este considerat a fi primul model de limbaj de anvergură care a trecut printr-un proces riguros de validare științifică. „Acesta este un precedent binevenit. Dacă nu există această normă de a împărți public o parte a procesului, este foarte greu să evaluăm dacă aceste sisteme prezintă riscuri sau nu“, a declarat Lewis Tunstall, inginer la Hugging Face și unul dintre recenzorii studiului.
În urma feedback-ului primit, echipa DeepSeek a adăugat detalii tehnice și a clarificat informații despre seturile de date folosite și măsurile de siguranță implementate.
Un algoritm care învață singur
Inovația majoră a modelului R1 constă în utilizarea unei abordări de tip „învățare prin consolidare pură” (reinforcement learning). În loc să învețe din exemple de raționament generate de oameni, modelul a fost premiat pentru că a ajuns la răspunsuri corecte, proces care l-a ajutat să-și dezvolte propriile strategii. Echipa DeepSeek a respins acuzațiile apărute în presă conform cărora modelul lor ar fi fost antrenat pe rezultate generate de modelele OpenAI.
Deși baza de date de antrenament nu a fost publicată, cercetătorii de la DeepSeek au declarat că modelul nu a copiat direct exemple de la OpenAI. Ei au recunoscut, însă, că modelul de bază a fost antrenat pe date de pe web, unde, inevitabil, a absorbit și conținut generat de alte sisteme AI.
„Cred că dovezile sunt acum destul de clare că poți obține performanțe foarte ridicate doar folosind învățarea prin consolidare pură“””, a afirmat Tunstall. Succesul modelului R1 a „pornit o revoluție” în rândul cercetătorilor, care încearcă acum să aplice metodele sale pentru a îmbunătăți capacitățile de raționament ale altor modele de inteligență artificială.