Sam Altman, CEO al OpenAI, a anunțat marți lansarea GPT-oss, o familie „deschisă” de modele lingvistice cu „valori, ponderi deschise” care, potrivit CEO-ului, pot funcționa local pe un „laptop de ultimă generație” și pe smartphone-uri, potrivit TechCrunch.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
OpenAI tocmai a lansat primele sale modele AI deschise după mai mult de cinci ani. Cele două modele lingvistice, gpt-oss-120b și gpt-oss-20b, pot rula local pe dispozitive de consum și pot fi ajustate pentru scopuri specifice.
Pentru OpenAI, acestea reprezintă o schimbare față de strategia sa recentă de a se concentra pe lansări proprietare, pe măsură ce compania se îndreaptă către un grup mai larg și mai deschis de modele AI disponibile pentru utilizatori. Ultimul model cu valori deschise lansat de OpenAI a fost GPT-2, în 2019. Noile modele sunt disponibile gratuit pentru descărcare de pe platforma online pentru dezvoltatori Hugging Face, a declarat compania, descriind modelele ca fiind „de ultimă generație” atunci când sunt evaluate pe baza mai multor repere de referință pentru compararea modelelor deschise.
De ce modele lingvistice deschise
Spre deosebire de modelele disponibile prin interfața web OpenAI, aceste noi modele deschise pot fi descărcate, rulate și chiar modificate gratuit pe laptopuri și alte dispozitive locale.
Modelele deschise au câteva cazuri de utilizare cheie. Unele organizații ar putea dori să personalizeze modelele pentru propriile scopuri sau să economisească bani rulând modelele pe propriile echipamente, deși aceste echipamente au un cost inițial substanțial. Altele, cum ar fi spitalele, firmele de avocatură și guvernele, ar putea avea nevoie de modele pe care le pot rula local din motive de securitate a datelor.
În cei mulți ani în care compania nu a lansat un LLM deschis, unii utilizatori au început să se refere la acesta cu termenul peiorativ „ClosedAI”. Acest sentiment de frustrare s-a intensificat în ultimele luni, deoarece aceste modele mult așteptate au fost amânate de două ori, prima dată în iunie și apoi în iulie. Cu lansarea lor, însă, OpenAI doreste să se reafirme ca o prezență importantă pentru utilizatorii de modele deschise.
Ceea ce diferențiază un model cu valori deschise, open-weight de unul proprietar este faptul că „ponderile” sale sunt disponibile public, ceea ce înseamnă că oricine poate arunca o privire asupra parametrilor interni pentru a-și face o idee despre modul în care acesta procesează informațiile. În loc să submineze modelele proprietare ale OpenAI cu o opțiune gratuită, cofondatorul Greg Brockman consideră această lansare ca fiind „complementară” serviciilor cu plată ale companiei, cum ar fi interfața de programare a aplicațiilor utilizată în prezent de mulți dezvoltatori.
„Modelele open-weight au un set de puncte forte foarte diferit”, a declarat Brockman într-o ședință cu reporterii. Spre deosebire de ChatGPT, puteți rula un model gpt-oss fără conexiune la internet și în spatele unui firewall. Ambele modele gpt-oss utilizează abordări de raționament în lanț, pe care OpenAI le-a implementat pentru prima dată în modelul său o1 în toamna anului trecut.
În loc să ofere doar un rezultat, această abordare utilizează instrumente de inteligență artificială – IA generative care parcurg mai mulți pași pentru a răspunde la o solicitare. Aceste noi modele oferă însă numai text, nu sunt multimodale, dar pot naviga pe web, apela modele bazate pe cloud pentru a ajuta la îndeplinirea sarcinilor, executa cod și naviga în software ca agent AI. Cel mai mic dintre cele două modele, gpt-oss-20b, este suficient de compact pentru a rula local pe un dispozitiv cu cel puțin 16 GB de memorie.
Cercetătorii care studiază modul în care funcționează LLM-urile au nevoie, de asemenea, de modele deschise, pentru a le putea examina și manipula în detaliu. „În parte, este vorba despre reafirmarea dominației OpenAI în ecosistemul de cercetare”, a afirmat Peter Henderson, profesor asistent la Universitatea Princeton, care a lucrat intens cu modele deschise. Dacă cercetătorii adoptă gpt-oss ca noi instrumente de lucru, OpenAI ar putea obține unele beneficii concrete, spune Henderson, ar putea adopta inovații descoperite de alți cercetători în propriul ecosistem de modele.
De când DeepSeek a explodat pe scena IA la începutul anului 2025, observatorii au remarcat că modelele chinezești refuză adesea să vorbească despre subiecte pe care Partidul Comunist Chinez le-a considerat interzise, cum ar fi Piața Tiananmen. Astfel de observații, precum și riscurile pe termen lung, cum ar fi posibilitatea ca modelele agentice să scrie în mod intenționat cod vulnerabil, au determinat unii experți în IA să fie îngrijorați de adoptarea tot mai largă a modelelor chinezești. „Modelele deschise sunt o formă de putere soft”, spune Henderson.
Compania a revenit la lansarea modelelor deschise
Într-o ședință informativă, OpenAI a declarat că modelele sale deschise vor fi capabile să trimită interogări complexe către modele AI din cloud. Asta înseamnă că, dacă modelul deschis al OpenAI nu este capabil să îndeplinească o anumită sarcină, cum ar fi procesarea unei imagini, dezvoltatorii pot conecta modelul deschis la unul dintre modelele proprietare, închise mai performante ale companiei.
Deși OpenAI a lansat modele de IA open source în primele sale zile, compania a favorizat în general o abordare de dezvoltare proprietară, cu sursă închisă. Această din urmă strategie a ajutat OpenAI să construiască o afacere mare, vânzând acces la modelele sale de IA prin intermediul unui API către companii și dezvoltatori.
Cu toate acestea, CEO-ul Sam Altman a declarat în ianuarie că el crede că OpenAI a fost „de partea greșită a istoriei” în ceea ce privește open sourcing-ul tehnologiilor sale. Compania se confruntă astăzi cu o presiune crescândă din partea laboratoarelor chineze de IA, printre care DeepSeek, Qwen de la Alibaba și Moonshot AI, care au dezvoltat câteva dintre cele mai performante și populare modele deschise din lume. (Deși Meta a dominat anterior spațiul IA deschis, modelele Llama AI ale companiei au rămas în urmă în ultimul an.)
Odată cu lansarea gpt-oss, OpenAI speră să câștige favorurile dezvoltatorilor care au urmărit ascensiunea laboratoarelor chineze de IA în spațiul open source.
„Revenind la momentul în care am început, în 2015, misiunea OpenAI este de a asigura AGI care să aducă beneficii întregii umanități”, a declarat Altman.
Performanța modelelor
OpenAI și-a propus să facă din modelul său deschis un lider printre alte modele AI cu greutate deschisă, iar compania susține că a reușit acest lucru.
Potrivit OpenAI la testul Codeforces (cu instrumente), un test competitiv de codare, gpt-oss-120b și gpt-oss-20b au obținut 2622 și, respectiv, 2516 puncte, depășind R1 de la DeepSeek, dar rămânând în urma o3 și o4-mini.

La Humanity’s Last Exam (HLE), un test cu întrebări crowdsourced pe o varietate de subiecte (cu instrumente), gpt-oss-120b și gpt-oss-20b au obținut 19% și, respectiv, 17,3%. În mod similar, acest rezultat este inferior celui obținut de o3, dar superior modelelor deschise de top de la DeepSeek și Qwen.
Încă nu sunt disponibile rezultate ale testărilor efectuate de evaluatori independenți.
Noile modele halucinează mai mult decât cele mai recente modele ale OpenAI
Este de remarcat faptul că modelele deschise ale OpenAI au halucinații semnificativ mai multe decât cele mai recente modele de raționament AI, o3 și o4-mini.
Halucinațiile au devenit mai severe în cele mai recente modele de raționament AI ale OpenAI, iar compania a declarat anterior că nu înțelege foarte bine de ce. Într-un document oficial, OpenAI afirmă că acest lucru este „de așteptat, deoarece modelele mai mici au mai puține cunoștințe despre lume decât modelele de frontieră mai mari și tind să aibă mai multe halucinații”.
OpenAI a constatat că gpt-oss-120b și gpt-oss-20b au avut halucinații în răspunsul la 49% și 53% din întrebările de pe PersonQA, benchmark-ul intern al companiei pentru măsurarea acurateței cunoștințelor unui model despre oameni. Aceasta este o rată de halucinații de peste trei ori mai mare decât cea a modelului o1 al OpenAI, care a obținut 16%, și mai mare decât cea a modelului o4-mini, care a obținut 36%.
Antrenarea noilor modele
OpenAI afirmă că modelele sale deschise au fost instruite cu procese similare celor ale modelelor sale proprietare. Compania afirmă că fiecare model deschis utilizează o combinație de experți (MoE) pentru a exploata mai puțini parametri pentru orice întrebare dată, ceea ce îl face să funcționeze mai eficient. Pentru gpt-oss-120b, care are 117 miliarde de parametri în total, OpenAI afirmă că modelul activează doar 5,1 miliarde de parametri per token.
Compania afirmă, de asemenea, că modelul său deschis a fost antrenat folosind învățarea prin întărire (reinforcement learning – RL), un proces post-antrenament pentru a învăța modelele de IA ce este corect și ce este greșit în medii simulate folosind clustere mari de GPU-uri Nvidia. Acesta a fost utilizat și pentru antrenarea modelelor din seria o a OpenAI, iar modelele deschise au un proces similar de lanț de gândire, chain of thought, un tip de raționament secvențial în care au nevoie de timp și resurse de calcul suplimentare pentru a elabora răspunsurile.
Ca rezultat al procesului post-antrenare, OpenAI afirmă că modelele sale deschise de IA excelează în motorizarea agenților IA și sunt capabile să apeleze la instrumente precum căutarea web sau executarea codului Python ca parte a procesului său de gândire.
OpenAI a lansat noile modele cu o licență permisivă
OpenAI lansează gpt-oss-120b și gpt-oss-20b sub licența Apache 2.0, care este considerată în general una dintre cele mai permisive. Această licență va permite întreprinderilor să monetizeze modelele deschise ale OpenAI fără a fi nevoie să plătească sau să obțină permisiunea companiei.
Cu toate acestea, spre deosebire de ofertele complet open source ale laboratoarelor de IA, cum ar fi AI2, OpenAI afirmă că nu va lansa datele de antrenare utilizate pentru a crea modelele sale deschise. Această decizie nu este surprinzătoare, având în vedere că mai multe procese active împotriva furnizorilor de modele de IA, inclusiv OpenAI, au susținut că aceste companii și-au antrenat în mod necorespunzător modelele de IA pe opere protejate prin drepturi de autor.
Compania a amânat lansarea pentru a răspunde preocupărilor legate de siguranță
OpenAI a amânat de mai multe ori lansarea modelelor sale deschise în ultimele luni, parțial pentru a răspunde preocupărilor legate de siguranță. Dincolo de politicile de siguranță obișnuite ale companiei, OpenAI afirmă într-un document oficial că a investigat și posibilitatea ca persoane rău intenționate să poată ajusta modelele sale gpt-oss pentru a le face mai utile în atacuri cibernetice sau în crearea de arme biologice sau chimice.
După testarea efectuată de OpenAI și de evaluatori independenți, compania afirmă că gpt-oss poate crește marginal capacitățile de dezvolta de arme biologice. Cu toate acestea, nu a găsit dovezi că aceste modele deschise ar putea atinge pragul de „capacitate ridicată” pentru pericol în aceste domenii, chiar și după ajustare.
Deși blogul de lansare al gpt-oss nu menționează direct DeepSeek sau orice altă companie chineză de IA, Altman este clar că dorește ca inovarea în domeniul modelelor cu valori, ponderi deschise să aibă loc în Statele Unite.
În SUA, liderul în domeniul modelelor open-weight a fost Meta. Gigantul tehnologic a lansat primul model din seria Llama în 2023, iar cel mai recent model, Llama 4, a fost lansat acum câteva luni. Având în vedere acest lucru, Meta se concentrează în prezent pe crearea unei IA care să depășească cogniția umană, adesea numită superinteligență de către specialiștii în IA. Compania a lansat recent un nou laborator intern axat pe acest obiectiv, condus de Alexandr Wang, fostul CEO al Scale. Mark Zuckerberg a semnalat că compania ar putea renunța la open-source pentru modelele viitoare, invocând potențiale probleme de siguranță.
În timp ce modelul OpenAI pare să fie de ultimă generație printre modelele deschise, dezvoltatorii așteaptă cu nerăbdare lansarea DeepSeek R2, următorul model de raționament AI, precum și un nou model deschis de la Superintelligence Lab al Meta.