Modelele de raționament nou lansate ale OpenAI halucinează de două ori mai mult, iar creatorii nu au nicio idee de ce

Modelele de raționament nou lansate ale OpenAI halucinează de două ori mai mult, iar creatorii nu au nicio idee de ce
Photo by Zac Wolff on Unsplash

Modelele de inteligență artificială o3 și o4-mini lansate recent de OpenAI sunt predispuse la halucinații, mai des decât modelele de raționament anterioare ale companiei, relatează TechCrunch.

Creatorii ChatGPT au lansat modelele miercuri (16 aprilie), modele care sunt concepute pentru a se opri și a parcurge întrebările înainte de a răspunde.

Cu toate acestea, conform testelor interne ale OpenAI, cele două modele noi halucinează sau inventează lucruri mult mai frecvent decât chiar și modelele fără raționament, cum ar fi GPT-4o. Compania nu are nicio idee de ce se întâmplă acest lucru.

Halucinațiile s-au dovedit a fi una dintre cele mai mari și mai dificil de rezolvat probleme în domeniul inteligenței artificiale, afectând chiar și cele mai performante sisteme de astăzi. Din punct de vedere istoric, fiecare model nou s-a îmbunătățit ușor în ceea ce privește halucinațiile, halucinând mai puțin decât predecesorul său. Dar acesta nu pare a fi cazul pentru o3 și o4-mini.

Modelele de raționament se doreau a fi mai exacte în răspunsuri

Modelele de raționament ale OpenAI sunt prezentate ca fiind mai precise decât modelele sale fără raționament, cum ar fi GPT-4o și GPT-4.5, deoarece utilizează mai multe calcule pentru a „petrece mai mult timp gândindu-se înainte de a răspunde”, așa cum este descris în anunțul o1. În loc să se bazeze în mare măsură pe metode stocastice pentru a oferi un răspuns, modelele din seria „o” sunt antrenate să „își rafineze procesul de gândire, să încerce diferite strategii și să-și recunoască greșelile”.

Cu toate acestea, fișa de sistem pentru GPT-4.5, lansată în februarie, arată o rată de halucinații de 19% în evaluarea PersonQA. Aceeași fișă o compară și cu GPT-4o, care a avut o rată de halucinații de 30%.

Poate mai îngrijorător este faptul că producătorul ChatGPT nu știe cu adevărat de ce se întâmplă acest lucru. Într-un raport tehnic, OpenAI a declarat că „sunt necesare mai multe cercetări” pentru a înțelege de ce halucinațiile se agravează pe măsură ce extinde modelele de raționament.

„Ipoteza noastră este că tipul de învățare prin consolidare utilizat pentru modelele din seria o ar putea amplifica probleme care sunt de obicei atenuate (dar nu complet șterse) de către procesele standard de post-antrenament”, a declarat un fost angajat OpenAI, citat de publicație.

Ultimele modele cu raționament halucinează mai mult decât predecesoarele lor

În raportul său tehnic pentru o3 și o4-mini, OpenAI scrie că „sunt necesare mai multe cercetări” pentru a înțelege de ce halucinațiile se agravează pe măsură ce scalează modelele de raționament. O3 și o4-mini au performanțe mai bune în anumite domenii, inclusiv în sarcini legate de codare și matematică. Dar, deoarece „fac mai multe afirmații în general”, sunt adesea determinate să facă „afirmații mai precise, precum și afirmații mai inexacte/halucinate”, conform raportului.

OpenAI a descoperit că o3 a halucinat ca răspuns la 33% din întrebările de pe PersonQA, criteriul de referință intern al companiei pentru măsurarea acurateței cunoștințelor unui model despre oameni. Aceasta este aproximativ dublul ratei de halucinații a modelelor de raționament anterioare ale OpenAI, o1 și o3-mini, care au obținut scoruri de 16%, respectiv 14,8%. O4-mini a avut rezultate și mai slabe la PersonQA — având halucinații în 48% din cazuri, adică aproximativ jumătate din răspunsuri.

Testele efectuate de terți confirmă problemele

Testele realizate de Transluce, un laborator non-profit de cercetare în domeniul inteligenței artificiale, au descoperit, de asemenea, dovezi că o3 are tendința de a inventa acțiunile întreprinse în procesul de obținere a răspunsurilor. Într-un exemplu, Transluce a observat că o3 a susținut că a rulat cod pe un MacBook Pro din 2021 „în afara ChatGPT”, apoi a copiat numerele în răspunsul său. Deși o3 are acces la unele instrumente, nu poate face acest lucru.

Sarah Schwettmann, co-fondatoare a Transluce, a adăugat că rata de halucinații a lui o3 îl poate face mai puțin util decât ar fi altfel.

Kian Katanforoosh, profesor adjunct la Stanford și CEO al startup-ului de dezvoltare profesională Workera, a declarat pentru TechCrunch că echipa sa testează deja o3 în fluxurile lor de lucru de codare și că au constatat că este cu un pas peste concurență. Cu toate acestea, Katanforoosh spune că o3 are tendința de a halucina link-uri web eronate. Modelul va furniza un link care, atunci când este accesat, nu funcționează.

Halucinațiile pot ajuta modelele să ajungă la idei interesante și să fie creative în „gândirea” lor, dar fac, de asemenea, ca unele modele să fie dificil de vândut pentru companiile de pe piețele în care acuratețea este primordială. De exemplu, o firmă de avocatură probabil nu ar fi mulțumită de un model care introduce o mulțime de erori factuale în contractele clienților.

O soluție ar putea fi căutarea web

O abordare promițătoare pentru creșterea acurateței modelelor este oferirea acestora de capacități de căutare web. GPT-4o de la OpenAI cu căutare web atinge o acuratețe de 90% pe SimpleQA, un alt criteriu de referință al preciziei OpenAI. Potențial, căutarea ar putea îmbunătăți și ratele de halucinații ale modelelor de raționament – cel puțin în cazurile în care utilizatorii sunt dispuși să expună solicitări unui furnizor de căutare terț.

Dacă extinderea modelelor de raționament continuă într-adevăr să agraveze halucinațiile, căutarea unei soluții va fi cu atât mai urgentă.

„Abordarea halucinațiilor în toate modelele noastre este un domeniu de cercetare în curs de desfășurare și lucrăm continuu pentru a îmbunătăți acuratețea și fiabilitatea acestora”, a declarat purtătorul de cuvânt al OpenAI, Niko Felix, într-un e-mail către TechCrunch.

În ultimul an, industria inteligenței artificiale (IA) în sens larg s-a concentrat pe modelele de raționament, după ce tehnicile de îmbunătățire a modelelor tradiționale de IA au început să dea rezultate din ce în ce mai mici. Raționamentul îmbunătățește performanța modelului într-o varietate de sarcini fără a necesita cantități masive de calcul și date în timpul antrenamentului. Cu toate acestea, se pare că raționamentul poate duce și la mai multe halucinații, ceea ce reprezintă o provocare.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...