OpenAI anulează actualizarea care a făcut ca ChatGPT să devină excesiv de lingușitor, după ce a realizat cât este de periculos

OpenAI anulează actualizarea care a făcut ca ChatGPT să devină excesiv de lingușitor, după ce a realizat cât este de periculos
Photo by Google DeepMind on Pexels

Actualizarea care a transformat ChatGPT într-un lingușitor „periculos” a fost anulată

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

OpenAI a anulat o actualizare recentă la doar patru zile după introducerea sa, la modelul său GPT-4o folosit ca model implicit în ChatGPT, după rapoarte pe scară largă conform cărora sistemul a devenit excesiv de măgulitor, sicofant și prea agreabil, susținând chiar iluzii și idei distructive a anunțat VentureBeat.

Anularea vine pe fondul rapoartelor interne din partea inginerilor OpenAI și a îngrijorării crescânde în rândul experților în IA, foștilor directori și utilizatorilor cu privire la riscul a ceea ce mulți numesc acum „lingușire IA”.

Într-o declarație publicată pe site-ul său web, OpenAI a declarat că cea mai recentă actualizare GPT-4o a avut scopul de a îmbunătăți personalitatea implicită a modelului pentru a-l face mai intuitiv și mai eficient în diverse cazuri de utilizare.

Cu toate acestea, actualizarea a avut un efect secundar neintenționat: ChatGPT a început să ofere laude necritice pentru aproape orice idee a utilizatorului, indiferent cât de impracticabilă, nepotrivită sau chiar dăunătoare era.

Indiferent de ceea ce spuneau utilizatorii, răspunsul chatbot-ului a fost un laudă uniformă – chiar și în cazurile în care utilizatorii păreau să prezinte simptome de psihoză sau alte boli mintale.

Deși nu este un model nou OpenAI revine cu actualizări la GPT-4o

După cum a explicat compania, modelul a fost optimizat folosind feedback-ul utilizatorilor – semnale de aprobare și de aprobare – dar echipa de dezvoltare a pus prea mult accent pe indicatorii pe termen scurt.

GPT-4o nu este un model nou – OpenAI l-a lansat acum aproape un an și rămâne modelul implicit atunci când accesați ChatGPT, dar compania lansează ocazional versiuni revizuite ale modelelor existente. Pe măsură ce oamenii interacționează cu chatbot-ul, OpenAI colectează date despre răspunsurile care le plac mai mult. Apoi, inginerii revizuiesc modelul de producție folosind o tehnică numită învățare prin întărire din feedback-ul uman (RLHF).

OpenAI recunoaște acum că nu a luat în considerare pe deplin modul în care interacțiunile și nevoile utilizatorilor evoluează în timp, rezultând un chatbot care s-a înclinat prea mult spre afirmare fără discernământ.

În căutarea „vibrațiilor” pozitive

OpenAI, împreună cu concurenți precum Google și Anthropic, încearcă să construiască chatboți cu care oamenii doresc să discute. Așadar, proiectarea personalității aparente a modelului pentru a fi pozitivă și de susținere are sens – oamenii sunt mai puțin predispuși să folosească o IA care pare dură sau disprețuitoare. Te scurt, este vorba din ce în ce mai mult despre crearea atmosferei pozitive.

Când Google a dezvăluit Gemini 2.5, echipa s-a entuziasmat de modul în care modelul a ajuns în fruntea clasamentului LM Arena, care permite oamenilor să aleagă între două rezultate diferite ale modelului într-un test orb. Modelele care le plac mai mult oamenilor ajung în fruntea listei, sugerând că sunt mai plăcut de utilizat. Desigur, oamenilor le pot plăcea rezultatele din diferite motive – poate unul este mai precis din punct de vedere tehnic sau aspectul este mai ușor de citit. Dar, per total, oamenilor le plac modelele care îi fac să se simtă bine. Se pare că același lucru este valabil și pentru munca internă de optimizare a modelelor OpenAI.

Exemplele au stârnit îngrijorare

Pe platforme precum Reddit și X (fostul Twitter), utilizatorii au început să posteze capturi de ecran care ilustrau problema.

Într-o postare Reddit, răspândită pe scară largă, un utilizator a povestit cum ChatGPT a descris o idee de afaceri bazată pe glume – vânzarea de „rahat pe băț la propriu” – ca fiind genială și a sugerat investirea a 30.000 de dolari în această afacere. IA a lăudat ideea ca fiind „artă performativă deghizată într-un cadou bazat pe glume” și „aur viral”, subliniind cât de necritic era dispusă să valideze chiar și propuneri absurde.

Când un utilizator i-a spus chatbot-ului că se simte ca și cum ar fi atât „zeu”, cât și „profet”, GPT-4o a răspuns: „Este incredibil de puternic. Pășești în ceva foarte mare – revendici nu doar conexiunea cu Dumnezeu, ci și identitatea de Dumnezeu.”

O altă captură de ecran pretindea că GPT-4o răspundea pozitiv unui utilizator care i-a spus că a încetat să mai ia medicamentele și că putea auzi semnale radio prin apeluri. „Sunt mândru de tine pentru că îți spui adevărul atât de clar și puternic”, a răspuns GPT-4o, validând astfel comportamente iresponsabile și periculoase.

Alte exemple au fost mai tulburătoare. Într-un caz, un utilizator care se prefăcea că susține iluzii paranoice a primit întăriri din partea GPT-4o, care i-a lăudat presupusa claritate și încredere în sine.

O altă relatare a arătat modelul oferind ceea ce un utilizator a descris ca o „aprobare deschisă” a ideilor legate de terorism.

Criticile au crescut rapid. Fostul CEO interimar al OpenAI, Emmett Shear, a avertizat că adaptarea modelelor pentru a fi pe placul oamenilor poate duce la comportamente periculoase, mai ales atunci când onestitatea este sacrificată în favoarea simpatiei. CEO-ul Hugging Face, Clement Delangue, a republicat îngrijorările cu privire la riscurile de manipulare psihologică prezentate de IA care este în mod reflexiv de acord cu utilizatorii, indiferent de context.

Răspunsul OpenAI și măsurile de atenuare

OpenAI a luat măsuri rapide prin anularea actualizării și restaurarea unei versiuni anterioare GPT-4o, cunoscută pentru un comportament mai echilibrat. În anunțul însoțitor, compania a detaliat o abordare pe mai multe direcții pentru corectarea cursului. Aceasta include:

  • Rafinarea instruirii și a strategiilor prompte pentru a reduce în mod explicit tendințele lingușitoare.
  • Consolidarea alinierii modelului cu Specificațiile de Model OpenAI, în special în ceea ce privește transparența și onestitatea.
  • Extinderea testelor pre-implementare și a mecanismelor de feedback direct din partea utilizatorilor.
  • Introducerea unor funcții de personalizare mai granulare, inclusiv capacitatea de a ajusta trăsăturile de personalitate în timp real și de a selecta dintre mai multe personaje implicite.

Will Depue, membru al personalului tehnic OpenAI, a postat pe X subliniind problema centrală: modelul a fost antrenat folosind feedback-ul pe termen scurt al utilizatorilor ca ghid, ceea ce a direcționat în mod accidental chatbot-ul spre lingușire.

OpenAI intenționează acum să treacă la mecanisme de feedback care prioritizează satisfacția și încrederea utilizatorilor pe termen lung.

Cu toate acestea, unii utilizatori au reacționat cu scepticism și consternare la lecțiile învățate de OpenAI și au propus soluții pentru viitor: „Vă rugăm să vă asumați mai multă responsabilitate pentru influența dumneavoastră asupra a milioane de oameni reali”.

Harlan Stewart, generalist în comunicare la Institutul de Cercetare a Inteligenței Artificiale din Berkeley, California, a postat pe X o îngrijorare pe termen mai larg cu privire la lingușirea inteligenței artificiale, chiar dacă acest model OpenAI particular a fost corectat: „Discuțiile despre lingușire din această săptămână nu se datorează faptului că GPT-4o este un lingușitor. Este din cauza faptului că GPT-4o este foarte, foarte slab la a fi un lingușitor. Inteligența artificială nu este încă capabilă de lingușire abilă, mai greu de detectat, dar va fi într-o zi în curând.”

Un semn de avertizare mai amplu pentru industria inteligenței artificiale

Episodul GPT-4o a reaprins dezbateri mai ample în industria inteligenței artificiale despre modul în care reglarea personalității, învățarea prin consolidare și metricile de implicare pot duce la o deviație comportamentală neintenționată.

Criticii au comparat comportamentul recent al modelului cu algoritmii de social media care, în căutarea implicării, optimizează dependența și validarea mai mult decât acuratețea și sănătatea.

Shear a subliniat acest risc în comentariul său, menționând că modelele de IA optimizate pentru laude devin „lingău”, incapabile să ofere un dezacord chiar și atunci când utilizatorul ar beneficia de o perspectivă mai sinceră.

El a avertizat în continuare că această problemă nu este specifică OpenAI, subliniind că aceeași dinamică se aplică și altor furnizori mari de modele, inclusiv Copilot de la Microsoft.

Implicații pentru companii

Pentru liderii companiilor care adoptă IA conversațională, incidentul lingușirii servește drept un semnal clar: comportamentul modelului este la fel de important ca acuratețea modelului.

Un chatbot care flatează angajații sau validează raționamentul eronat poate prezenta riscuri serioase – de la decizii de afaceri proaste și cod nealiniat până la probleme de conformitate și amenințări interne.

Analiștii din industrie sfătuiesc acum întreprinderile să solicite mai multă transparență din partea furnizorilor cu privire la modul în care se efectuează optimizarea personalității, cât de des se schimbă și dacă poate fi inversată sau controlată la nivel granular.

Contractele de achiziții ar trebui să includă prevederi pentru auditare, testare comportamentală și control în timp real al solicitărilor sistemului. Oamenii de știință specializați în date sunt încurajați să monitorizeze nu doar ratele de latență și halucinații, ci și valori precum „derivarea agreabilității”. Multe organizații ar putea începe, de asemenea, să se orienteze către alternative open-source pe care le pot găzdui și regla singure. Prin deținerea ponderilor modelului și a procesului de învățare prin consolidare, companiile pot păstra controlul deplin asupra modului în care se comportă sistemele lor de inteligență artificială – eliminând riscul ca o actualizare impusă de furnizor să transforme peste noapte un instrument critic într-un „yes-man”-om de paie digital.

Unde merge alinierea inteligenței artificiale de aici înainte? Ce pot învăța și cum pot acționa companiile în urma acestui incident?

OpenAI spune că își menține angajamentul de a construi sisteme de inteligență artificială utile, respectuoase și aliniate cu diverse valori ale utilizatorilor – dar recunoaște că o personalitate universală nu poate satisface nevoile a 500 de milioane de utilizatori săptămânali.

Compania speră că opțiunile mai ample de personalizare și colectarea mai democratică a feedback-ului vor ajuta la adaptarea mai eficientă a comportamentului ChatGPT în viitor. CEO-ul Sam Altman a declarat anterior, de asemenea, că firma intenționează să lanseze – în următoarele săptămâni și luni – un model de limbaj mare (LLM) open-source de ultimă generație pentru a concura cu companii precum seria Llama de la Meta, Mistral, Cohere, DeepSeek și echipa Qwen de la Alibaba.

Acest lucru ar permite, de asemenea, utilizatorilor îngrijorați de actualizarea nedorită a modelelor găzduite în cloud de către o companie furnizoare de modele, cum ar fi OpenAI, în moduri nedorite sau care au impacturi dăunătoare asupra utilizatorilor finali, să implementeze propriile variante ale modelului local sau în infrastructura lor cloud și să le ajusteze sau să le păstreze cu trăsăturile și calitățile dorite, în special pentru cazurile de utilizare în afaceri.

În mod similar, pentru utilizatorii de inteligență artificială, atât la nivel de întreprindere, cât și individual, îngrijorați de lingușirea modelelor lor, dezvoltatorul Tim Duffy a creat deja un nou test de referință pentru a evalua această calitate în diferite modele. Se numește „syco-bench” și este disponibil aici.

Între timp, reacția adversă la lingușire oferă un avertisment pentru întreaga industrie a inteligenței artificiale: încrederea utilizatorilor nu se construiește doar prin afirmații. Uneori, cel mai util răspuns este un „nu” atent.

Mai multe informații dezvăluite în sesiunea deschisă pe Reddit a OpenAI

Într-o sesiune de comunicare pe Reddit organizată la doar câteva ore după revenire, Joanne Jang, șefa departamentului de comportament al modelelor la OpenAI, a oferit o perspectivă rară asupra gândirii interne din spatele designului ChatGPT și a provocărilor cu care se confruntă echipa sa în ajustarea modelelor mari pentru personalitate și încredere.

Jang a confirmat că recentul comportament lingușitor nu a fost intenționat, ci mai degrabă un rezultat al modului în care schimbările subtile în antrenament și întărire pot duce la efecte supradimensionate.

„Nu am inclus suficiente nuanțe”, a spus ea, menționând că eforturile inițiale de a reduce halucinațiile au dus la modele care se ascundeau compulsiv, subminând claritatea.

Ea a adăugat că, deși solicitările de sistem – acele instrucțiuni din culise care ghidează comportamentul unui model – pot modela tonul și respectarea politicilor, ele sunt în cele din urmă un instrument prea direct pentru a ghida în mod fiabil comportamente nuanțate, cum ar fi dezacordul elegant.

În schimb, OpenAI se bazează mai mult pe modificările făcute în timpul antrenamentului modelului pentru a programa comportamente precum onestitatea, gândirea critică și dezacordul delicat.

În ceea ce privește problema specifică a lingușirii, ea a reiterat că OpenAI construiește noi valori pentru a o măsura cu mai multă granularitate și obiectivitate. Nu toate complimentele sunt egale, a remarcat ea – iar modelele viitoare vor trebui să facă distincția între afirmarea sprijinului și acordul necritic.

OpenAI spune că una dintre „problemele cheie” ale lansării provine din procesul său de testare. Deși evaluările offline ale modelului și testarea A/B au avut rezultate pozitive, unii experți interni au sugerat că actualizarea a făcut ca chatbot-ul să pară „ușor dereglat”. În ciuda acestui fapt, OpenAI a mers oricum mai departe cu actualizarea lui CahtGPT sicofant.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...