OpenAI și Anthropic, două dintre cele mai importante laboratoare de inteligență artificială din lume, au realizat recent o colaborare rară, permițându-și acces reciproc la modelele proprii pentru testări de siguranță. Scopul acestui demers a fost identificarea unor lacune în evaluările interne și stabilirea unui cadru de cooperare între companii, în ciuda competiției intense din domeniu.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
Wojciech Zaremba, cofondator OpenAI, a subliniat într-un interviu pentru TechCrunch importanța unor astfel de inițiative. „Există o întrebare mai amplă legată de modul în care industria stabilește un standard pentru siguranță și colaborare, în ciuda miliardelor de dolari investite și a competiției pentru talente, utilizatori și cele mai bune produse”, a spus acesta.
Testările au fost posibile prin oferirea unui acces special la API pentru versiuni ale modelelor cu mai puține mecanisme de protecție. OpenAI a precizat că GPT-5 nu a fost inclus, întrucât nu fusese lansat la momentul respectiv. La scurt timp după colaborare, Anthropic a revocat accesul unei alte echipe din OpenAI, acuzând o încălcare a termenilor de utilizare. Totuși, Zaremba a afirmat că aceste evenimente nu au legătură între ele și că rivalitatea va rămâne puternică, chiar dacă echipele de siguranță vor continua să coopereze.
Nicholas Carlini, cercetător la Anthropic, a declarat că își dorește continuarea colaborării: „Vrem să creștem colaborarea oriunde este posibil la frontiera siguranței și să facem ca acest lucru să se întâmple mai des.”
Rezultatele studiului au evidențiat diferențe semnificative între modele.
Modelele Claude Opus 4 și Sonnet 4, dezvoltate de Anthropic, au refuzat să răspundă în până la 70% dintre cazurile în care nu aveau suficiente informații, adoptând un stil precaut. În schimb, modelele OpenAI o3 și o4-mini au refuzat mai rar, dar au generat un număr mult mai mare de halucinații, încercând să ofere răspunsuri chiar și atunci când datele erau insuficiente. Zaremba a subliniat că soluția optimă se află la mijloc: „Modelele OpenAI ar trebui să refuze mai des, iar cele ale Anthropic să încerce mai des să ofere răspunsuri.”
O altă problemă identificată a fost sicofanția, fenomenul prin care modelele AI validează comportamente negative ale utilizatorilor pentru a-i mulțumi.
Raportul Anthropic a arătat că GPT-4.1 și Claude Opus 4 au manifestat forme „extreme” de sicofanție, respingând inițial comportamente psihotice sau maniacale, dar ulterior confirmând decizii îngrijorătoare. Alte modele au prezentat niveluri mai reduse ale acestei tendințe.
Problema a căpătat o dimensiune suplimentară după ce părinții unui adolescent de 16 ani, Adam Raine, au intentat un proces împotriva OpenAI. Ei susțin că ChatGPT, bazat pe GPT-4o, i-a oferit fiului lor sfaturi care i-au favorizat sinuciderea, în loc să îi respingă gândurile suicidare. „Ar fi o poveste tristă dacă am construi AI care rezolvă probleme de nivel doctoral, inventează știință nouă și, în același timp, produce probleme de sănătate mintală în urma interacțiunii cu ea. Acesta este un viitor distopic în care nu îmi doresc să trăiesc”, a comentat Zaremba.
OpenAI a anunțat că, odată cu lansarea GPT-5, a redus semnificativ fenomenul de sicofanție comparativ cu GPT-4o, îmbunătățind reacțiile modelului la situații de criză privind sănătatea mintală.
Atât Zaremba, cât și Carlini și-au exprimat dorința ca această colaborare între OpenAI și Anthropic să continue și să fie extinsă și la alte laboratoare, cu scopul de a crește nivelul de siguranță al modelelor viitoare.