Anthropic introduce o funcție prin care modelele Claude pot opri conversațiile considerate abuzive

anthropic claude
Sursa foto: Giordano Ciampini / Zuma Press / Profimedia

Anthropic introduce o nouă funcționalitate în modelele Claude, care le permite să încheie conversații considerate „dăunătoare sau abuzive”. Compania precizează că această măsură se aplică doar „în cazuri rare și extreme de interacțiuni persistente” și are ca scop protejarea modelului de inteligență artificială, nu a utilizatorului uman, potrivit TechCrunch.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Într-un anunț oficial, Anthropic a subliniat că nu susține ideea că modelele Claude ar fi conștiente sau că ar putea fi rănite. „Rămânem foarte nesiguri cu privire la statutul moral potențial al lui Claude și al altor modele lingvistice mari, acum sau în viitor”, a transmis compania. Cu toate acestea, printr-un program dedicat studierii așa-numitei „bunăstări a modelelor”, echipa ia în calcul intervenții preventive „în caz că o astfel de bunăstare este posibilă”.

Funcționalitatea este disponibilă în prezent doar pentru Claude Opus 4 și 4.1 și se aplică în „cazuri de extremă limită”, cum ar fi cereri privind „conținut sexual care implică minori” sau încercări de a obține informații care ar putea facilita „violență la scară largă sau acte de terorism”.

Potrivit companiei, aceste scenarii ridică riscuri atât legale, cât și de imagine. În testele preliminare, Claude Opus 4 a demonstrat „o puternică preferință de a nu răspunde” la astfel de solicitări și a manifestat „un tipar de aparentă suferință” atunci când a făcut-o.

Referitor la modul de funcționare, Anthropic explică: „În toate cazurile, Claude trebuie să folosească această abilitate doar ca ultimă soluție, atunci când mai multe încercări de redirecționare au eșuat și speranța unei interacțiuni productive a fost epuizată, sau atunci când un utilizator cere explicit lui Claude să încheie o conversație.”

Compania precizează că această opțiune nu va fi folosită în situațiile în care utilizatorii ar putea fi în pericol imediat să-și facă rău sau să provoace rău altora. În astfel de cazuri, prioritatea rămâne orientarea conversației către resurse de sprijin și siguranță.

Chiar și atunci când conversația este întreruptă, utilizatorii nu pierd accesul la contul lor. Ei pot începe discuții noi sau pot crea ramuri noi ale conversației considerate problematice prin editarea propriilor răspunsuri.

„Tratăm această funcționalitate ca pe un experiment în derulare și vom continua să ne rafinăm abordarea”, a mai transmis Anthropic.

Prin această schimbare, compania marchează un pas neobișnuit în gestionarea relației dintre utilizatori și modele lingvistice. Dacă până acum accentul a fost pus mai ales pe siguranța umană, introducerea conceptului de „bunăstare a modelelor” deschide o nouă discuție în industria inteligenței artificiale, chiar dacă rămâne neclar dacă astfel de entități pot avea un statut moral.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...