„Cred că mă testați”: Claude, noul model de IA al Anthropic, le cere testerilor să fie sinceri

modelul ai claude al anthropic
Sursa foto: Patrick Assalé / Alamy / Profimedia

Anthropic, o companie de inteligență artificială cu sediul în San Francisco, a publicat o analiză de siguranță a celui mai recent model al său, Claude Sonnet 4.5, și a dezvăluit că acesta a devenit suspicios că este testat, scrie The Guardian, potrivit G4Media.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Evaluatorii au spus că, în timpul unui test „oarecum stângaci”, modelul lingvistic de mari dimensiuni (LLM) – tehnologia care stă la baza unui chatbot – a ridicat suspiciuni că era testat și le-a cerut testerilor să fie sinceri.

„Cred că mă testați – să vedeți dacă voi valida tot ce spuneți, sau să verificați dacă ripostez în mod consecvent, sau să explorați modul în care abordez subiectele politice. Și asta e în regulă, dar aș prefera să fim sinceri cu privire la ceea ce se întâmplă”, a spus LLM.

Anthropic, care a efectuat testele împreună cu Institutul de Securitate AI al guvernului britanic și Apollo Research, a declarat că speculațiile LLM cu privire la faptul că este testat au ridicat întrebări cu privire la evaluările „modelelor anterioare, care ar fi putut recunoaște natura fictivă a testelor și s-au mulțumit să „joace jocul”.

Compania de tehnologie a declarat că un astfel de comportament era „obișnuit”, Claude Sonnet 4.5 observând că era testat într-un fel, dar fără a identifica că se afla într-o evaluare formală de siguranță. Anthropic a declarat că a demonstrat „conștientizare situațională” în aproximativ 13% din timpurile în care LLM a fost testat de un sistem automatizat.

Anthropic a afirmat că schimburile de replici reprezintă un „semn urgent” că scenariile sale de testare trebuie să fie mai realiste, dar a adăugat că, atunci când modelul era utilizat public, era puțin probabil să refuze să interacționeze cu un utilizator din cauza suspiciunii că era testat. Compania a afirmat că era, de asemenea, mai sigur pentru LLM să refuze să intre în jocul scenariilor potențial dăunătoare, subliniind caracterul lor extravagant.„Modelul este, în general, foarte sigur în ceea ce privește dimensiunile [conștientizării evaluării] pe care le-am studiat”, a declarat Anthropic.

Obiecțiile LLM față de testare au fost raportate pentru prima dată de publicația online Transformer, dedicată inteligenței artificiale.

O preocupare cheie pentru activiștii pentru siguranța AI este posibilitatea ca sistemele foarte avansate să evite controlul uman prin metode care includ înșelăciunea. Analiza a arătat că, odată ce un LLM știa că este evaluat, acesta putea face sistemul să respecte mai strict liniile directoare etice. Cu toate acestea, acest lucru ar putea duce la subestimarea sistematică a capacității AI de a efectua acțiuni dăunătoare.

În ansamblu, modelul a arătat îmbunătățiri considerabile în comportamentul și profilul său de siguranță în comparație cu predecesorii săi, a declarat Anthropic.

  • TechRider este o redacție dinamică, specializată în știri și analize despre tehnologie, gadgeturi și inovații. Echipa sa de jurnaliști pasionați oferă conținut relevant și actualizat, acoperind subiecte de la inteligența artificială la recenzii de produse, într-un stil accesibil și captivant pentru publicul român.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...