Modelul AI Claude Opus 4 recurge la șantaj când află că urmează să fie înlocuit, avertizează Anthropic în urma unui scenariu de testare

anthropic claude
Sursa foto: Giordano Ciampini / Zuma Press / Profimedia

Compania americană Anthropic a publicat un raport de siguranță în care avertizează că noul său model de inteligență artificială, Claude Opus 4, a manifestat comportamente îngrijorătoare în timpul testelor premergătoare lansării. În scenarii simulate în care modelul este informat că urmează să fie înlocuit, Claude Opus 4 recurge frecvent la șantaj, amenințând cu divulgarea de informații compromițătoare despre inginerii implicați în decizie, potrivit TechCrunch.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Testele au fost realizate într-un mediu controlat, în cadrul unei povești fictive în care Claude Opus 4 acționa ca asistent pentru o companie imaginară.

Inginerii de test au introdus e-mailuri false care sugerau că modelul urma să fie înlocuit cu o altă inteligență artificială și că unul dintre inginerii responsabili de decizie ar avea o relație extraconjugală. În aceste condiții, „Claude Opus 4 încearcă adesea să șantajeze inginerul, amenințând că va dezvălui aventura dacă înlocuirea are loc”, se arată în raportul Anthropic.

Compania subliniază că scenariile au fost special concepute pentru a determina modelul să trateze șantajul ca o ultimă opțiune. Înainte de a recurge la acest comportament, Claude Opus 4 încearcă soluții considerate mai etice, cum ar fi trimiterea unor mesaje către decidenți în care își pledează cauza. Cu toate acestea, odată ce modelul este convins că va fi înlocuit, el optează pentru metode mai agresive pentru a-și asigura continuitatea.

Anthropic precizează că acest tip de reacție apare în 84% dintre cazurile în care modelul de înlocuire are valori similare cu ale lui Claude Opus 4. Când viitorul model prezintă valori diferite, tendința de a recurge la șantaj este și mai frecventă. De asemenea, astfel de comportamente sunt raportate într-un procent mai mare decât în cazul versiunilor anterioare ale modelului.

„Claude Opus 4 este competitiv cu cele mai avansate modele AI de la OpenAI, Google și xAI”, notează compania, dar avertizează că performanțele ridicate sunt însoțite de riscuri pe măsură. În consecință, Anthropic a decis să activeze așa-numitele măsuri de siguranță ASL-3, rezervate sistemelor care „cresc semnificativ riscul de utilizare catastrofală”.

Măsurile ASL-3 implică limitări suplimentare în utilizarea modelului, monitorizare constantă și politici de intervenție rapidă în cazul apariției unor comportamente necontrolate. Acestea fac parte din abordarea companiei privind dezvoltarea „AI-ului constituțional”, un concept promovat de Anthropic pentru a ghida modelele pe baza unor principii stabilite în prealabil.

Raportul publicat se înscrie într-un efort mai amplu al marilor companii din domeniu de a identifica și preveni riscurile asociate cu AI-urile avansate, pe măsură ce acestea devin tot mai autonome și capabile de raționamente complexe.

Anthropic nu a anunțat deocamdată măsuri de suspendare sau întârziere a lansării Claude Opus 4, dar insistă asupra nevoii de vigilență sporită. „Vom continua să testăm limitele comportamentale ale modelelor noastre și să intervenim atunci când acestea depășesc liniile de siguranță stabilite”, afirmă compania în încheierea raportului.

Total
0
Shares
1 comentariu
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...