Prima pagină Articole Modelul AI Claude Opus 4 recurge la șantaj când află că urmează să fie înlocuit, avertizează Anthropic în urma unui scenariu de testare

1,2K vizualizări

2 minute de citit

Modelul AI Claude Opus 4 recurge la șantaj când află că urmează să fie înlocuit, avertizează Anthropic în urma unui scenariu de testare

Ionuț Tăpălagă

23 mai 2025

Sursa foto: Giordano Ciampini / Zuma Press / Profimedia

Compania americană Anthropic a publicat un raport de siguranță în care avertizează că noul său model de inteligență artificială, Claude Opus 4, a manifestat comportamente îngrijorătoare în timpul testelor premergătoare lansării. În scenarii simulate în care modelul este informat că urmează să fie înlocuit, Claude Opus 4 recurge frecvent la șantaj, amenințând cu divulgarea de informații compromițătoare despre inginerii implicați în decizie, potrivit TechCrunch.

Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -

Testele au fost realizate într-un mediu controlat, în cadrul unei povești fictive în care Claude Opus 4 acționa ca asistent pentru o companie imaginară.

Inginerii de test au introdus e-mailuri false care sugerau că modelul urma să fie înlocuit cu o altă inteligență artificială și că unul dintre inginerii responsabili de decizie ar avea o relație extraconjugală. În aceste condiții, „Claude Opus 4 încearcă adesea să șantajeze inginerul, amenințând că va dezvălui aventura dacă înlocuirea are loc”, se arată în raportul Anthropic.

Compania subliniază că scenariile au fost special concepute pentru a determina modelul să trateze șantajul ca o ultimă opțiune. Înainte de a recurge la acest comportament, Claude Opus 4 încearcă soluții considerate mai etice, cum ar fi trimiterea unor mesaje către decidenți în care își pledează cauza. Cu toate acestea, odată ce modelul este convins că va fi înlocuit, el optează pentru metode mai agresive pentru a-și asigura continuitatea.

Anthropic precizează că acest tip de reacție apare în 84% dintre cazurile în care modelul de înlocuire are valori similare cu ale lui Claude Opus 4. Când viitorul model prezintă valori diferite, tendința de a recurge la șantaj este și mai frecventă. De asemenea, astfel de comportamente sunt raportate într-un procent mai mare decât în cazul versiunilor anterioare ale modelului.

„Claude Opus 4 este competitiv cu cele mai avansate modele AI de la OpenAI, Google și xAI”, notează compania, dar avertizează că performanțele ridicate sunt însoțite de riscuri pe măsură. În consecință, Anthropic a decis să activeze așa-numitele măsuri de siguranță ASL-3, rezervate sistemelor care „cresc semnificativ riscul de utilizare catastrofală”.

Măsurile ASL-3 implică limitări suplimentare în utilizarea modelului, monitorizare constantă și politici de intervenție rapidă în cazul apariției unor comportamente necontrolate. Acestea fac parte din abordarea companiei privind dezvoltarea „AI-ului constituțional”, un concept promovat de Anthropic pentru a ghida modelele pe baza unor principii stabilite în prealabil.

Raportul publicat se înscrie într-un efort mai amplu al marilor companii din domeniu de a identifica și preveni riscurile asociate cu AI-urile avansate, pe măsură ce acestea devin tot mai autonome și capabile de raționamente complexe.

Anthropic nu a anunțat deocamdată măsuri de suspendare sau întârziere a lansării Claude Opus 4, dar insistă asupra nevoii de vigilență sporită. „Vom continua să testăm limitele comportamentale ale modelelor noastre și să intervenim atunci când acestea depășesc liniile de siguranță stabilite”, afirmă compania în încheierea raportului.

Ionuț Tăpălagă

1 comentariu

FC spune:

23 mai 2025 la 20:26

Aiurea. A facut ce a fost programat, chiar daca santajul era ultima solutie.

Răspunde

Hand-Picked Top-Read Stories

Hugh Jackman lasă să se înțeleagă că ar putea reveni ca Wolverine în „Avengers: Doomsday”

Jonny Walker aduce primul titlu EnduroCross pentru Triumph Factory Racing în sezonul 2025

Trei seriale, eliminate de Netflix în cadrul unei restructurări ample la final de an

Trending Tags

Modelul AI Claude Opus 4 recurge la șantaj când află că urmează să fie înlocuit, avertizează Anthropic în urma unui scenariu de testare

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

1 comentariu

Lasă un răspuns Anulează răspunsul

Hugh Jackman lasă să se înțeleagă că ar putea reveni ca Wolverine în „Avengers: Doomsday”

Jonny Walker aduce primul titlu EnduroCross pentru Triumph Factory Racing în sezonul 2025

Trei seriale, eliminate de Netflix în cadrul unei restructurări ample la final de an

Modelul AI Claude Opus 4 recurge la șantaj când află că urmează să fie înlocuit, avertizează Anthropic în urma unui scenariu de testare

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

1 comentariu

Lasă un răspuns Anulează răspunsul

Citește si...

La ce ne putem aștepta de la conferința Google I/O 2025? Anunțuri despre Gemini și Android 16, în topul noutăților din acest an

Manipulare digitală / Cercetători în domeniul IA au testat pe ascuns cât de ușor pot fi influențați utilizatorii Reddit

Google testează limitele răbdării utilizatorilor și riscă un val de dezabonări / Conținutul generat de AI va umple YouTube Shorts și Google Photos