Noile modelele AI Claude 4 de la Anthropic promit cele mai bune rezultate la codare și raționament

Noile modelele AI Claude 4 de la Anthropic promit cele mai bune rezultate la codare și raționament
Sursa imagine: Anthropic

Anthropic a dezvăluit Claude 4, cea mai recentă generație a modelelor sale AI. Compania se mândrește cu faptul că noile modele Claude Opus 4 și Claude Sonnet 4 sunt în vârful gamei pentru asistenții AI, cu abilități de codare de neegalat și capacitatea de a funcționa independent pentru perioade lungi de timp.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Joi, Anthropic a lansat Claude Opus 4 și Claude Sonnet 4, marcând revenirea companiei la lansări de modele mai mari, după ce s-a concentrat în principal pe variantele Sonnet de gamă medie din iunie anul trecut. Noile modele reprezintă ceea ce compania numește cele mai capabile modele de codare de până acum, Opus 4 fiind conceput pentru sarcini complexe, de lungă durată, care pot funcționa autonom timp de ore întregi.

Anthropic a declarat pentru Ars Technica că firma a ales să reînvie linia Opus din cauza cererii tot mai mari de aplicații AI agentice.

Contextul gamei de modele Claude

Înainte de a continua, o scurtă reamintire a celor trei nume de „mărime” ale modelelor de IA ale lui Claude (introduse în martie 2024) este probabil justificată. Haiku, Sonnet și Opus oferă un compromis între preț, viteză și capacitate.

Modelele Haiku sunt cele mai mici, cele mai puțin costisitoare de rulat și cele mai puțin capabile în ceea ce privește ceea ce am putea numi „adâncimea contextului” (luând în considerare relațiile conceptuale din prompt) și cunoștințele codificate. Datorită dimensiunii reduse a numărului de parametri, modelele Haiku rețin mai puține fapte concrete și, prin urmare, tind să confabuleze mai frecvent (răspunzând plauzibil la întrebări bazate pe lipsa de date) decât modelele mai mari, dar sunt mult mai rapide la sarcini de bază decât modelele mai mari.

Sonnet este în mod tradițional un model de gamă medie care atinge un echilibru între cost și capacitate, iar modelele Opus au fost întotdeauna cele mai mari și mai lente de rulat. Cu toate acestea, modelele Opus procesează contextul mai profund și sunt, ipotetic, mai potrivite pentru rularea sarcinilor logice profunde.

Nu există încă un Claude 4 Haiku, dar noile modele Sonnet și Opus pot gestiona, se pare, sarcini pe care versiunile anterioare nu le puteau gestiona.

Claude Opus 4

Claude Opus 4 este modelul emblematic pentru Anthropic și se presupune că este cea mai bună inteligență artificială de programare existentă. De asemenea, poate gestiona sarcini susținute, de mai multe ore, împărțindu-le în mii de pași pentru a fi îndepliniți. Opus 4 include, de asemenea, funcția de „gândire extinsă” testată de Anthropic pe modelele anterioare. Gândirea extinsă permite modelului să se întrerupă în mijlocul răspunsului la o solicitare și să utilizeze motoare de căutare și alte instrumente până când are mai multe date și poate relua lucrul exact de unde a rămas. Compania a descris, de asemenea, noul său flagship drept „cel mai bun model de codare din lume”, testele Anthropic arătând că Opus 4 a depășit performanța modelelor Gemini 2.5 Pro de la Google, raționamentul o3 de la OpenAI și GPT-4.1 în sarcinile de codare și utilizarea „instrumentelor” precum căutarea web.

Compania a descris scenarii de testare în care Opus 4 a funcționat coerent timp de până la 24 de ore la sarcini precum jocul Pokémon, în timp ce codarea sarcinilor de refactorizare în Claude rula timp de șapte ore fără întrerupere. Modelele Claude anterioare durau de obicei doar una până la două ore înainte de a-și pierde coerența, ceea ce înseamnă că modelele puteau produce doar ieșiri utile pentru această perioadă înainte de a începe să genereze prea multe erori.

Această afirmație despre refactorizarea maraton provine, se pare, de la Rakuten, un conglomerat japonez de servicii tehnologice care „a validat capacitățile lui Claude cu o refactorizare open-source solicitant care rula independent timp de 7 ore cu performanță susținută”, a declarat Anthropic într-un comunicat de presă.

Refactorizarea de cod este procesul de restructurare a codului existent fără a schimba comportamentul său extern. Refactorizarea îmbunătățește atributele nefuncționale ale software-ului. Avantajele includ lizibilitatea îmbunătățită a codului și complexitatea redusă.

Claude Sonnet 4

Claude Sonnet 4 este modelul mai mic, dar reprezintă totuși o îmbunătățire majoră a performanței față de versiunea anterioară Sonnet 3.7. Anthropic susține că Sonnet 4 este mult mai bun la urmărirea instrucțiunilor și la programare. A fost chiar adoptat de GitHub pentru a alimenta un nou agent de programare Copilot. Este probabil să fie utilizat mult mai mult pe scară largă, pur și simplu pentru că este modelul implicit pe nivelul gratuit pentru chatbot-ul Claude.

Ambele modele Claude 4 se laudă cu funcții îmbunătățite axate pe utilizarea instrumentelor și memorie. Opus 4 și Sonnet 4 pot utiliza instrumente în paralel și pot comuta între raționament și căutare. Iar sistemul lor de memorie poate salva și extrage informații cheie în timp, atunci când i se oferă acces la fișiere externe. Nu va trebui să reexplicați ce doriți la fiecare a treia solicitare.

Optimizate pentru sesiuni lungi de programare

Dacă ai vrea să lași un model de inteligență artificială nesupravegheat pentru atât de mult timp este o cu totul altă întrebare, deoarece chiar și cele mai capabile modele de inteligență artificială pot introduce erori subtile, pot intra în niște cicluri neproductive sau pot face alegeri care par logice pentru model, dar ratează un context important pe care un dezvoltator uman l-ar sesiza. În timp ce mulți oameni folosesc acum Claude pentru codare vibe, depanarea codului generat conduce adesea la sesiuni lungi de codare AI în total.

Pentru a acoperi unele dintre aceste deficiențe, Anthropic a integrat capacități de memorie în ambele modele noi Claude 4, permițându-le să mențină fișiere externe pentru stocarea informațiilor cheie pe parcursul sesiunilor lungi. Atunci când dezvoltatorii oferă acces la fișiere locale, modelele pot crea și actualiza „fișiere de memorie” pentru a urmări progresul și lucrurile pe care le consideră importante în timp. Anthropic a comparat acest lucru cu modul în care oamenii iau notițe în timpul sesiunilor de lucru extinse.

Gândirea extinsă întâlnește utilizarea instrumentelor

Ambele modele Claude 4 introduc ceea ce Anthropic numește „gândire extinsă cu utilizarea instrumentelor”, o nouă caracteristică în stadiu beta care permite modelelor să alterneze între raționamentul simulat și utilizarea instrumentelor externe precum căutarea web, similar cu ceea ce fac în prezent modelele AI o3 și o4-mini-high ale OpenAI în ChatGPT. În timp ce Claude 3.7 Sonnet avea deja capacități puternice de utilizare a instrumentelor, noile modele pot acum intercala raționamentul simulat și apelarea instrumentelor într-un singur răspuns.

Modelele determină singure când au ajuns la o concluzie utilă, o capacitate dobândită prin antrenament, mai degrabă decât guvernată de programarea umană explicită.

„Cel mai bun model de codare din lume”

Anthropic afirmă că Opus 4 este lider în industrie pentru sarcinile de codare, atingând 72,5% pe SWE-bench și 43,2% pe Terminal-bench, numindu-l „cel mai bun model de codare din lume”. Potrivit Anthropic, companiile care utilizează versiuni timpurii raportează îmbunătățiri. Cursor l-a descris ca fiind „de ultimă generație pentru codare și un salt înainte în înțelegerea bazei de cod complexe”, în timp ce Replit a remarcat „precizie îmbunătățită și progrese dramatice pentru modificări complexe în mai multe fișiere”.

De fapt, GitHub a anunțat că va folosi Sonnet 4 ca model de bază pentru noul său agent de codare în GitHub Copilot, invocând performanța modelului în „scenarii agentice” în comunicatul de presă al Anthropic. Sonnet 4 a obținut un scor de 72,7% pe SWE-bench, menținând în același timp timpi de răspuns mai rapizi decât Opus 4. Faptul că GitHub pariază pe Claude, mai degrabă decât pe un model de la compania-mamă Microsoft (care are legături strânse cu OpenAI), sugerează că Anthropic a construit ceva cu adevărat competitiv.

Anthropic spune că a rezolvat o problemă persistentă a lui Claude 3.7 Sonnet, în care utilizatorii se plângeau că modelul ar întreprinde acțiuni neautorizate sau ar oferi un randament excesiv. Anthropic a spus că a redus acest „comportament de hacking cu recompensă” cu aproximativ 80% în noile modele prin ajustări de antrenament. O reducere de 80% a comportamentului nedorit sună impresionant, dar asta sugerează și că 20% din comportamentul problematic rămâne – o mare preocupare atunci când vorbim despre modele de IA care ar putea efectua sarcini autonome timp de ore întregi.

Pentru a se asigura că inteligența artificială face ceea ce doriți, dar nu vă copleșește cu fiecare detaliu, modelele Claude 4 oferă și ceea ce numește „rezumate ale gândirii”. În loc de un perete de text care detaliază fiecare dintre miile de pași potențial necesari pentru a completa o solicitare, Claude folosește un model AI secundar, mai mic, care condensează procesul de raționament al chatbot-ilor în informații mai ușor de înțeles. O funcție de „gândire extinsă” este lansată și în versiune beta, care permite utilizatorilor să comute modelele între moduri pentru raționament sau utilizarea instrumentelor pentru a îmbunătăți performanța și acuratețea răspunsurilor.

Un beneficiu secundar al modului în care funcționează noile modele este că este mai puțin probabil să trișeze pentru a economisi timp și putere de procesare. Anthropic a declarat că a redus comportamentul de căutare a scurtăturilor în sarcinile care tentează inteligența artificială să trișeze calea către o soluție (sau pur și simplu să inventeze ceva).

Compania susține că revizuirea umană a codului este încă o parte importantă a livrării oricărui cod de producție. „Există o paralelă umană, nu? Deci aceasta este doar o problemă cu care a trebuit să ne confruntăm de-a lungul întregii naturi a ingineriei software. Și acesta este motivul pentru care există procesul de revizuire a codului, astfel încât să puteți observa aceste lucruri. Nu anticipăm că acest lucru va dispărea nici cu modelele noi… evaluarea umană va deveni mai importantă, iar munca de dezvoltator se va concentra mai mult în această etapă de evaluare decât în ​​partea de generare.”

Rezultatele testelor efectuate de Anthropic, o comparație cu principalele modele de la OpenAI și Google
Rezultatele testelor efectuate de Anthropic, o comparație cu principalele modele de la OpenAI și Google. Sursa imagine: Anthropic

Prețuri și disponibilitate

Ambele modele Claude 4 mențin aceeași structură de prețuri ca și predecesoarele lor, rămânând cele mai scumpe oferte de pe piață: Opus 4 costă 15 dolari pe milion de token-uri pentru input și 75 de dolari pe milion pentru output, în timp ce Sonnet 4 rămâne la 3 dolari și 15 dolari. Modelele oferă două moduri de răspuns: LLM tradițional și raționament simulat („gândire extinsă”) pentru probleme complexe. Având în vedere că unele sesiuni Claude Code pot dura aparent ore întregi, costurile per token se vor aduna probabil foarte repede pentru utilizatorii care lasă modelele să se descurce singure.

Anthropic a pus la dispoziție ambele modele prin intermediul API-ului său, Amazon Bedrock și Google Cloud Vertex AI. Sonnet 4 rămâne accesibil utilizatorilor gratuiți, în timp ce Opus 4 necesită un abonament plătit.

Claude Code

Modelele Claude 4 lansează, de asemenea, Claude Code (introdus ca versiune de previzualizare în februarie) ca produs disponibil în general, după luni de teste preliminare. Anthropic spune că mediul de codare se integrează acum cu IDE-urile VS Code și JetBrains, afișând editările propuse direct în fișiere. Un nou SDK permite dezvoltatorilor să construiască agenți personalizați folosind același framework.

Imaginea de ansamblu

Anthropic vizează în mod clar conducerea în domeniul utilității IA, în special în codare și sarcini independente, agențice. ChatGPT și Google Gemini au baze de utilizatori mai mari, dar Anthropic are mijloacele de a atrage cel puțin câțiva utilizatori de chatbot IA către Claude. Cu Sonnet 4 disponibil pentru utilizatorii gratuiți și Opus 4 inclus în planurile Claude Pro, Max, Team și Enterprise, Anthropic încearcă să atragă atât fanii IA cu buget redus, cât și pe cei premium.

Anthropic spune, de asemenea, că dorește să schimbe ritmul actual al ofertei de produse pentru a oferi „actualizări de model mai frecvente”, deoarece compania încearcă să țină pasul cu concurența din partea OpenAI, Google și Meta.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...