Prima pagină Articole Un nou test care pune la încercare Inteligența Artificială. Cum s-au descurcat principalele modele AI?

Tehnologie

2 minute de citit

Un nou test care pune la încercare Inteligența Artificială. Cum s-au descurcat principalele modele AI?

Redacția TechRider

25 martie 2025

Foto: Pixabay

Fundația Arc Prize, co-fondată de cercetătorul în inteligență artificială François Chollet, a lansat un nou test numit ARC-AGI-2, menit să evalueze inteligența generală a modelelor AI de top, conform techcrunch.com

Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -

Testul s-a dovedit extrem de dificil pentru majoritatea modelelor existente. Spre deosebire de testele tradiționale, ARC-AGI-2 pune accent pe capacitatea unui sistem AI de a rezolva probleme noi, neîntâlnite în datele de antrenament, și pe eficiența cu care face acest lucru.

Testul constă în puzzle-uri vizuale cu pătrate colorate, unde AI-ul trebuie să identifice tipare și să genereze o grilă corectă ca răspuns. Modelele de „raționament” precum o1-pro de la OpenAI și R1 de la DeepSeek au obținut scoruri între 1% și 1,3%, în timp ce modelele performante, dar non-raționale, precum GPT-4.5, Claude 3.7 Sonnet și Gemini 2.0 Flash, au atins aproximativ 1%.

Pentru a stabili o bază de comparație umană, peste 400 de persoane au participat la test, obținând în medie un scor de 60%, mult superior celui al modelelor AI.

Spre deosebire de ARC-AGI-1, care a fost criticat pentru că permitea rezolvarea prin „forță brută” – utilizarea intensivă a puterii de calcul –, ARC-AGI-2 introduce eficiența ca metrică esențială.

Chollet a subliniat că acest test împiedică modelele să se bazeze pe memorizare sau resurse computaționale excesive, forțându-le să interpreteze tiparele în timp real. Fundația consideră că inteligența nu înseamnă doar rezolvarea problemelor, ci și costul și rapiditatea cu care o abilitate nouă este dobândită.

ARC-AGI-1 a rămas neînvins timp de cinci ani, până în decembrie 2024, când modelul o3 al OpenAI a atins performanța umană, cu un scor de 75,7%. Totuși, pe ARC-AGI-2, același model, în varianta o3 (low), a obținut doar 4%, folosind resurse de calcul de 200 de dolari per sarcină. Acest rezultat subliniază diferența dintre capacitatea brută și eficiența cerută de noul test.

ARC-AGI-2 reprezintă o evoluție în evaluarea inteligenței artificiale, punând presiune pe dezvoltatori să creeze sisteme mai adaptabile și mai puțin dependente de resurse masive. Fundația Arc Prize continuă să promoveze ideea că adevărata inteligență constă în flexibilitate și eficiență, nu doar în performanțe brute.

Redacția TechRider

TechRider este o redacție dinamică, specializată în știri și analize despre tehnologie, gadgeturi și inovații. Echipa sa de jurnaliști pasionați oferă conținut relevant și actualizat, acoperind subiecte de la inteligența artificială la recenzii de produse, într-un stil accesibil și captivant pentru publicul român.

Hand-Picked Top-Read Stories

Moscova, teleportată cu 20 de ani înapoi, după întreruperea internetului mobil

WSJ: Rusia sprijină Iranul cu tehnologie pentru drone și imagini din satelit

Chirurgia robotică: cum aduce MedLife tehnologia în sala de operație

Trending Tags

Un nou test care pune la încercare Inteligența Artificială. Cum s-au descurcat principalele modele AI?

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Lasă un răspuns Anulează răspunsul

Moscova, teleportată cu 20 de ani înapoi, după întreruperea internetului mobil

WSJ: Rusia sprijină Iranul cu tehnologie pentru drone și imagini din satelit

Chirurgia robotică: cum aduce MedLife tehnologia în sala de operație

Un nou test care pune la încercare Inteligența Artificială. Cum s-au descurcat principalele modele AI?

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Lasă un răspuns Anulează răspunsul

Citește si...

Huawei încearcă să acapareze cota de piață a cipurilor AI de la Nvidia în China

VIDEO MWC 2025: Samsung dezvăluie Asymmetric Flip, conceptul unui telefon pliabil ciudat, și o consolă de jocuri pliabilă, asemănătoare cu Nintendo Switch

Wearables mai inteligente: Gemini ajunge pe Galaxy Watch și Buds