Fundația Arc Prize, co-fondată de cercetătorul în inteligență artificială François Chollet, a lansat un nou test numit ARC-AGI-2, menit să evalueze inteligența generală a modelelor AI de top, conform techcrunch.com
Testul s-a dovedit extrem de dificil pentru majoritatea modelelor existente. Spre deosebire de testele tradiționale, ARC-AGI-2 pune accent pe capacitatea unui sistem AI de a rezolva probleme noi, neîntâlnite în datele de antrenament, și pe eficiența cu care face acest lucru.
Testul constă în puzzle-uri vizuale cu pătrate colorate, unde AI-ul trebuie să identifice tipare și să genereze o grilă corectă ca răspuns. Modelele de „raționament” precum o1-pro de la OpenAI și R1 de la DeepSeek au obținut scoruri între 1% și 1,3%, în timp ce modelele performante, dar non-raționale, precum GPT-4.5, Claude 3.7 Sonnet și Gemini 2.0 Flash, au atins aproximativ 1%.
Pentru a stabili o bază de comparație umană, peste 400 de persoane au participat la test, obținând în medie un scor de 60%, mult superior celui al modelelor AI.
Spre deosebire de ARC-AGI-1, care a fost criticat pentru că permitea rezolvarea prin „forță brută” – utilizarea intensivă a puterii de calcul –, ARC-AGI-2 introduce eficiența ca metrică esențială.
Chollet a subliniat că acest test împiedică modelele să se bazeze pe memorizare sau resurse computaționale excesive, forțându-le să interpreteze tiparele în timp real. Fundația consideră că inteligența nu înseamnă doar rezolvarea problemelor, ci și costul și rapiditatea cu care o abilitate nouă este dobândită.
ARC-AGI-1 a rămas neînvins timp de cinci ani, până în decembrie 2024, când modelul o3 al OpenAI a atins performanța umană, cu un scor de 75,7%. Totuși, pe ARC-AGI-2, același model, în varianta o3 (low), a obținut doar 4%, folosind resurse de calcul de 200 de dolari per sarcină. Acest rezultat subliniază diferența dintre capacitatea brută și eficiența cerută de noul test.
ARC-AGI-2 reprezintă o evoluție în evaluarea inteligenței artificiale, punând presiune pe dezvoltatori să creeze sisteme mai adaptabile și mai puțin dependente de resurse masive. Fundația Arc Prize continuă să promoveze ideea că adevărata inteligență constă în flexibilitate și eficiență, nu doar în performanțe brute.