OpenAI a prezentat un nou benchmark (test de referință pentru evaluarea performanței), denumit GDPval, care evaluează performanța modelelor de inteligență artificială în comparație cu profesioniștii umani din mai multe industrii. Testul marchează o încercare timpurie de a înțelege cât de aproape sunt sistemele AI de a egala sau depăși oamenii în activități cu valoare economică, transmite TechCrunch.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
GDPval se concentrează pe nouă sectoare care contribuie semnificativ la produsul intern brut al Statelor Unite, printre care sănătate, finanțe, producție și administrație publică. În cadrul acestora, sunt analizate 44 de ocupații diferite, de la ingineri software și jurnaliști până la asistente medicale. Testul constă în compararea rapoartelor elaborate de profesioniști umani cu rapoarte generate de modele AI, participanții fiind rugați să aleagă varianta pe care o consideră mai bună.
Rezultatele arată că GPT-5-high, o versiune mai puternică a GPT-5, a fost evaluat ca fiind mai bun sau la același nivel cu experții umani în 40,6% dintre cazuri. De asemenea, Claude Opus 4.1, model dezvoltat de Anthropic, a obținut un scor și mai ridicat, fiind considerat comparabil sau superior profesioniștilor în 49% dintre sarcini. OpenAI explică această diferență prin faptul că modelul Anthropic „tinde să producă grafice mai plăcute”, ceea ce poate influența evaluările.
Cu toate acestea, compania subliniază că testul nu acoperă întreaga gamă de activități pe care le desfășoară profesioniștii în viața reală. În prezent, GDPval vizează doar sarcini precum redactarea de rapoarte, un aspect limitat al muncii zilnice. OpenAI recunoaște acest lucru și afirmă că intenționează să dezvolte versiuni mai complexe ale benchmark-ului, capabile să surprindă mai multe industrii și fluxuri de lucru interactive.
Într-un interviu acordat TechCrunch, dr. Aaron Chatterji, economist-șef al OpenAI, a explicat că rezultatele deschid oportunități pentru utilizarea AI ca instrument de sprijin: „[Pentru că] modelul devine tot mai bun la unele dintre aceste lucruri, oamenii din acele locuri de muncă pot folosi modelul pentru a-și externaliza o parte din muncă și a face lucruri cu valoare mai mare.”
Tejal Patwardhan, responsabilă de evaluările OpenAI, a evidențiat ritmul accelerat al progresului. Ea a reamintit că GPT-4o, lansat cu aproximativ 15 luni în urmă, a obținut doar 13,7% la același test, ceea ce arată că GPT-5 a reușit aproape să tripleze performanța.
În contextul industriei AI, GDPval se adaugă altor benchmark-uri utilizate pe scară largă pentru a măsura progresul tehnologic, cum ar fi AIME 2025, axat pe probleme matematice, sau GPQA Diamond, care testează cunoștințe științifice la nivel de doctorat. Totuși, unele dintre aceste teste sunt aproape saturate, iar cercetătorii subliniază nevoia unor evaluări mai relevante pentru sarcini reale.
Prin GDPval, OpenAI încearcă să arate că modelele sale pot fi utile într-o gamă variată de industrii. Totuși, compania admite că este nevoie de o versiune mai extinsă și mai cuprinzătoare a testului pentru a putea afirma cu certitudine că AI depășește performanțele umane.