Prima pagină Articole Meta se confruntă cu critici din partea comunității tech / Modelul „Maverick” , în varianta standard, se clasează sub rivalii săi de pe piața AI

2 minute de citit

Meta se confruntă cu critici din partea comunității tech / Modelul „Maverick” , în varianta standard, se clasează sub rivalii săi de pe piața AI

George Radu

14 aprilie 2025

Sursa foto: Brendan SMIALOWSKI / AFP / Profimedia

Meta se confruntă cu critici din partea comunității tech, după ce a folosit o versiune experimentală și nelansată oficial a modelului său IA Llama 4 Maverick pentru a obține un scor ridicat pe platforma de testare LM Arena, un benchmark popular bazat pe preferințele evaluatorilor umani, relatează TechCrunch.

Incidentul i-a determinat pe administratorii platformei LM Arena să-și ceară scuze, să-și schimbe politicile și să reevalueze modelul Maverick în forma sa standard, nemodificată.

Când modelul Maverick a fost reevaluat fără optimizările speciale, performanțele au dezamăgit: a fost clasat sub modele mai vechi precum GPT-4o de la OpenAI, Claude 3.5 Sonnet de la Anthropic și Gemini 1.5 Pro de la Google. Aceasta ridică semne de întrebare legate de transparența Meta și de validitatea comparațiilor dintre modelele AI.

Optimizat pentru scoruri, nu pentru utilizatori

Versiunea folosită inițial de Meta în benchmark (Llama-4-Maverick-03-26-Experimental) fusese „optimizată pentru conversații”, potrivit companiei. Aceste ajustări i-au oferit un avantaj semnificativ într-un test bazat pe preferințele umane, dar nu reflectă neapărat performanța reală a modelului în aplicații variate.

Meta a declarat că experimentează constant cu „variante personalizate” ale modelelor sale și că varianta testată este doar una dintre multele direcții explorate. Compania a lansat recent versiunea open source a Llama 4, oferindu-le dezvoltatorilor posibilitatea de a o adapta pentru nevoile proprii.

„Suntem entuziasmați să vedem ce vor construi dezvoltatorii și așteptăm cu interes feedbackul lor,” a transmis un purtător de cuvânt al Meta.

Benchmark-uri înșelătoare?

Controversa scoate la iveală o problemă mai amplă: relevanța benchmark-urilor publice în evaluarea reală a modelelor IA. LM Arena, bazat pe evaluări umane subiective, a fost criticat în trecut pentru lipsa rigurozității științifice și pentru ușurința cu care modelele pot fi optimizate special pentru a obține scoruri bune.

În contextul unei concurențe acerbe pe piața modelelor IA, unde imaginea publică este adesea la fel de importantă ca performanța reală, astfel de tactici ridică semne de întrebare asupra eticii în promovarea tehnologiilor emergente.

George Radu

Hand-Picked Top-Read Stories

Zuckerberg admite că a cumpărat Instagram pentru că era „mai bun”, în timpul unui proces antitrust crucial din SUA

Lotus suspendă exportul modelului Emira către SUA din cauza tarifelor și anunță concedieri în Marea Britanie

ANALIZA Yamaha Y-AMT: Noua eră a transmisiei automate. Cât de revoluționar este sistemul care schimbă regulile jocului pentu motocicletele de stradă?

Trending Tags

Meta se confruntă cu critici din partea comunității tech / Modelul „Maverick” , în varianta standard, se clasează sub rivalii săi de pe piața AI

Optimizat pentru scoruri, nu pentru utilizatori

Benchmark-uri înșelătoare?

Lasă un răspuns Anulează răspunsul

Zuckerberg admite că a cumpărat Instagram pentru că era „mai bun”, în timpul unui proces antitrust crucial din SUA

Lotus suspendă exportul modelului Emira către SUA din cauza tarifelor și anunță concedieri în Marea Britanie

ANALIZA Yamaha Y-AMT: Noua eră a transmisiei automate. Cât de revoluționar este sistemul care schimbă regulile jocului pentu motocicletele de stradă?

Meta se confruntă cu critici din partea comunității tech / Modelul „Maverick” , în varianta standard, se clasează sub rivalii săi de pe piața AI

Optimizat pentru scoruri, nu pentru utilizatori

Benchmark-uri înșelătoare?

Lasă un răspuns Anulează răspunsul

Citește si...

Comisia Federală pentru Comerț din SUA spune că parteneriatele precum Microsoft-OpenAI ridică probleme antitrust

Comisia Europeană a anunțat planul de dezvoltare pentru următorii cinci ani: Inițiative precum ”AI Gigafactories” și „Apply AI”. Trei domenii esențiale de acțiune: inovație, decarbonizare și securitate

Inteligența artificială este folosită tot mai des în justiție: China utilizează DeepSeek pentru a căuta cazuri de corupție