Meta se confruntă cu critici din partea comunității tech / Modelul „Maverick” , în varianta standard, se clasează sub rivalii săi de pe piața AI

CEO-ul Meta, Mark Zuckerberg
Sursa foto: Brendan SMIALOWSKI / AFP / Profimedia

Meta se confruntă cu critici din partea comunității tech, după ce a folosit o versiune experimentală și nelansată oficial a modelului său IA Llama 4 Maverick pentru a obține un scor ridicat pe platforma de testare LM Arena, un benchmark popular bazat pe preferințele evaluatorilor umani, relatează TechCrunch.

Incidentul i-a determinat pe administratorii platformei LM Arena să-și ceară scuze, să-și schimbe politicile și să reevalueze modelul Maverick în forma sa standard, nemodificată.

Când modelul Maverick a fost reevaluat fără optimizările speciale, performanțele au dezamăgit: a fost clasat sub modele mai vechi precum GPT-4o de la OpenAI, Claude 3.5 Sonnet de la Anthropic și Gemini 1.5 Pro de la Google. Aceasta ridică semne de întrebare legate de transparența Meta și de validitatea comparațiilor dintre modelele AI.

Optimizat pentru scoruri, nu pentru utilizatori

Versiunea folosită inițial de Meta în benchmark (Llama-4-Maverick-03-26-Experimental) fusese „optimizată pentru conversații”, potrivit companiei. Aceste ajustări i-au oferit un avantaj semnificativ într-un test bazat pe preferințele umane, dar nu reflectă neapărat performanța reală a modelului în aplicații variate.

Meta a declarat că experimentează constant cu „variante personalizate” ale modelelor sale și că varianta testată este doar una dintre multele direcții explorate. Compania a lansat recent versiunea open source a Llama 4, oferindu-le dezvoltatorilor posibilitatea de a o adapta pentru nevoile proprii.

„Suntem entuziasmați să vedem ce vor construi dezvoltatorii și așteptăm cu interes feedbackul lor,” a transmis un purtător de cuvânt al Meta.

Benchmark-uri înșelătoare?

Controversa scoate la iveală o problemă mai amplă: relevanța benchmark-urilor publice în evaluarea reală a modelelor IA. LM Arena, bazat pe evaluări umane subiective, a fost criticat în trecut pentru lipsa rigurozității științifice și pentru ușurința cu care modelele pot fi optimizate special pentru a obține scoruri bune.

În contextul unei concurențe acerbe pe piața modelelor IA, unde imaginea publică este adesea la fel de importantă ca performanța reală, astfel de tactici ridică semne de întrebare asupra eticii în promovarea tehnologiilor emergente.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...