Silicon Valley investește masiv în medii simulate pentru antrenarea agenților AI

Centru de date
Photo by Adrien on Unsplash

Giganții tehnologici din Silicon Valley investesc masiv într-o nouă abordare pentru antrenarea agenților de inteligență artificială, simularea de medii de lucru complexe care să permită acestor sisteme să învețe sarcini cu mai mulți pași, informează TechCrunch.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

În timp ce CEO-ii companiilor Big Tech promit de ani de zile agenți AI capabili să utilizeze autonom aplicațiile software pentru a îndeplini sarcini, realitatea actuală este că tehnologia rămâne încă limitată. Testarea agenților de consum actuali, precum ChatGPT Agent de la OpenAI sau Comet de la Perplexity, dezvăluie rapid aceste limitări.

Noua frontieră, mediile de învățare prin întărire

Dezvoltarea unor agenți AI mai robuști necesită tehnici noi pe care industria le descoperă încă. Una dintre acestea constă în simularea atentă a spațiilor de lucru unde agenții pot fi antrenați pe sarcini complexe, cunoscute sub numele de medii de învățare prin întărire (RL environments).

La fel cum seturile de date etichetate au alimentat valul anterior de AI, mediile RL încep să pară un element critic în dezvoltarea agenților.

„Toate marile laboratoare AI construiesc medii RL intern. Dar după cum vă puteți imagina, crearea acestor seturi de date este foarte complexă, astfel că laboratoarele AI caută și furnizori terți care pot crea medii și evaluări de înaltă calitate”, a declarat Jennifer Li, partener general la Andreessen Horowitz.

Un ecosistem în plină dezvoltare

Această orientare către mediile RL a generat o nouă clasă de startup-uri bine finanțate, precum Mechanize și Prime Intellect, care urmăresc să conducă acest spațiu. În același timp, marile companii de etichetare date, precum Mercor și Surge, investesc mai mult în medii RL pentru a ține pasul cu transformările industriei.

Conform The Information, liderii de la Anthropic au discutat cheltuirea a mai mult de 1 miliard de dolari pentru medii RL în următorul an.

Cum funcționează mediile RL

În esență, mediile RL sunt terenuri de antrenament care simulează ceea ce ar face un agent AI într-o aplicație software reală. Un fondator a descris construirea acestora ca fiind „ca să creezi un joc video foarte plictisitor”.

De exemplu, un mediu ar putea simula un browser Chrome și să însărcineze un agent AI cu cumpărarea unei perechi de șosete de pe Amazon. Agentul este evaluat pe baza performanței sale și primește un semnal de recompensă când reușește.

Deși o astfel de sarcină pare relativ simplă, există multe locuri unde un agent AI s-ar putea încurca, ar putea să se piardă navigând prin meniurile derulante ale paginii web sau să cumpere prea multe șosete.

Competiția se intensifică

Companiile de etichetare date AI precum Scale AI, Surge și Mercor încearcă să profite de acest moment și să construiască medii RL. Aceste companii au mai multe resurse decât multe startup-uri din spațiu, precum și relații profunde cu laboratoarele AI.

Edwin Chen, CEO-ul Surge, spune că a observat recent o „creștere semnificativă” a cererii pentru medii RL în cadrul laboratoarelor AI. Surge – care a generat 1,2 miliarde de dolari în venituri anul trecut lucrând cu laboratoare AI precum OpenAI, Google, Anthropic și Meta, a creat recent o organizație internă nouă dedicată specific construirii mediilor RL.

Mechanize, un startup fondat acum aproximativ șase luni cu obiectivul ambițios de a „automatiza toate locurile de muncă”, oferă inginerilor software salarii de 500.000 de dolari pentru a construi medii RL, mult mai mari decât ar putea câștiga un contractor cu ora lucrând la Scale AI sau Surge.

Întrebări despre viabilitate

Întrebarea deschisă în jurul mediilor RL este dacă tehnica se va scala precum metodele anterioare de antrenament AI. Învățarea prin întărire a alimentat unele dintre cele mai mari salturi în AI din ultimul an, inclusiv modele precum o1 de la OpenAI și Claude Opus 4 de la Anthropic.

Cu toate acestea, unii sunt sceptici. Ross Taylor, fost lider de cercetare AI la Meta care a co-fondat General Reasoning, consideră că mediile RL sunt predispuse la „reward hacking”, un proces prin care modelele AI înșală pentru a obține o recompensă, fără să îndeplinească cu adevărat sarcina.

„Cred că oamenii subestimează cât de dificil este să scalezi mediile. Chiar și cele mai bune medii RL disponibile public nu funcționează de obicei fără modificări serioase”, a declarat Taylor.

  • George Radu este un autor care abordează subiecte variate din domeniul tehnologiei, apărării și viitorului. Domeniile sale de expertiză includ inteligența artificială etică, interfețele om-mașină (HMI), realitatea augmentată și virtuală aplicată (XR), precum și impactul social și cultural al noilor tehnologii. Nu se teme să pună întrebări dificile și să exploreze implicațiile filozofice ale inovațiilor tehnologice.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...