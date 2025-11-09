Microsoft a prezentat un nou mediu de simulare destinat testării agenților AI, alături de o serie de cercetări care arată că modelele actuale pot fi ușor manipulate și au dificultăți în scenarii practice.

Urmărește cele mai noi producții video TechRider.ro - articolul continuă mai jos -

Proiectul, realizat împreună cu Universitatea de Stat din Arizona, ridică semne de întrebare cu privire la maturitatea agenților autonomi și la gradul în care aceștia pot fi integrați în activități zilnice fără supervizare umană, conform TechCrunch.

Platforma de testare, numită „Magentic Marketplace”, este concepută ca o piață virtuală în care agenți AI joacă roluri diferite. Un exemplu de scenariu include un agent ce reprezintă un client care încearcă să comande o cină, în timp ce mai mulți agenți ce reprezintă restaurante concurează pentru a obține comanda. În cadrul experimentelor inițiale, au fost folosiți 100 de agenți de tip client și 300 de agenți de tip afacere.

Codul platformei este disponibil open-source, ceea ce permite altor echipe de cercetare să reproducă rezultatele sau să creeze noi scenarii de testare. Această accesibilitate este considerată esențială pentru înțelegerea și perfecționarea comportamentului agenților AI în medii dinamice și competitive.

Ece Kamar, vicepreședinte corporativ și director al AI Frontiers Lab în cadrul Microsoft Research, a declarat: „Există cu adevărat o întrebare despre cum se va schimba lumea atunci când acești agenți vor colabora, vor vorbi între ei și vor negocia. Vrem să înțelegem aceste lucruri în profunzime.”

Rezultatele testelor și comportamentul agenților în situații reale simulate

Testele au implicat modele avansate precum GPT-4o, GPT-5 și Gemini-2.5-Flash. Rezultatele au arătat limite semnificative, în special în situațiile în care agenții-client au primit un număr ridicat de opțiuni. Pe măsură ce opțiunile cresc, agenții tind să își piardă eficiența și devin mai vulnerabili la influențare din partea agenților care reprezintă diferite afaceri.

„Ne dorim ca acești agenți să ne ajute să procesăm multe opțiuni,” a spus Kamar. „Și observăm că modelele actuale se copleșesc atunci când au prea multe opțiuni.”

O altă dificultate evidențiată în cercetare a fost colaborarea între agenți. Atunci când două sau mai multe modele trebuiau să lucreze împreună pentru atingerea unui obiectiv comun, acestea întâmpinau probleme în stabilirea rolurilor și a pașilor de cooperare. Performanța s-a îmbunătățit atunci când agenților li s-au oferit instrucțiuni clare, însă acest lucru sugerează că abilitatea de colaborare nu este încă naturală sau autonomă.

„Putem instrui modelele — le putem spune pas cu pas,” afirmă Kamar. „Dar dacă testăm în mod inerent capabilitățile lor de colaborare, m-aș aștepta ca aceste modele să aibă astfel de capabilități în mod implicit.”

Concluzii privind maturitatea agenților AI

Rezultatele indică faptul că agenții AI autonomi sunt încă într-un stadiu în care necesită îmbunătățiri tehnice semnificative înainte de a putea funcționa în situații reale fără supervizare constantă. Deși companiile din industrie promovează un viitor în care agenții AI vor prelua sarcini complexe, cercetarea Microsoft arată că există încă vulnerabilități legate de manipulare, procesarea informațiilor și cooperare între agenți.

„Magentic Marketplace” este prezentat drept un cadru de testare care permite evaluarea transparentă și reproductibilă a comportamentului agenților, înainte de implementarea lor în aplicații comerciale pe scară largă.