VIDEO Google prezintă un nou model AI conceput pentru a naviga și interacționa pe internet prin intermediul unui browser, în interfețe concepute pentru oameni

Modelul AI Gemini de la Google
Sursa foto: Didem Mente / AFP / Profimedia

Google prezintă un nou model AI Gemini conceput pentru a naviga și a interacționa cu internetul prin intermediul unui browser, permițând agenților AI să efectueze operațiuni în cadrul unor interfețe concepute pentru a fi utilizate de oameni, nu de roboți, scrie The Verge.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Modelul, denumit Gemini 2.5 Computer Use, utilizează „capacități de înțelegere vizuală și raționament” pentru a analiza solicitarea unui utilizator și a efectua o sarcină, cum ar fi completarea și trimiterea unui formular.

Poate fi utilizat pentru testarea interfeței utilizatorului sau pentru navigarea în interfețe create pentru persoane care nu dispun de un API sau de altă conexiune directă. Alte versiuni ale acestui model au fost utilizate pentru funcții agentice în AI Mode și Project Mariner, un prototip de cercetare care utilizează agenți AI pentru a efectua sarcini pe cont propriu într-un browser, cum ar fi adăugarea de articole în coșul de cumpărături pe baza unei liste de ingrediente.

Anunțul Google vine la doar o zi după ce OpenAI a dezvăluit noi aplicații pentru ChatGPT ca parte a Dev Day și continuă să își concentreze atenția asupra funcției ChatGPT Agent, care poate îndeplini sarcini complexe în numele utilizatorilor. Între timp, Anthropic a lansat deja anul trecut o versiune a modelului său Claude AI cu „utilizarea computerului”.

Google a publicat câteva videoclipuri demonstrative care arată instrumentul său de utilizare a computerului în acțiune și menționează că viteaza acestora este accelerată de 3 ori.

Google afirmă că modelul său de utilizare a computerului „depășește alternativele de top în mai multe teste de performanță web și mobile”. Spre deosebire de ChatGPT Agent și de instrumentul de utilizare a computerului de la Anthropic, noul model AI de la Google are acces doar la un browser, nu la un întreg mediu de computer. Google menționează că acesta „nu este încă optimizat pentru controlul la nivel de sistem de operare desktop” și suportă în prezent 13 acțiuni, inclusiv deschiderea unui browser web, tastarea textului, precum și glisarea și fixarea elementelor.

Gemini 2.5 Computer Use este disponibil pentru dezvoltatori prin Google AI Studio și Vertex AI, dar există și o demonstrație pe Browserbase, unde puteți urmări cum îndeplinește sarcini.

  • Ștefan Munteanu este un jurnalist specializat în domenii variate precum tehnologie, inteligență artificială, securitate cibernetică și apărare. Articolele sale acoperă noutățile din industrie, analize și impactul tehnologiei asupra societății. El este pasionat de inovațiile digitale și are un interes puternic pentru cele mai recente evoluții geopolitice.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...