Noul model de inteligență artificială al Google DeepMind optimizat pentru roboți funcționează fără conexiune la internet

Noul model de inteligență artificială al Google DeepMind optimizat pentru roboți funcționează fără conexiune la internet
Sursa imagine: Google

Google DeepMind a lansat un nou model lingvistic numit Gemini Robotics On-Device, care poate rula sarcini local pe roboți fără a necesita o conexiune la internet, potrivit ArsTechnica.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Inteligența artificială generativă joacă un rol din ce în ce mai important și în roboții fizici reali. După ce a anunțat Gemini Robotics la începutul acestui an, Google DeepMind a dezvăluit acum un nou model VLA (vision language action) pe dispozitiv pentru controlul roboților. Spre deosebire de versiunea anterioară, nu există nicio componentă cloud, ceea ce permite roboților să funcționeze cu autonomie deplină.

Carolina Parada, șefa departamentului de robotică la Google DeepMind, afirmă că această abordare a roboticii AI ar putea face roboții mai fiabili în situații dificile. Aceasta este, de asemenea, prima versiune a modelului de robotică Google pe care dezvoltatorii o pot adapta pentru utilizările lor specifice.

Robotica reprezintă o problemă unică pentru AI, deoarece robotul nu numai că există în lumea fizică, dar își schimbă și mediul. Fie că îl puneți să mute obiecte sau să lege șireturile, este dificil de prevăzut toate eventualitățile cu care se poate confrunta un robot. Abordarea tradițională de antrenare a unui robot în acțiuni cu feedback era foarte lentă, dar AI generativ permite o generalizare mult mai mare.

„Se bazează pe înțelegerea multimodală a lumii de către Gemini pentru a realiza o sarcină complet nouă”, explică Carolina Parada. „Astfel, Gemini poate produce text, scrie poezie, rezuma un articol, scrie cod și genera imagini. De asemenea, poate genera acțiuni ale roboților.”

Tehnologie pentru roboți fără conectare la cloud

În versiunea anterioară a Gemini Robotics (care este încă cea mai bună versiune a tehnologiei robotice Google), platformele rulau un sistem hibrid cu un model mic pe robot și unul mai mare care rula în cloud. Chatbot-urilor le ia câteva secunde să „gândească” în timp ce generează un rezultat, dar roboții trebuie să reacționeze rapid. Dacă îi spuneți robotului să ridice și să mute un obiect, nu doriți ca acesta să se oprească în timp ce generează fiecare pas. Modelul local permite o adaptare rapidă, în timp ce modelul bazat pe server poate ajuta la sarcini complexe de raționament.

Google DeepMind a lansat acum modelul local ca VLA independent, iar acesta este surprinzător de robust.

Noul model Gemini Robotics On-Device este mai puțin precis decât versiunea hibridă. Potrivit lui Parada, multe sarcini vor funcționa imediat. „Când ne jucăm cu roboții, vedem că sunt surprinzător de capabili să înțeleagă o situație nouă”, spune Parada pentru Ars.

Prin lansarea acestui model cu un SDK complet, echipa speră că dezvoltatorii vor da roboților alimentați de Gemini noi sarcini și le vor arăta medii noi, ceea ce ar putea dezvălui acțiuni care nu funcționează cu reglarea standard a modelului. Cu ajutorul SDK-ului, cercetătorii în robotică vor putea adapta VLA la noi sarcini cu doar 50 până la 100 de demonstrații.

Noul model de inteligență artificială al Google DeepMind optimizat pentru roboți funcționează fără conexiune la internet
Noul model Robotics On-Device este aproape la fel de adaptabil ca modelul hibrid cu procesare în cloud. Sursa imagine: Google

Este încă necesară intervenția omului în procesul de antrenare

O „demonstrație” în robotica AI este puțin diferită de alte domenii ale cercetării AI. Parada explică faptul că demonstrațiile implică de obicei teleoperarea robotului – controlul manual al mașinii pentru a finaliza o sarcină reglează modelul pentru a gestiona acea sarcină în mod autonom. Deși datele sintetice sunt un element al antrenamentului Google, ele nu pot înlocui datele reale. „Încă considerăm că, în cazul comportamentelor cele mai complexe și mai delicate, avem nevoie de date reale”, spune Parada. „Dar se pot face multe lucruri cu simularea.”

Totuși, aceste comportamente extrem de complexe pot depăși capacitățile VLA-ului de pe dispozitiv. Acesta nu ar trebui să aibă probleme cu acțiuni simple, cum ar fi legarea unui șiret (o sarcină tradițional dificilă pentru roboții cu AI) sau împăturirea unei cămăși. Dacă, însă, ați dori ca un robot să vă pregătească un sandviș, ar avea probabil nevoie de un model mai puternic pentru a parcurge procesul de raționament în mai mulți pași necesar pentru a pune pâinea în locul potrivit.

Echipa consideră că Gemini Robotics On-Device este ideal pentru medii în care conectivitatea la cloud este instabilă sau inexistentă. Prelucrarea locală a datelor vizuale ale robotului este, de asemenea, mai bună pentru confidențialitate, de exemplu, într-un mediu medical.

Construirea de roboți siguri

Siguranța este întotdeauna o preocupare în cazul sistemelor de AI, fie că este vorba de un chatbot care furnizează informații periculoase sau de un robot care se comportă ca un Terminator. Cu toții am văzut chatbot-uri AI generative și modele LLM generatoare de imagini care halucinează falsuri în rezultatele lor, iar sistemele generative care alimentează Gemini Robotics nu sunt diferite – modelul nu funcționează corect de fiecare dată.

Pentru a se asigura că roboții se comportă în siguranță, Gemini Robotics utilizează o abordare pe mai multe niveluri. „Cu Gemini Robotics complet, vă conectați la un model care raționează despre ce este sigur să faceți, punct”, spune Parada. „Apoi, îl puneți să comunice cu un VLA care produce efectiv opțiuni, iar VLA apelează un controler de nivel inferior, care are de obicei componente critice pentru siguranță, cum ar fi forța cu care puteți mișca sau viteza cu care puteți mișca acest braț.”

Este important de menționat că noul model integrat în dispozitiv este doar un VLA, astfel încât dezvoltatorii vor fi responsabili de integrarea siguranței. Google sugerează însă ca aceștia să reproducă ceea ce a făcut echipa Gemini. Se recomandă ca dezvoltatorii din programul de testare inițială să conecteze sistemul la API-ul standard Gemini Live, care include un nivel de siguranță. De asemenea, aceștia ar trebui să implementeze un controler de nivel inferior pentru verificările critice de siguranță.

Oricine este interesat să testeze Gemini Robotics On-Device trebuie să solicite acces la programul de testare de încredere al Google. Carolina Parada de la Google spune că în ultimii trei ani au avut loc multe descoperiri în domeniul roboticii și că acesta este doar începutul – versiunea actuală a Gemini Robotics se bazează încă pe Gemini 2.0. Parada menționează că echipa Gemini Robotics este de obicei cu o versiune în urma dezvoltării Gemini, iar Gemini 2.5 a fost citată ca o îmbunătățire masivă a funcționalității chatbotului. Poate că același lucru va fi valabil și pentru roboți.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...