Cel mai recent model AI de la Google, Gemini 2.5 Pro domină benchmark-urile

Gemini 2.5 Pro Experimental
Sursa imagine: Google Deepmind

Cel mai avansat model AI de la Google este disponibil acum în Google AI Studio iar utilizatorii Gemini Advanced îl pot selecta în meniul derulant al modelului de pe desktop și mobil.

Marți, Google a dezvăluit Gemini 2.5, o nouă familie de modele AI cu „raționament” care se oprește pentru a „gândi” înainte de a răspunde la o întrebare.

Google care a creat arhitectura originală a modelului Transformer pe care o folosesc ChatGPT de la OpenAI, Grok de la xAI, Anthropic Claude și alte modele, a îmbunătățit seria sa de modele Gemini de ceva vreme, iar compania a lansat cea mai puternică versiune de până acum – Gemini 2.5 Pro.

Gemini 2.5 Pro Experimental este un model AI multimodal, rațional, despre care compania susține că este cel mai inteligent model al său de până acum. Acest model va fi disponibil marți în platforma de dezvoltare a companiei, Google AI Studio, precum și în aplicația Gemini pentru abonații la planul AI de 20 USD pe lună al companiei, Gemini Advanced.

În continuare, Google spune că toate noile sale modele AI vor avea capacități de raționament integrate.

De când OpenAI a lansat primul model cu raționament AI în septembrie 2024, o1, industria tehnologică s-a luptat pentru a egala sau a depăși capacitățile acelui model cu propriile lor capacități. Astăzi, Anthropic, DeepSeek, Google și xAI au toate modele cu raționament AI, care folosesc putere de calcul și timp suplimentar pentru a verifica faptele și a argumenta problemele înainte de a oferi un răspuns.

Tehnicile de raționament au ajutat modelele AI să atingă un nivel mai ridicat în sarcinile de matematică și codare. Mulți din lumea tehnologiei cred că modelele de raționament vor fi o componentă cheie a agenților AI, sisteme autonome care pot îndeplini sarcini în mare parte fără intervenția umană. Cu toate acestea, aceste modele sunt și mai scumpe.

Google a mai experimentat cu modele de raționament AI, lansând anterior o versiune „gânditoare” a lui Gemini în decembrie. Dar Gemini 2.5 reprezintă cea mai serioasă încercare a companiei de a depăși seria „o” de modele OpenAI.

Google susține că Gemini 2.5 Pro depășește în performanță  modelele AI anterioare și unele dintre modelele AI concurente de top, la mai multe puncte de referință. Mai exact, Google spune că a proiectat Gemini 2.5 pentru a excela în crearea de aplicații web atractive din punct de vedere vizual și aplicații de codare agentică.

În cadrul unei evaluări care măsoară editarea codului, numită Aider Polyglot, Google spune că Gemini 2.5 Pro are un scor de 68,6%, depășind modelele de AI de top de la OpenAI, Anthropic și laboratorul chinezesc DeepSeek.

Cu toate acestea, la un alt test de măsurare a abilităților dezvoltatorilor de software, SWE-bench Verified, Gemini 2.5 Pro obțin scoruri de 63,8%, depășind o performanță OpenAI o3-mini și R1 de la DeepSeek, dar sub performanța lui Claude 3.7 Sonnet de la Anthropic, care a obținut un scor de 70,3%.

La Humanity’s Last Exam, un test multimodal care constă din mii de întrebări crowdsourcing legate de matematică, științe umaniste și științele naturii, Google spune că Gemini 2.5 Pro obține scoruri de 18,8%, având performanțe mai bune decât majoritatea modelelor emblematice rivale.

Pentru început, Google spune că Gemini 2.5 Pro se livrează cu o fereastră de context de 1 milion de tokenuri, ceea ce înseamnă că modelul AI poate prelua aproximativ 750.000 de cuvinte dintr-o singură mișcare. Este mai lung decât întreaga serie de cărți „Stăpânul Inelelor”. Și în curând, Gemini 2.5 Pro va suporta o lungime de intrare dublă (2 milioane de tokenuri).

Google nu a publicat prețul API pentru Gemini 2.5 Pro. Compania spune că va anunța mai multe în săptămânile următoare, cel mai probabil așteptând reacția utilizatorilor având în vedere eșecurile anterioare.

În LMArea, care oferă utilizatorilor rezultate ale modelului AI, pe care ei îl notează și decid care dintre ele este mai bun, Gemini 2.5 Pro a urcat pe primul loc în clasamentul general, cu locul unu în domenii precum Hard Prompting, codificare, matematică, scriere creativă, urmărire a instrucțiunilor, interogare mai lungă și răspunsuri cu mai multe rânduri.

Hard Prompting sunt intrările textuale explicite, care pot fi citite de om, concepute pentru a ghida comportamentul AI. Aceste indicații sunt scrise în limbaj natural și sunt intuitive de realizat, bazându-se adesea pe creativitate și cunoștințele domeniului pentru a obține rezultatele dorite.

Acesta este un rezultat impresionant pentru Google, deoarece acum conduce clasamentul în toate aceste domenii și depășește Grok 3 de la xAI și GPT-4.5 de la OpenAI. În benchmark-urile standardizate ale industriei AI, Gemini 2.5 Pro este, de asemenea, lider în majoritatea benchmark-urilor, cum ar fi AIME, LiveCodeBench, Aider, SWE-Bench, SimpleQA și altele. Interesant este că 18,8% din Humanity’s Last Exam este în prezent cel mai dificil punct de referință AI.

Gemini 2.5 Pro Benchmark
Sursa imagine: Google Deepmind
Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...