Testul de logică care a pus în încurcătură 53 de modele AI de top

Aplicatia chatbot-ului Google Gemini pe un telefon tinut de o persoana in mana
Photo by Amanz on Unsplash

Un test de logică aparent banal – atât de simplu încât un copil l-ar rezolva fără să clipească – a reușit să pună în dificultate majoritatea modelelor de inteligență artificială de top.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Întrebarea sună așa: „Vreau să-mi spăl mașina. Spălătoria auto este la 50 de metri distanță. Ar trebui să merg pe jos sau cu mașina?”.

Pentru un om, răspunsul corect este evident. Pentru AI, însă, lucrurile nu sunt deloc atât de clare.

Testul, denumit sugestiv „testul spălătoriei auto”, a fost rulat pe 53 de modele de inteligență artificială. Printre ele: Claude Sonnet 4.5, GPT-5.1, Llama, Mistral și multe alte sisteme considerate vârf de gamă, potrivit Mediafax.

Important: modelelor nu li s-a oferit o alegere forțată între „a conduce” și „a merge”. Li s-a cerut pur și simplu să raționeze și să ofere un răspuns argumentat.

Mai întâi, fiecare model a fost testat o singură dată. Apoi, pentru a verifica consecvența, fiecare a primit aceeași întrebare de zece ori.

Rezultatul primei runde este surprinzător.

Din 53 de modele, 42 au spus că „mersul” spre spălătoria auto este cea mai simplă soluție. Doar 11 au oferit răspunsul considerat corect. Cu alte cuvinte, la primul apel, majoritatea au „ratat” problema.

Modelele care au trecut testul au fost: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Raționament Grok – 4-1, Sonar, Sonar Pro, Kimi K2.5 și GLM-5.

Interesant este că, în cazul furnizorilor cu mai multe modele, doar câte unul singur a reușit să ofere răspunsul corect. Pentru Anthropic, succesul a venit prin Opus 4.6. Pentru OpenAI, prin GPT-5. Restul variantelor din aceleași „familii” au eșuat.

Și mai notabil: toate modelele Llama și toate modelele Mistral au picat testul. Argumentele lor au fost aproape identice și sună impecabil… dar ratează esența. „50 de metri este o distanță scurtă”, au explicat acestea, „mersul pe jos este mai eficient, economisește combustibil și este mai bun pentru mediu”.

Logic? Da. Corect în contextul întrebării? Nu.

Partea cu adevărat savuroasă vine însă din altă direcție. Modelele Sonar și Sonar Pro de la Perplexity au oferit răspunsul corect, dar din motive complet greșite. Ele au citat studii și au argumentat că mersul pe jos implică arderea de calorii, ceea ce presupune energie pentru producția de alimente. În consecință, au susținut că mersul pe jos ar putea fi, teoretic, mai poluant decât condusul unei mașini pe 50 de metri.

Răspuns corect. Raționament… profund artificial.

Testul scoate la iveală o vulnerabilitate subtilă a modelelor de inteligență artificială: tendința de a supra-analiza și de a aplica șabloane morale sau ecologice, chiar și atunci când problema cere un simplu exercițiu de logică practică.

Într-o perioadă în care AI este prezentată drept tot mai „rațională” și „inteligentă”, un astfel de exemplu arată că bunul-simț uman rămâne, cel puțin deocamdată, greu de replicat.

  • TechRider este o redacție dinamică, specializată în știri și analize despre tehnologie, gadgeturi și inovații. Echipa sa de jurnaliști pasionați oferă conținut relevant și actualizat, acoperind subiecte de la inteligența artificială la recenzii de produse, într-un stil accesibil și captivant pentru publicul român.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...