Deși OpenAI, Google și alți giganți tehnologici au lansat în ultimele luni actualizări menite să îmbunătățească capacitatea chatboturilor de a raționa și a răspunde mai precis, testele recente arată că aceste versiuni noi sunt adesea mai puțin fiabile decât cele anterioare, relatează NewScientist.
Vinovate sunt așa-numitele „halucinații”, erori de conținut în care modelele oferă informații false, irelevante sau complet inventate. Și, potrivit unor analize independente, nu doar că problema persistă, dar pare să se agraveze.
Halucinațiile se dublează în modelele recente
Un raport tehnic publicat de OpenAI a scos la iveală faptul că cele mai noi modele de limbaj, o3 și o4-mini, lansate în aprilie 2025, înregistrează rate de halucinație mult mai mari decât versiunea anterioară, o1, din 2024.
În sarcini precum rezumarea informațiilor publice despre persoane, modelul o3 a halucinat în 33% din cazuri, iar o4-mini în 48%. Spre comparație, o1 avea o rată de eroare de doar 16%.
Promisiuni înșelate: îmbunătățiri care strică
Nici ceilalți jucători din industrie nu stau mai bine. Un clasament realizat de compania Vectara, care monitorizează acuratețea modelelor AI în diverse sarcini, arată că mai multe modele „de raționament”, inclusiv DeepSeek-R1, dezvoltat de compania DeepSeek, au înregistrat creșteri în două cifre ale ratei de halucinație față de versiunile anterioare.
OpenAI susține că procesul de raționament nu este în sine cauza acestor erori. „Halucinațiile nu sunt neapărat mai frecvente în modelele de raționament, însă lucrăm activ pentru a reduce ratele ridicate observate la o3 și o4-mini”, a declarat un purtător de cuvânt al companiei.
De la curiozitate tehnologică la risc reputațional
Problema nu este doar una tehnică, ci are implicații directe pentru utilizarea practică a acestor tehnologii. Un chatbot care oferă constant informații false nu este un asistent de cercetare util.
Un „paralegal virtual” care citează cazuri inexistente poate compromite un proces. Un agent de relații cu clienții care transmite politici expirate poate afecta reputația unei companii.
Ce spun testele și ce lipsește din ele
Clasamentul Vectara evaluează modelele în funcție de consistența lor factuală în sarcini de rezumare a unor documente. Potrivit lui Forrest Sheng Bao, cercetător la Vectara, ratele de halucinație sunt „aproape identice” între modelele de raționament și cele care nu folosesc astfel de tehnici, cel puțin în cazul sistemelor dezvoltate de OpenAI și Google. Google nu a oferit comentarii suplimentare.
Emily Bender, lingvist computațional la Universitatea din Washington, atrage atenția că aceste teste nu reflectă acuratețea modelelor în alte tipuri de sarcini. Mai mult, termenul „halucinație” este considerat problematic.
„Induce ideea că aceste erori sunt anomalii ce pot fi eliminate și umanizează excesiv mașinile, când spunem că halucinează, sugerăm că percep realitatea, ceea ce nu e cazul”, declară Bender.
Greșelile AI nu vor dispărea prea curând
Și Arvind Narayanan, expert în AI la Universitatea Princeton, avertizează că problema este mai complexă. Modelele pot greși și din alte motive, precum utilizarea unor surse nesigure sau învechite.
Suplimentarea datelor de antrenament și a puterii de calcul nu a dus automat la creșterea acurateței.
Uneori, soluția e să nu folosești AI deloc
Narayanan sugerează că, în unele cazuri, folosirea AI e justificată doar dacă verificarea răspunsurilor e mai rapidă decât cercetarea de la zero. Dar pentru multe aplicații critice, cea mai sigură soluție ar putea fi pur și simplu să nu ne bazăm deloc pe chatboturi pentru informații factuale.