Motoarele de căutare AI eșuează testul de acuratețe, studiul arată o rată de eroare de 60%, crește până la 96% dacă este Grok-3

search engine, google, men, employees, image of women, seek, sexism, minority, search engine, search engine, search engine, google, google, google, google, google, seek
Photo by geralt on Pixabay

Este o concluzie deja bine știută că modelele AI pot avea lipsă de precizie. Halucinațiile și prezentarea cu încredere a informațiilor greșite au reprezentat o luptă continuă pentru dezvoltatori. Utilizarea variază atât de mult în cazuri individuale de utilizare, încât este greu de stabilit procente cuantificabile legate de acuratețea AI. O echipă de cercetare susține că acum are acele numere raportează Arstechnica.com.

Centrul Tow pentru Jurnalism Digital a studiat recent opt ​​motoare de căutare AI, inclusiv ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search și Copilot. Au testat acuratețea fiecăruia și au înregistrat cât de des instrumentele au refuzat să răspundă.

Cercetătorii au ales aleatoriu 200 de articole de știri de la 20 de editori de știri (10 fiecare). Ei s-au asigurat că fiecare poveste a fost returnată în primele trei rezultate într-o căutare pe Google atunci când foloseau un fragment citat din articol. Apoi, au efectuat aceeași interogare în fiecare instrument de căutare AI și au evaluat acuratețea în funcție de faptul că căutarea a citat corect articolul, organizația de știri și adresa URL.

Apoi, cercetătorii au etichetat fiecare căutare pe baza gradelor de precizie de la „complet corectă” la „complet incorectă”.

Ratele de eroare de citare au variat considerabil între platformele testate. Perplexity a furnizat informații incorecte în 37% dintre interogările testate, în timp ce ChatGPT Search a identificat incorect 67% (134 din 200) dintre articolele interogate. Grok 3 a demonstrat cea mai mare rată de eroare, la 94 la sută. În total, cercetătorii au efectuat 1.600 de interogări în cele opt instrumente diferite de căutare generativă.

Copilot de la Microsoft nu a fost cu mult mai bun dacă ținem cont că a refuzat să răspundă la 104 de întrebări din 200. Din restul de 96, doar 16 au fost „complet corecte”, 14 au fost „parțial corecte” și 66 au fost „complet incorecte”, făcându-l aproximativ 70 la sută inexact.

Studiul a evidențiat o tendință comună în rândul acestor modele AI: în loc să refuze să răspundă atunci când le lipseau informații de încredere, modelele au oferit frecvent răspunsuri plauzibile, dar incorecte sau speculative – cunoscute din punct de vedere tehnic ca confabulații. Cercetătorii au subliniat că acest comportament a fost consecvent în toate modelele testate, nu se limitează la un singur instrument.

În mod surprinzător, versiunile premium, plătite ale acestor instrumente de căutare AI s-au descurcat și mai rău în anumite privințe. Perplexity Pro (20 USD/lună) și serviciul premium Grok 3 (40 USD/lună) au furnizat cu încredere răspunsuri incorecte mai des decât omologii lor gratuiți. Deși aceste modele premium au răspuns corect la un număr mai mare de solicitări, reticența lor de a refuza răspunsurile incerte a condus la rate generale de eroare mai mari.

Cercetătorii CJR au descoperit, de asemenea, dovezi care sugerează că unele instrumente de inteligență artificială au ignorat setările Protocolului de excludere a robotilor – un standard voluntar pe scară largă acceptat de editori pentru a solicita ca crawlerele web să evite accesarea anumitor conținuturi. De exemplu, versiunea gratuită a lui Perplexity a identificat corect toate cele 10 fragmente din conținutul National Geographic cu plată, în ciuda faptului că National Geographic a interzis în mod explicit crawlerele web ale Perplexity.

Chiar și atunci când aceste instrumente de căutare AI au citat surse, deseori au direcționat utilizatorii către versiuni sindicalizate de conținut pe platforme precum Yahoo News, mai degrabă decât pe site-urile originale ale editorilor. Acest lucru s-a întâmplat chiar și în cazurile în care editorii aveau acorduri formale de licență cu companiile AI.

Fabricarea unor URL-uri inventate a apărut ca o altă problemă semnificativă. Mai mult de jumătate dintre citările de la Google Gemini și Grok 3 au condus utilizatorii la URL-uri eronate sau inexistente, ducând la pagini de eroare. Din 200 de citări testate din Grok 3, 154 au dus la legături întrerupte.

Aceste probleme creează o tensiune semnificativă pentru editori, care se confruntă cu alegeri dificile. Blocarea crawlerelor AI poate duce la pierderea totală a atribuirii, în timp ce permiterea acestora permite reutilizarea pe scară largă fără a conduce traficul înapoi către site-urile proprii ale editorilor.

Studiul este fascinant, deoarece confirmă cuantificabil ceea ce știm de câțiva ani – că LLM-urile sunt „cei mai mari escroci din toate timpurile”. Ei raportează cu deplină autoritate că ceea ce spun ei este adevărat chiar și atunci când nu este, inventând argumente sau afirmații false atunci când sunt confruntați.

Într-un articol anecdotic din 2023, Ted Gioia (The Honest Broker) a subliniat zeci de răspunsuri ChatGPT, arătând că botul „minte” cu încredere atunci când răspunde la numeroase interogări. În timp ce unele exemple erau întrebări contradictorii, multe au fost doar întrebări generale.

„Dacă aș crede jumătate din ceea ce am auzit despre ChatGPT, l-aș lăsa să preia The Honest Broker în timp ce stau pe plajă, savurând cocktailuri”, a remarcat Gioia.

Chiar și atunci când admitea că a răspuns greșit, ChatGPT urma acea admitere cu mai multe informații inventate. LLM este aparent programat să răspundă la fiecare intrare de utilizator cu orice preț.

Probabil, cel mai nebunesc lucru despre toate acestea este că companiile care produc aceste instrumente nu sunt transparente cu privire la această lipsă de acuratețe în timp ce percep publicului 20 până la 200 USD pe lună pentru a accesa cele mai recente modele AI.

Cu toate acestea, nu toată lumea este de acord. Lance Ulanoff de la TechRadar a spus că s-ar putea să nu mai folosească Google niciodată după ce a încercat ChatGPT Search. El descrie instrumentul ca fiind rapid, conștient și precis, cu o interfață curată, fără anunțuri.

Mark Howard, director de operațiuni la revista Time, și-a exprimat îngrijorarea către CJR cu privire la asigurarea transparenței și controlului asupra modului în care apare conținutul Time prin căutări generate de AI. În ciuda acestor probleme, Howard vede loc de îmbunătățire în iterațiile viitoare, invocând investiții substanțiale și eforturi de inginerie menite să îmbunătățească aceste instrumente.

Cu toate acestea, Mark Howard are și o atenționare pentru utilizatori, sugerând că este vina utilizatorului dacă nu sunt sceptici cu privire la acuratețea instrumentelor AI gratuite: „Dacă cineva, în calitate de consumator, crede în acest moment că oricare dintre aceste produse gratuite va fi 100% precis, atunci este vina lui.”

Acest raport continuă constatările anterioare publicate de Tow Center în Noiembrie 2024, care au identificat probleme similare de acuratețe în modul în care ChatGPT a gestionat conținutul legat de știri.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...