Startup-ul Perplexity, acuzat că a copiat informații de pe site-uri care au interzis în mod explicit preluarea prin AI

perplexity AI
Sursa foto: Richard Drew / AP / Profimedia

Startup-ul AI Perplexity copiază și extrage conținut de pe site-uri web care au indicat în mod explicit că nu doresc să fie copiate, potrivit furnizorului de infrastructură internet Cloudflare, citat de TechCrunch.

Urmărește cele mai noi producții video TechRider.ro

- articolul continuă mai jos -

Luni, Cloudflare a publicat o cercetare în care afirma că a observat că startup-ul AI ignoră interdicțiile și ascunde activitățile sale de crawling și scraping. Gigantul infrastructurii de rețea a acuzat Perplexity că își ascunde identitatea atunci când încearcă să extragă pagini web „în încercarea de a eluda preferințele site-ului web”, au scris cercetătorii Cloudflare.

Produsele AI, precum cele oferite de Perplexity, se bazează pe colectarea unor cantități mari de date de pe internet, iar startup-urile AI au copiat de multe ori, fără permisiune, texte, imagini și videoclipuri de pe internet pentru a-și face produsele să funcționeze. În ultima perioadă, site-urile au încercat să riposteze utilizând fișierul Robots.txt, un standard web care indică motoarelor de căutare și companiilor AI ce pagini pot fi indexate și care nu, eforturi care au avut rezultate mixte până în prezent.

Perplexity pare să ocolească în mod intenționat aceste blocaje prin schimbarea „agentului utilizator” al roboților săi, adică un semnal care identifică un vizitator al site-ului web după dispozitivul și tipul versiunii sale, precum și prin schimbarea rețelelor sale de sisteme autonome (ASN), care sunt, în esență, un număr care identifică rețelele mari de pe internet, potrivit Cloudflare.

„Această activitate a fost observată pe zeci de mii de domenii și milioane de solicitări pe zi. Am reușit să identificăm acest crawler folosind o combinație de învățare automată și semnale de rețea”, se arată în postarea Cloudflare.

Purtătorul de cuvânt al Perplexity, Jesse Dwyer, a respins postarea de pe blogul Cloudflare ca fiind o „strategie de vânzare”, adăugând într-un e-mail către TechCrunch că capturile de ecran din postare „arată că nu a fost accesat niciun conținut”. Într-un e-mail ulterior, Dwyer a susținut că botul menționat în blogul Cloudflare „nici măcar nu este al nostru”.

Cloudflare a declarat că a observat pentru prima dată acest comportament după ce clienții săi s-au plâns că Perplexity efectua crawling și scraping pe site-urile lor, chiar și după ce au adăugat reguli în fișierul Robots și pentru blocarea specifică a boților cunoscuți ai Perplexity. Cloudflare a declarat că a efectuat apoi teste pentru a verifica și a confirmat că Perplexity eluda aceste blocaje.

„Am observat că Perplexity utilizează nu numai agentul utilizator declarat, ci și un browser generic destinat să imite Google Chrome pe macOS atunci când crawlerul său cunoscut a fost blocat”, potrivit Cloudflare.

Compania a mai declarat că a eliminat roboții Perplexity din lista sa verificată și a adăugat noi tehnici pentru a-i bloca.

Cloudflare a adoptat recent o poziție publică împotriva crawlerelor AI. Luna trecută, Cloudflare a anunțat lansarea unei piețe care permite proprietarilor și editorilor de site-uri web să perceapă taxe de la scraperele AI care le vizitează site-urile. Directorul executiv al Cloudflare, Matthew Prince, a tras un semnal de alarmă la momentul respectiv, afirmând că AI distruge modelul de afaceri al internetului, în special al editorilor. Anul trecut, Cloudflare a lansat și un instrument gratuit pentru a împiedica boții să extragă date de pe site-uri web pentru a antrena AI.

Nu este prima dată când Perplexity este acuzată de scraping fără autorizație. Anul trecut, site-uri de știri, precum Wired, au afirmat că Perplexity le plagia conținutul.

  • Ștefan Munteanu este un jurnalist specializat în domenii variate precum tehnologie, inteligență artificială, securitate cibernetică și apărare. Articolele sale acoperă noutățile din industrie, analize și impactul tehnologiei asupra societății. El este pasionat de inovațiile digitale și are un interes puternic pentru cele mai recente evoluții geopolitice.

Total
0
Shares
Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Citește si...