Furnizorul de infrastructură web Cloudflare a anunțat o nouă caracteristică numită „AI Labyrinth” care are ca scop combaterea scrapingului neautorizat de date de către roboții (crawlere) AI prin furnizarea de conținut fals generat de AI către acești roboți anunță Arstechnica.
Instrumentul va încerca să împiedice companiile AI care accesează cu crawlere site-urile web fără permisiunea de a colecta date de instruire pentru modele AI care alimentează asistenții AI precum ChatGPT.
Cloudflare, fondată în 2009, este probabil cel mai bine cunoscută ca o companie care oferă infrastructură și servicii de securitate pentru site-uri web, în special protecție împotriva atacurilor distribuite de refuz de serviciu (DDoS) și a altor feluri de trafic rău intenționat.
În loc să blocheze pur și simplu boții, noul sistem Cloudflare îi atrage într-un „labirint” de pagini cu aspect realist, dar irelevante, irosind resursele de calcul ale crawler-ului. Abordarea reprezintă o schimbare notabilă față de strategia standard de blocare și apărare utilizată de majoritatea serviciilor de protecție a site-urilor web. Cloudflare spune că blocarea roboților uneori nu dă rezultat, deoarece alertează operatorii crawler-ului că aceștia au fost detectați.
„Când detectăm accesarea cu crawlere neautorizată, mai degrabă decât blocarea cererii, vom face legătura la o serie de pagini generate de AI care sunt suficient de convingătoare pentru a atrage un crawler să le traverseze”, scrie Cloudflare. „Dar deși arată real, acest conținut nu este de fapt conținutul site-ului pe care îl protejăm, așa că crawler-ul pierde timp și resurse.”
Compania spune că conținutul oferit roboților este în mod deliberat irelevant pentru site-ul web care este accesat cu crawlere, dar este obținut cu atenție sau generat folosind fapte științifice reale – cum ar fi informații neutre despre biologie, fizică sau matematică – pentru a evita răspândirea dezinformării (dacă această abordare previne în mod eficient dezinformarea, totuși, rămâne nedovedit). Cloudflare creează acest conținut folosind serviciul său Workers AI, o platformă comercială care rulează sarcini AI.
Cloudflare a proiectat paginile capcane și linkurile pentru a rămâne invizibile și inaccesibile pentru vizitatorii obișnuiți, astfel încât oamenii care navighează pe web să nu se lovească de ele accidental.
AI Labyrinth funcționează ca ceea ce Cloudflare numește un „oală de miere (a se citi capcană) de generație următoare”. Honeypot-urile tradiționale sunt link-uri invizibile pe care vizitatorii umani nu le pot vedea, dar roboții care analizează codul HTML le pot urma. Dar Cloudflare spune că roboții moderni au devenit adepți în identificarea acestor capcane simple, necesitând o înșelăciune mai sofisticată. Legăturile false conțin meta-directive adecvate pentru a preveni indexarea motoarelor de căutare, rămânând în același timp atractive pentru roboții de răzuire a datelor, crawlere.
„Nici o persoană reală nu ar pătrunde cu patru legături adânc într-un labirint de prostii generate de AI”, explică Cloudflare. „Orice vizitator care o face este foarte probabil să fie un bot, așa că acest lucru ne oferă un instrument nou-nouț pentru a identifica și amprenta roboții răi.”
Această identificare se alimentează într-o buclă de feedback de învățare automată — datele culese din AI Labyrinth sunt folosite pentru a îmbunătăți continuu detectarea botului în rețeaua Cloudflare, îmbunătățind în timp protecția clienților. Clienții din orice plan Cloudflare – chiar și nivelul gratuit – pot activa funcția cu o singură comutare în setările tabloului de bord.
Labirintul AI de la Cloudflare se alătură unui domeniu în creștere de instrumente concepute pentru a contracara accesul cu crawlere agresiv pe web AI. În ianuarie, a fost raportat „Nepenthes”, software-ul care atrage, în mod similar, crawlerii AI în labirinturi de conținut fals. Ambele abordări împărtășesc conceptul de bază al risipei resurselor crawler-ului, mai degrabă decât pur și simplu blocarea lor.
Cu toate acestea, în timp ce creatorul anonim al lui Nepenthes l-a descris drept „malware agresiv” menit să prindă roboții luni de zile, Cloudflare își poziționează instrumentul ca o caracteristică de securitate legitimă care poate fi activată cu ușurință în serviciul său comercial.
Amploarea accesării cu crawlere AI pe web pare substanțială, conform datelor Cloudflare care se aliniază cu rapoartele anecdotice pe care le-am auzit din surse. Compania spune că crawlerele AI generează zilnic peste 50 de miliarde de solicitări către rețeaua lor, reprezentând aproape 1% din tot traficul web pe care îl procesează. Multe dintre aceste crawler-uri colectează date de site-uri web pentru a antrena modele mari de limbaj fără permisiunea proprietarilor de site-uri, o practică care a declanșat numeroase procese din partea creatorilor de conținut și a editorilor.
Tehnica reprezintă o aplicație defensivă interesantă a inteligenței artificiale, protejând proprietarii și creatorii site-urilor web, mai degrabă decât amenințarea proprietății lor intelectuale. Cu toate acestea, nu este clar cât de repede s-ar putea adapta crawlerele AI pentru a detecta și a evita astfel de capcane, forțând potențial Cloudflare să crească complexitatea tacticilor sale de înșelăciune. De asemenea, irosirea resurselor companiei AI ar putea să nu mulțumească oamenii care critică costurile percepute de energie și de mediu ale rulării modelelor AI.
Cloudflare descrie acest lucru ca fiind doar „prima iterație” a utilizării AI în mod defensiv împotriva roboților. Planurile viitoare includ ca conținutul fals să fie mai greu de detectat și să integreze paginile false mai perfect în structurile site-ului web. Jocul pisica și șoarecele dintre site-uri web și răzuitoare de date continuă, AI fiind acum folosită de ambele părți ale bătăliei.
Un produs secundar al acestei tactici va fi ceea ce numim AI „poisoning”, „otrăvirea” AI cu informații false. Repercusiunile acestor otrăviri fiind lipsa de acuratețe a răspunsurilor oferite de aceste modele si bine cunoscutele „halucinații”. Dacă aceste modele AI vor fi alimentate cu informații eronate, rezultatele nu pot fi decât eronate. Va trebui să existe în viitor un moment când aceste modele vor fi forțate sa pivoteze de la îngurgitarea nediscriminatorie a unor cantități nemăsurate de date, chiar cu încălcarea fără scrupule a drepturilor de autor, către o digestie selectivă a datelor in perioada de training a acestor modele.
Până atunci nu putem avea încredere sa folosim AI decât la gestionarea calendarului si a planificării vacanțelor, un fel de Siri sau Alexa 2.0, și cunoaștem deja popularitatea și utilitatea acestor servicii.