La începutul acestui an, mai mulți cercetători au semnalat un termen bizar apărut în lucrările publicate: „microscopie electronică vegetativă”. Această expresie, care sună tehnic, dar este, de fapt, un nonsens, a devenit o „fosilă digitală”, o eroare păstrată și consolidată în sistemele de inteligență artificială (AI) care este aproape imposibil de eliminat din bazele de date, relatează TheConversation.
La fel ca fosilele biologice blocate în rocă, aceste artefacte digitale pot deveni elemente permanente ale ecosistemului nostru informațional.
Cazul „microscopiei electronice vegetative” oferă o privire îngrijorătoare asupra modului în care sistemele AI pot perpetua și amplifica erori în cunoștințele noastre colective.
O scanare greșită și o eroare de traducere
Termenul „microscopie electronică vegetativă” pare să fi apărut dintr-o coincidență remarcabilă a erorilor nelegate între ele.
Totul a început cu două lucrări din anii 1950, publicate în revista Bacteriological Reviews, care au fost scanate și digitalizate. Însă procesul de digitalizare a combinat din greșeală cuvântul „vegetativ” dintr-o coloană de text cu „electron” din alta, creând astfel termenul fantomă.
Decenii mai târziu, „microscopie electronică vegetativă” a apărut în unele lucrări științifice iraniene. În 2017 și 2019, două lucrări au folosit acest termen în titluri și rezumate în limba engleză.
Aceasta pare a fi o eroare de traducere. În limba persană, cuvintele pentru „vegetativ” și „scanare” se diferențiază doar printr-un singur punct.
O eroare în ascensiune
Rezultatul? Până astăzi, termenul „microscopie electronică vegetativă” apare în 22 de lucrări, conform Google Scholar. Una dintre acestea a fost subiectul unei retrageri contestate dintr-o revistă a Springer Nature, iar Elsevier a emis o corectare pentru alta.
De asemenea, termenul apare în articole de știri care discută investigațiile ulterioare privind integritatea științifică.
„Microscopie electronică vegetativă” a început să apară mai frecvent în lucrările din anii 2020. Pentru a înțelege de ce, a fost necesar să privim în modelele moderne de AI – și să facem o săpătură arheologică prin vastele straturi de date pe care acestea le-au folosit pentru instruire.
Dovezi empirice ale contaminării AI
Modelele mari de limbaj care stau la baza chatbot-urilor moderne de AI, cum ar fi ChatGPT, sunt „antrenate” pe cantități uriașe de text pentru a prezice următorul cuvânt probabil într-o secvență. Conținutul exact al datelor de instruire ale unui model este adesea un secret bine păstrat.
Pentru a testa dacă un model „știa” despre microscopie electronică vegetativă, am introdus fragmente din lucrările originale pentru a verifica dacă modelul le-ar completa cu acest termen sau cu alternative mai sensibile.
Rezultatele au fost revelatoare. GPT-3 al OpenAI a completat constant frazele cu „microscopie electronică vegetativă”. Modelele anterioare, precum GPT-2 și BERT, nu au făcut acest lucru. Această patterne ne-a ajutat să izolăm când și unde a apărut contaminarea.
Am descoperit că eroarea persistă și în modelele mai noi, inclusiv GPT-4o și Claude 3.5 al Anthropic. Aceasta sugerează că termenul nonsens ar putea fi acum permanent încorporat în bazele de cunoștințe ale AI.
Prin compararea a ceea ce știm despre seturile de date de instruire ale diferitelor modele, am identificat setul de date CommonCrawl, care cuprinde pagini de internet colectate automat, ca fiind cel mai probabil vector prin care modelele de AI au învățat acest termen.
Problema scalei
Descoperirea erorilor de acest tip nu este ușoară. Corectarea lor poate fi aproape imposibilă.
Unul dintre motive este scala. Setul de date CommonCrawl, de exemplu, are milioane de gigabytes. Pentru majoritatea cercetătorilor din afaceri de tehnologie mari, resursele de calcul necesare pentru a lucra la această scală sunt inaccesibile.
Un alt motiv este lipsa de transparență în modelele comerciale de AI. OpenAI și mulți alți dezvoltatori refuză să ofere detalii precise despre datele de instruire ale modelelor lor. Eforturile de cercetare pentru a reverse-engineering unele dintre aceste seturi de date au fost împiedicate de cereri de eliminare a copyright-ului.
Când sunt găsite erori, nu există o soluție simplă. Filtrarea cuvintelor-cheie ar putea rezolva probleme precum termenul „microscopie electronică vegetativă”, dar ar elimina și referințe legitime (precum acest articol).
Mai fundamental, cazul ridică o întrebare neliniștitoare: câte alte termene nonsensicale există în sistemele AI, așteptând să fie descoperite?
Implicațiile pentru știință și publicare
Această „fosilă digitală” ridică și întrebări importante despre integritatea cunoștințelor pe măsură ce cercetarea și scrierea asistate de AI devin tot mai comune.
Editorii au răspuns într-un mod incoerent când au fost anunțați de lucrări ce includ „microscopie electronică vegetativă”. Unii au retras lucrările afectate, în timp ce alții le-au apărat. Elsevier a încercat să justifice validitatea termenului înainte de a emite o corectare.
Nu știm încă dacă alte astfel de ciudățenii bântuie modelele de limbaj mari, dar este foarte probabil. Indiferent de caz, utilizarea sistemelor AI a creat deja probleme pentru procesul de peer-review.
De exemplu, observatorii au remarcat apariția unor „fraze forțate” utilizate pentru a ocoli software-ul de integritate automat, cum ar fi „conștiința falsă” în loc de „inteligență artificială”. De asemenea, fraze precum „Sunt un model de limbaj AI” au fost găsite în alte lucrări retrase.
Unele instrumente automate de screening, cum ar fi Problematic Paper Screener, acum marchează „microscopie electronică vegetativă” ca semn de avertizare pentru posibilitatea unui conținut generat de AI. Totuși, astfel de abordări pot rezolva doar erorile cunoscute, nu și pe cele necunoscute.
Cum trăim cu fosilele digitale
Ascensiunea AI creează oportunități pentru ca erorile să devină permanent încorporate în sistemele noastre de cunoștințe, prin procese pe care niciun actor nu le controlează în totalitate. Acest lucru prezintă provocări atât pentru companiile de tehnologie, cercetători și edituri.
Companiile de tehnologie trebuie să fie mai transparente cu privire la datele de instruire și metodele lor. Cercetătorii trebuie să găsească noi modalități de a evalua informațiile în fața nonsensului generat de AI. Editurile științifice trebuie să îmbunătățească procesele de peer-review pentru a detecta atât erorile umane, cât și cele generate de AI.
Fosilele digitale nu doar că dezvăluie provocarea tehnică de a monitoriza seturi masive de date, dar și provocarea fundamentală de a menține cunoștințele fiabile într-un sistem în care erorile pot deveni auto-perpetuante.