Formatul PDF, folosit pe scară largă pentru documente oficiale, lucrări academice sau formulare, reprezintă o provocare pentru sistemele de inteligență artificială, chiar dacă este ușor de citit de oameni, relatează The Verge.
Urmărește cele mai noi producții video TechRider.ro
- articolul continuă mai jos -
PDF-ul a fost creat de Adobe în 1993 pentru a păstra aspectul documentelor pe orice dispozitiv. Problema este că acesta a fost conceput pentru vizualizare umană, nu pentru prelucrare automată.
Documentele cu coloane, grafice sau tabele pot fi interpretate greșit de programe, iar extragerea textului necesită adesea recunoaștere optică a caracterelor (OCR). Aceasta funcționează bine pentru documente simple, dar întâmpină dificultăți în cazul scanărilor, manuscriselor sau structurilor complexe.
Alte formate, precum HTML, sunt mai ușor de procesat de AI deoarece includ etichete care indică structura documentului (titluri, subtitluri, paragrafe).
Limitările PDF-urilor afectează atât utilizatorii care vor să analizeze documente, cât și accesul la volume mari de date pentru antrenarea modelelor AI, întrucât între 80% și 90% din datele din companii sunt „nestructurate”, incluzând PDF-uri, audio sau video.
Ca răspuns, mai multe companii dezvoltă soluții noi. Startup-ul israelian Factify a strâns peste 70 de milioane de dolari pentru un format de document compatibil cu AI, păstrând avantajele PDF-ului.
Compania europeană Mistral a lansat un sistem OCR bazat pe AI pentru îmbunătățirea citirii PDF-urilor, însă rezultatele nu depășesc încă semnificativ tehnologiile existente.
Deși PDF-ul rămâne standardul dominant pentru documente digitale, presiunea pentru formate mai prietenoase cu sistemele de inteligență artificială crește pe măsură ce AI devine tot mai centrală în analiza datelor.