O soluție de tip OCR începe să devină utilă și acasă nu numai la birou. Odată cu migrarea către online și conținut electronic a majorității documentelor pe care le folosim, e nevoie de instrumente dedicate cu care să le putem manevra chiar și atunci când cei ce au creat documentele nu sunt neapărat de acord cu asta.
ABBYY PDF Transformer+ e în momentul de față cea mai bună soluție de conversie a informației text din imagine în una editabilă. Programul permite crearea, editarea, adăugarea de comentarii și conversia fișierelor imagine/PDF în documente editabile de tip Docx sau Xlsx.
ABBYY PDF Transformer+ este un OCR modern, cu o funcționalitate adaptată nevoilor actuale. Mulți spun că OCR-ul – adică un program de tip Optical Character Recognition, ce poate recunoaște textul din imagini și transforma în documente editabile – este util doar în zona companiilor. Vin și spun că nu e deloc așa, din ce în ce mai multă lume începe să aibă nevoie avansate de conversie în format electronic editabil a diferitelor tipuri de informații.
De la cărți, facturi, formulare, tabele, cursuri, bonuri, diplome etc. și până la soluții mai ”speciale” de extragere a informațiilor dintr-un extras de cont digital de exemplu, sunt operații pe care le facem în mod uzual acasă. Sau le vom face în viitorul apropiat.
Funcționalitate multiplă
Scopul unei conversii cu ABBYY PDF Transformer+ e clar: e nevoie de un document în care textul să poată fi editat sau măcar indexat. Dincolo de asta, soluția mai poate să convertească și să combine diverse formate într-un singur PDF, să elimine pagini, să schimbe ordinea lor iar acolo unde se dorește se pot introduce și comentarii pe text.
Ce îmi place cel mai mult la ABBYY PDF Transformer+ este faptul că imediat după instalare poți începe să îl folosești și nu ai nevoie de cunoștințe speciale să ai rezultate bune. În practică, după ce instalezi programul și îl lansezi ți se oferă o interfață simplă din care alegi ceea ce vrei să faci: să extragi informația dintr-un fișier deja existent (imagine sau PDF) sau să scanezi ceva. Eu nu am la îndemână mereu un scanner și aleg mai mereu să mă folosesc de o cameră foto (DSLR sau nu) prin intermediul căreia să fac o poză a textului ce vreau să fie interpretat.
Interfața aplicației oferă funcții minimale de editare a imaginii în așa fel încât să se poată lucra direct în program fără să mai fie nevoie de adiția unor soluții terțe. În cazul meu, a fost nevoie să fac o reorientare a imaginii în așa fel încât să corespundă cu ceea ce doream să fie recunoscut. Eventual se poate alege și o funcție rapidă de îmbunătățire a imaginii (Document, enhance image).
Apoi se face recunoașterea textului. Nu înainte de a selecta limba cu care se lucrează – puteți lăsa aplicația să recunoască singură limba, doar că nu văd de ce ați încărca suplimentar procesul. Dacă se dorește obținerea celor mai bune rezultate e indicat să fie furnizate cele mai bune detalii cu care motorul de recunoaștere să funcționeze.
Depinzând de viteza sistemului și complexitatea textului (sau numărul de pagini) procesul de recunoaștere poate dura mai mult sau mai puțin. Pentru exemplul de mai sus recunoașterea s-a făcut în sub 30 de secunde.
Dat fiind că nu am dat niciun fel de informație legată de compoziția textului și calitatea imaginii este una îndoielnică, rezultatul este unul bun. Aproape de 75% rată de recunoaștere pe un document complex, e ceva foarte bun.
Pentru soluții de tip OCR capabile să recunoască text în limba română motorul oferit de ABBYY a dat mereu rezultate foarte bune.
Un al doilea experiment derulat pe o pagină din cartea Steve Jobs, pe o imagine de calitate la fel de slabă ca și prima, a întors rezultat mult mai bun decât mă așteptam. Cu toată deformarea textului ABBYY PDF Transformer+ a identificat corect zonele de text. Rata de recunoaștere a fost mai bună de data asta.
Numai că nu am dorit să fac o transformare în text, ci o trecere în format digital (PDF) în care să pot adăuga niște notițe. Fac des asta pentru proiectele la care mai lucrez în timpul liber.
Funcția de adăugare de comentarii în PDF e simplu de folosit.
Extragerea de informații din PDF
Zona în care ABBYY PDF Transformer+ excelează este cea de extragere a informației editabile din documente PDF create fără opțiuni de editare sau copiere. Layout-ul este recunoscut automat, inclusiv elementele de tip hypertext, adresele email, poze și comentarii, numerele de pagină etc.
Pe un document de 70 de pagini (o carte în format PDF) recunoașterea și extragerea rezultatelor (e drept, în limba engleză) procesul a durat sub 3 minute pe MacBook Air 13. Uitați de la ce am plecat:
Și la ce am ajuns:
O rată de recunoaștere de peste 95% fără să intervin cu absolut nimic în proces. Dacă aș fi dorit asta aveam la dispoziție instrumente cu care să definesc manual zonele de importanță: text, table, imagine etc. cu care ABBYY PDF Transformer+ să lucreze mai ușor.
Interfață: simplă, intuitivă
Interfața lui ABBYY PDF Transformer+ este una extrem de simplă și ușor de folosit. Atâta vreme cât înțelegeți pașii: scanare, analiză, recunoaștere, conversie în material editabil, nu veți avea niciun fel de probleme în a folosi soluția. Toate funcțiile importante se activează direct din interfața principală, viteza de lucru fiind asigurată.
Direct pe documentul analizat se pot face modificări, adăuga comentarii, insera poze și texte fără să fie nevoie ca documentul să fie convertit în prealabil.
De interes este și că Transformer+ e capabil să caute informații text în orice fel de documente PDF.
Ce am uitat să mai spun este că odată extras documentul editabil, el poate fi convertit către o gamă variată de formate ce includ Microsoft Word, Excel și PowerPoint, dar și două tipuri de conținut electronic de tip eBook: EPUB și FB2. Cu alte cuvinte, dacă aveți un document în format PDF și nu știți cum să îl transformați rapid în ceva care să poată fi folosit pe iPad, cu păstrarea layout-ului 1:1, ABBYY PDF Transformer+ este soluția căutată. Merge repede, păstrează aproape perfect layout-ul chiar și atunci când există un grad ridicat de complexitate.
Mai nou am observat că este introdus și suportul pentru OpenOffice.org Writer (ODT) – asta dacă vreți să exportați documentele în format OpenOffice.org.
Un ultim aspect, ABBYY PDF Transformer+ permite semnarea documentelor cu semnătură digitală. Utilă opțiunea pentru situațiile în care folosiți copii digitale ale documentelor protejate.
Vă recomand să testați ABBYY PDF Transformer+ cu o versiune trial valabilă 30 de zile a cărei singură limitare este că nu poate lucra cu mai mult de 100 de pagini.