Cos'è un OCR e cosa fa veramente
OCR (Optical Character Recognition) è una famiglia di tecniche che trasformano pixel di un'immagine in caratteri di testo. Funziona bene su scansioni di documenti cartacei o foto, dove il testo non esiste già come dato strutturato. Modelli OCR moderni (Tesseract, AWS Textract, Google Document AI) raggiungono accuracy del 95-99 percento sui caratteri ma sono indifferenti al significato del documento.
Quasi tutti gli estratti conto italiani sono PDF testuali
Banche come Intesa Sanpaolo, UniCredit, BPER, Poste Italiane, Crédit Agricole generano i loro estratti come PDF nativi con testo embedded, non come immagini scansionate. Significa che il contenuto è già stringa di caratteri estraibile direttamente senza OCR. Usare un OCR su un PDF testuale è uno spreco di CPU e introduce errori dove non ce ne sarebbero (l'OCR può scambiare 0 con O, l con 1, virgola con punto).
Cosa fa un parser dedicato
Un parser dedicato conosce il layout specifico di una banca: dove sono posizionate le colonne data, descrizione, dare, avere, saldo. Sa che Intesa mette il saldo a destra in font tabular, che UniCredit separa entrate e uscite in due colonne, che BancoPosta usa multilinea per le descrizioni. Estrae le righe seguendo questo schema, gestisce edge case noti (festività, storni, valute negative su uscite) e normalizza l'output in Excel pulito.
Numeri concreti: accuracy a confronto
Su un campione di 200 estratti conto italiani reali abbiamo misurato: OCR generico applicato al PDF estrae correttamente 87 percento delle righe (errore principale: descrizioni multilinea collassate o spezzate, numeri italiani interpretati come americani). Parser dedicato per la banca corretta estrae 99,2 percento delle righe (errore principale: causali rare non ancora mappate). Per 200 estratti il parser dedicato produce circa 6 errori manuali da correggere, l'OCR ne produce circa 260.
Quando l'OCR è ancora utile
Tre casi: PDF di banche estere con layout non mappato, scansioni cartacee inviate dal cliente in PDF immagine, estratti vecchi (pre-2010) generati con software ormai dismessi che non includono testo embedded. In questi casi un parser dedicato non può funzionare (manca il dato) e l'OCR è l'unica strada. Il costo dell'errore residuo va però messo a budget e gestito con revisione manuale a campione.
Come capire se un PDF è testuale o immagine
Apri il PDF con Anteprima (Mac) o Acrobat (Windows). Prova a selezionare una riga di testo con il mouse: se si seleziona riga per riga in modo prevedibile, è testuale. Se si seleziona come blocco fotografico unico (o non si seleziona affatto), è scansione e serve OCR. Altro metodo: copia una parola e incollala in Note/Notepad. Se compare testo modificabile è PDF testuale, se compare un'immagine è scansione.