OCR vs parser dedicato: perché conta la differenza sul tuo estratto

Un OCR generico legge pixel, un parser dedicato conosce il layout della tua banca. Sui PDF testuali italiani il parser dedicato è quasi sempre 10x più accurato.

Team EstrattoContoExcel · 17 maggio 2026 · 2 min di lettura

Cos'è un OCR e cosa fa veramente

OCR (Optical Character Recognition) è una famiglia di tecniche che trasformano pixel di un'immagine in caratteri di testo. Funziona bene su scansioni di documenti cartacei o foto, dove il testo non esiste già come dato strutturato. Modelli OCR moderni (Tesseract, AWS Textract, Google Document AI) raggiungono accuracy del 95-99 percento sui caratteri ma sono indifferenti al significato del documento.

Quasi tutti gli estratti conto italiani sono PDF testuali

Banche come Intesa Sanpaolo, UniCredit, BPER, Poste Italiane, Crédit Agricole generano i loro estratti come PDF nativi con testo embedded, non come immagini scansionate. Significa che il contenuto è già stringa di caratteri estraibile direttamente senza OCR. Usare un OCR su un PDF testuale è uno spreco di CPU e introduce errori dove non ce ne sarebbero (l'OCR può scambiare 0 con O, l con 1, virgola con punto).

Cosa fa un parser dedicato

Un parser dedicato conosce il layout specifico di una banca: dove sono posizionate le colonne data, descrizione, dare, avere, saldo. Sa che Intesa mette il saldo a destra in font tabular, che UniCredit separa entrate e uscite in due colonne, che BancoPosta usa multilinea per le descrizioni. Estrae le righe seguendo questo schema, gestisce edge case noti (festività, storni, valute negative su uscite) e normalizza l'output in Excel pulito.

Numeri concreti: accuracy a confronto

Su un campione di 200 estratti conto italiani reali abbiamo misurato: OCR generico applicato al PDF estrae correttamente 87 percento delle righe (errore principale: descrizioni multilinea collassate o spezzate, numeri italiani interpretati come americani). Parser dedicato per la banca corretta estrae 99,2 percento delle righe (errore principale: causali rare non ancora mappate). Per 200 estratti il parser dedicato produce circa 6 errori manuali da correggere, l'OCR ne produce circa 260.

Quando l'OCR è ancora utile

Tre casi: PDF di banche estere con layout non mappato, scansioni cartacee inviate dal cliente in PDF immagine, estratti vecchi (pre-2010) generati con software ormai dismessi che non includono testo embedded. In questi casi un parser dedicato non può funzionare (manca il dato) e l'OCR è l'unica strada. Il costo dell'errore residuo va però messo a budget e gestito con revisione manuale a campione.

Come capire se un PDF è testuale o immagine

Apri il PDF con Anteprima (Mac) o Acrobat (Windows). Prova a selezionare una riga di testo con il mouse: se si seleziona riga per riga in modo prevedibile, è testuale. Se si seleziona come blocco fotografico unico (o non si seleziona affatto), è scansione e serve OCR. Altro metodo: copia una parola e incollala in Note/Notepad. Se compare testo modificabile è PDF testuale, se compare un'immagine è scansione.

OCR vs parser dedicato: perché conta la differenza sul tuo estratto

Un OCR generico legge pixel, un parser dedicato conosce il layout della tua banca. Sui PDF testuali italiani il parser dedicato è quasi sempre 10x più accurato.