PDF testuale e PDF scannerizzato
Un PDF testuale contiene caratteri selezionabili. Un PDF scannerizzato è un'immagine: per leggerlo serve OCR e l'affidabilità dipende dalla qualità della scansione.
Quando aspettarsi errori
Timbri, pagine storte, bassa risoluzione, ombre e righe molto fitte aumentano il rischio di date o importi letti male.
Perché costa più crediti
L'OCR richiede più elaborazione e più controlli. Per questo la roadmap prevede 2 crediti per pagina scannerizzata e un avviso chiaro all'utente.
Caso pratico: estratto conto cartaceo Monte dei Paschi
Un cliente anziano porta in studio un raccoglitore con estratti conto Monte dei Paschi degli ultimi cinque anni, ricevuti per posta cartacea. Il commercialista deve digitalizzarli per la dichiarazione integrativa. Operativamente: scansiona tutti i fogli a 300 dpi in PDF singolo per anno, verifica che ogni pagina sia dritta e leggibile, controlla con anteprima Mac che il testo non sia selezionabile (conferma OCR necessario). Carica il primo PDF nello strumento, attende il riconoscimento (più lento del normale), revisiona riga per riga le prime 10 pagine, identifica un pattern di errore OCR (alcuni 8 letti come B), corregge in Excel post-export con CERCA.SOSTITUISCI. Tempo medio: 30-40 minuti per anno scannerizzato, contro giorni di trascrizione manuale.
Errori comuni con i PDF OCR
Quattro situazioni tipiche. Primo: scansionare a risoluzione bassa (150 dpi) sperando di velocizzare, ottenendo errori OCR a cascata; soluzione, sempre 300 dpi minimo. Secondo: scansionare in scala di grigi quando il PDF originale ha sfondi colorati (banca Sella usa azzurro tenue), peggiorando il contrasto; soluzione, scansionare a colori e lasciare l'OCR gestire la separazione. Terzo: aspettarsi che cifre simili (5 e 6, 8 e B, 0 e O) vengano sempre lette giuste; soluzione, predisporre un controllo statistico sui totali colonna confrontandolo con la somma calcolata. Quattro: BancoPosta cartaceo spesso ha timbri di sportello sopra le date; soluzione, accettare che alcune righe richiedano correzione manuale.
Domande frequenti sull'OCR estratti conto
Conviene investire in uno scanner professionale per fare tanti estratti? Per uno studio commercialista che riceve regolarmente cartaceo sì: uno scanner duplex da scrivania (Brother o Fujitsu Scansnap) accelera del 5x rispetto a una multifunzione domestica. Posso fotografare con lo smartphone invece di scansionare? Sconsigliato per estratti conto: la prospettiva non perpendicolare causa errori OCR. Se proprio devi, usa app dedicate (Genius Scan, Adobe Scan) con correzione automatica. L'OCR funziona meglio con alcune banche? Sì, banche con layout pulito e font moderno (banca Sella, Hype) hanno tasso errore molto più basso di MPS o BancoPosta che mantengono layout legacy.