Caricamento…
Caricamento…
Come leggere un PDF bancario come tabella ordinata, riconoscere le colonne giuste e preparare i dati per analisi e contabilità.
Leggere un PDF della banca come tabella è un'operazione che sembra ovvia ma che nasconde diverse insidie. I PDF degli estratti conto italiani non sono tutti uguali: alcuni hanno colonne ben definite e righe regolari, altri impilano descrizioni multi-riga sopra a importi su righe separate, altri ancora alternano sezioni di riepilogo con i movimenti veri. Il risultato è che un copia-incolla diretto da PDF a Excel produce, nella maggior parte dei casi, un foglio illeggibile in cui le colonne si mescolano è le date finiscono nel campo sbagliato. Questa pagina spiega come ottenere una rappresentazione tabellare pulita partendo da un PDF, distinguendo tra documenti testuali, scansioni e PDF generati da app fintech.
Quando si seleziona testo da un PDF è lo si incolla in Excel, il risultato dipende da come il PDF è stato generato. Alcuni PDF preservano la struttura tabellare e si incollano in modo decente, ma sono una minoranza. Nella maggior parte dei casi, soprattutto con PDF generati da banche italiane storiche, le colonne si fondono, i numeri si attaccano alle descrizioni è le date si spezzano. Un parser dedicato risolve questi problemi conoscendo in anticipo il layout di ciascuna banca e applicando regole di estrazione specifiche, anziché' affidarsi alla disposizione visiva del testo.
Le banche italiane storiche (Intesa, UniCredit, Fineco, BPER, BNL, MPS, BancoPosta) tipicamente hanno due colonne data: data operazione e data valuta. La distinzione è importante per la contabilità perché la valuta è la data effettiva di disponibilità del denaro. Le banche e app fintech (Satispay, Wise, Trade Republic, Hype, Vivid, buddybank) hanno invece una sola data per movimento: la struttura è più lineare ma il parser deve riconoscere il pattern. Il convertitore identifica la banca dalle prime righe del PDF e applica la strategia giusta in automatico.
Le causali bancarie italiane possono occupare due, tre o anche quattro righe del PDF: per esempio un bonifico SEPA in entrata mostra spesso il nome del mittente sulla prima riga, il riferimento sulla seconda è il messaggio libero sulla terza. Un parser ingenuo le tratta come tre movimenti separati, perdendo importi e saldo. Il convertitore riconosce il pattern (riga di descrizione senza importo seguita da riga con importo) e ricompone la causale completa in un unico campo, mantenendo l'informazione per la riconciliazione.
Molti PDF bancari includono sezioni di riepilogo: totali periodici, riepiloghi commissioni, sintesi di operazioni con carta. Sono utili per la lettura visiva ma non sono movimenti veri: importarli in tabella significherebbe contare due volte gli stessi importi. Il convertitore separa le righe di riepilogo dai movimenti reali in base a pattern noti per ciascuna banca è le esclude dall'output o le contrassegna in modo esplicito. In anteprima si vede subito quali righe sono state riconosciute come riepilogo.
Un PDF testuale contiene caratteri selezionabili: si può verificare provando a evidenziare una riga con il mouse. Un PDF scansionato è invece un'immagine (anche se nato come documento elettronico, alcune scansioni di estratti cartacei sono trattate così): per leggerlo serve OCR. La precisione dell'OCR su PDF bancari è tipicamente molto alta (oltre il 99%) sui PDF generati elettronicamente, ma scende quando la scansione è di bassa qualità, con pagine storte o macchie. Il convertitore segnala in anteprima quando rileva una pagina scannerizzata e applica un costo crediti maggiore (2 crediti per pagina) per coprire l'elaborazione aggiuntiva.