Leggere un PDF della banca come tabella

Come leggere un PDF bancario come tabella ordinata, riconoscere le colonne giuste e preparare i dati per analisi e contabilità.

Quando usare questa pagina

Leggere un PDF della banca come tabella è un'operazione che sembra ovvia ma che nasconde diverse insidie. I PDF degli estratti conto italiani non sono tutti uguali: alcuni hanno colonne ben definite e righe regolari, altri impilano descrizioni multi-riga sopra a importi su righe separate, altri ancora alternano sezioni di riepilogo con i movimenti veri. Il risultato è che un copia-incolla diretto da PDF a Excel produce, nella maggior parte dei casi, un foglio illeggibile in cui le colonne si mescolano è le date finiscono nel campo sbagliato. Questa pagina spiega come ottenere una rappresentazione tabellare pulita partendo da un PDF, distinguendo tra documenti testuali, scansioni e PDF generati da app fintech.

Perché' il copia-incolla non basta

Quando si seleziona testo da un PDF è lo si incolla in Excel, il risultato dipende da come il PDF è stato generato. Alcuni PDF preservano la struttura tabellare e si incollano in modo decente, ma sono una minoranza. Nella maggior parte dei casi, soprattutto con PDF generati da banche italiane storiche, le colonne si fondono, i numeri si attaccano alle descrizioni è le date si spezzano. Un parser dedicato risolve questi problemi conoscendo in anticipo il layout di ciascuna banca e applicando regole di estrazione specifiche, anziché' affidarsi alla disposizione visiva del testo.

Layout multi-data e single-date

Le banche italiane storiche (Intesa, UniCredit, Fineco, BPER, BNL, MPS, BancoPosta) tipicamente hanno due colonne data: data operazione e data valuta. La distinzione è importante per la contabilità perché la valuta è la data effettiva di disponibilità del denaro. Le banche e app fintech (Satispay, Wise, Trade Republic, Hype, Vivid, buddybank) hanno invece una sola data per movimento: la struttura è più lineare ma il parser deve riconoscere il pattern. Il convertitore identifica la banca dalle prime righe del PDF e applica la strategia giusta in automatico.

Descrizioni su più righe

Le causali bancarie italiane possono occupare due, tre o anche quattro righe del PDF: per esempio un bonifico SEPA in entrata mostra spesso il nome del mittente sulla prima riga, il riferimento sulla seconda è il messaggio libero sulla terza. Un parser ingenuo le tratta come tre movimenti separati, perdendo importi e saldo. Il convertitore riconosce il pattern (riga di descrizione senza importo seguita da riga con importo) e ricompone la causale completa in un unico campo, mantenendo l'informazione per la riconciliazione.

Riepiloghi e movimenti reali

Molti PDF bancari includono sezioni di riepilogo: totali periodici, riepiloghi commissioni, sintesi di operazioni con carta. Sono utili per la lettura visiva ma non sono movimenti veri: importarli in tabella significherebbe contare due volte gli stessi importi. Il convertitore separa le righe di riepilogo dai movimenti reali in base a pattern noti per ciascuna banca è le esclude dall'output o le contrassegna in modo esplicito. In anteprima si vede subito quali righe sono state riconosciute come riepilogo.

PDF testuali e scansioni

Un PDF testuale contiene caratteri selezionabili: si può verificare provando a evidenziare una riga con il mouse. Un PDF scansionato è invece un'immagine (anche se nato come documento elettronico, alcune scansioni di estratti cartacei sono trattate così): per leggerlo serve OCR. La precisione dell'OCR su PDF bancari è tipicamente molto alta (oltre il 99%) sui PDF generati elettronicamente, ma scende quando la scansione è di bassa qualità, con pagine storte o macchie. Il convertitore segnala in anteprima quando rileva una pagina scannerizzata e applica un costo crediti maggiore (2 crediti per pagina) per coprire l'elaborazione aggiuntiva.

FAQ

Posso correggere righe estratte male?

L'anteprima permette di vedere ogni riga prima del download. Se una riga è stata interpretata in modo errato, conviene segnalarla con il pulsante 'Riga errata': il feedback aiuta a migliorare il parser per le conversioni successive. Per la riga specifica conviene comunque correggerla manualmente nell'Excel scaricato.

Quanto costa una pagina?

Una pagina di PDF testuale costa 1 credito. Una pagina scannerizzata che richiede OCR costa 2 crediti. Il piano gratuito include 1 pagina ogni 24 ore senza necessita' di carta.

Come faccio a sapere se il mio PDF bancario è testuale o scannerizzato?

Apri il PDF in qualsiasi visualizzatore e prova a selezionare il testo con il cursore. Se puoi evidenziare e copiare le parole, il PDF è testuale. Se non riesci a selezionare nulla, è una scansione e il convertitore applicherà l'OCR automaticamente.

Link utili

Caricamento…

Leggere un PDF della banca come tabella

Come leggere un PDF bancario come tabella ordinata, riconoscere le colonne giuste e preparare i dati per analisi e contabilità.

Quando usare questa pagina

Perché' il copia-incolla non basta

Layout multi-data e single-date

Descrizioni su più righe

Riepiloghi e movimenti reali

PDF testuali e scansioni

FAQ

Posso correggere righe estratte male?

Quanto costa una pagina?

Una pagina di PDF testuale costa 1 credito. Una pagina scannerizzata che richiede OCR costa 2 crediti. Il piano gratuito include 1 pagina ogni 24 ore senza necessita' di carta.

Come faccio a sapere se il mio PDF bancario è testuale o scannerizzato?