Definizione di Data Lineage
Data Lineage è la registrazione dell'origine di un dato, delle trasformazioni applicate e del percorso seguito nel tempo, dal sistema sorgente attraverso ogni processo che lo ha elaborato, fino al suo stato attuale.
Cosa traccia la data lineage?
Per un record di prodotto, la lineage potrebbe mostrare che il titolo del prodotto proviene da un foglio di calcolo fornitore, è stato modificato manualmente da un team di contenuti, quindi inviato a tre canali di vendita. Cattura:
- Origine — quale sistema, file o fornitore ha originato il dato
- Trasformazioni — qualsiasi pulizia, riformattazione o conversione applicata lungo il percorso
- Movimento — quali sistemi hanno ricevuto o consumato il dato e quando
- Responsabilità — chi ha apportato modifiche e in quale punto del processo
Perché è importante?
Quando una descrizione di prodotto è errata su un marketplace, la data lineage ti dice esattamente dove l'errore è stato introdotto: il feed del fornitore, la mappatura dell'importazione o una modifica manuale. Senza di essa, tracciare un problema di dati significa controllare ogni sistema manualmente.
Supporta inoltre la conformità normativa: regolamenti come il Passaporto Digitale del Prodotto dell'UE richiedono sempre più alle aziende di dimostrare da dove provengono i dati dei prodotti e che siano accurati.
In che cosa differisce da una traccia di audit?
Una traccia di audit registra chi ha modificato cosa e quando all'interno di un singolo sistema. La data lineage è più ampia: segue i dati attraverso i sistemi, dall'origine alla destinazione, e include trasformazioni automatizzate che nessuna persona ha attivato direttamente. Le due sono complementari: le tracce di audit alimentano un quadro di lineage completo.
Chi utilizza la data lineage?
- I team di dati e IT la usano per eseguire il debug degli errori di integrazione e mappare le dipendenze tra sistemi
- I team di conformità e legale la usano per dimostrare la provenienza dei dati ai regolatori
- Gli amministratori PIM e MDM la usano per tracciare dove i dati di prodotto imprecisi sono entrati nella pipeline e correggerli alla fonte.