Definizione di Data Lineage
Data Lineage è una registrazione dell'origine di un dato, di come è stato trasformato e di dove si è spostato nel tempo, dal sistema sorgente attraverso ogni processo che lo ha toccato, fino al suo stato attuale.
Cosa traccia la data lineage?
Per un record prodotto, la lineage potrebbe mostrare che il titolo del prodotto proviene da un foglio di calcolo del fornitore, è stato modificato manualmente da un team di content, e poi inviato a tre canali di vendita. Cattura:
- Origine — quale sistema, file o fornitore ha generato il dato
- Trasformazioni — qualsiasi pulizia, riformattazione o elaborazione applicata lungo il percorso
- Movimento — quali sistemi hanno ricevuto o consumato il dato e quando
- Responsabilità — chi ha apportato modifiche e in quale punto del processo
Perché è importante?
Quando una descrizione di prodotto è errata su un marketplace, la data lineage ti mostra esattamente dove l'errore è stato introdotto: il feed del fornitore, la mappatura dell'importazione, o una modifica manuale. Senza di essa, tracciare un problema di dati significa controllare ogni sistema manualmente.
Supporta anche la conformità normativa: regolamenti come il Passaporto Digitale del Prodotto dell'UE richiedono sempre più frequentemente alle aziende di dimostrare da dove provengono i dati dei prodotti e che siano accurati.
Come differisce da un audit trail?
Un audit trail registra chi ha modificato cosa e quando all'interno di un singolo sistema. La data lineage è più ampia: segue i dati tra i sistemi, dall'origine alla destinazione, e include le trasformazioni automatizzate che nessuna persona ha attivato direttamente. I due sono complementari: gli audit trail confluiscono in un quadro completo di lineage.
Chi utilizza la data lineage?
- Team di data e IT la usano per debuggare gli errori di integrazione e mappare le dipendenze tra sistemi
- Team di conformità normativa e legal la usano per dimostrare la provenienza dei dati ai regolatori
- Amministratori PIM e MDM la usano per tracciare dove i dati di prodotto inesatti sono entrati nella pipeline e correggere il problema alla fonte.