Data Lineage Definition
Data Lineage ist ein Protokoll darüber, wo ein Datensatz entstanden ist, wie er transformiert wurde und wohin er sich über die Zeit hinweg bewegt hat – vom Quellsystem durch jeden Prozess, der ihn berührt hat, bis zu seinem aktuellen Zustand.
Was wird durch Data Lineage nachverfolgt?
Bei einem Produktdatensatz könnte die Lineage zeigen, dass ein Produkttitel aus einer Lieferantentabelle stammte, von einem Content-Team manuell bearbeitet und dann an drei Vertriebskanäle übermittelt wurde. Sie erfasst:
- Ursprung — welches System, welche Datei oder welcher Lieferant die Daten bereitgestellt hat
- Transformationen — alle Bereinigungen, Umformatierungen oder angewendeten Änderungen unterwegs
- Bewegung — welche Systeme die Daten erhalten oder verwendet haben und wann
- Verantwortung — wer Änderungen vorgenommen hat und an welcher Stelle des Prozesses
Warum ist das wichtig?
Wenn eine Produktbeschreibung auf einem Marketplace falsch ist, zeigt Data Lineage Ihnen genau, wo der Fehler eingeführt wurde: im Lieferantenfeed, in der Import-Zuordnung oder bei einer manuellen Bearbeitung. Ohne sie bedeutet die Rückverfolgung eines Datenproblems, jedes System manuell zu überprüfen.
Sie unterstützt auch die Compliance: Regulierungen wie das Digital Product Passport der EU verlangen zunehmend von Unternehmen, nachzuweisen, woher Produktdaten stammen und dass sie korrekt sind.
Wie unterscheidet sich das von einem Audit Trail?
Ein Audit Trail dokumentiert wer was und wann in einem einzelnen System geändert hat. Data Lineage ist breiter gefasst: Sie verfolgt Daten systemübergreifend, vom Ursprung zum Ziel, und erfasst automatisierte Transformationen, die keine einzelne Person ausgelöst hat. Beide sind komplementär: Audit Trails tragen zu einem vollständigen Lineage-Bild bei.
Wer nutzt Data Lineage?
- Daten- und IT-Teams nutzen sie, um Integrationsfehler zu beheben und Systemabhängigkeiten abzubilden
- Compliance- und Rechtsabteilungen nutzen sie, um Regulierungsbehörden die Datenherkunft zu demonstrieren
- PIM- und MDM-Administratoren nutzen sie, um zu verfolgen, wo ungenaue Produktdaten in die Pipeline gelangt sind, und beheben das Problem an der Quelle.