Was ist Datenherkunft?

Datenherkunft – Definition

Datenherkunft (Data Lineage) ist eine Dokumentation darüber, woher ein Datensatz stammt, wie er transformiert wurde und welchen Weg er über die Zeit hinweg zurückgelegt hat – vom Quellsystem durch alle Prozesse, die ihn berührt haben, bis zu seinem aktuellen Zustand.

Was wird bei der Datenherkunft erfasst?

Für einen Produktdatensatz könnte die Herkunftsverfolgung zeigen, dass ein Produkttitel aus einer Lieferanten-Tabellenkalkulation stammte, von einem Content-Team manuell bearbeitet und dann an drei Vertriebskanäle übertragen wurde. Sie erfasst:

Ursprung — aus welchem System, welcher Datei oder von welchem Lieferanten die Daten kamen
Transformationen — alle Bereinigungen, Umformatierungen oder angewendeten Anpassungen
Bewegung — welche Systeme die Daten empfangen oder genutzt haben und wann
Verantwortung — wer Änderungen vorgenommen hat und an welchem Punkt im Prozess

Warum ist das wichtig?

Wenn eine Produktbeschreibung auf einem Marktplatz fehlerhaft ist, zeigt die Datenherkunft Ihnen exakt, wo der Fehler eingeführt wurde: im Lieferantendaten-Feed, in der Import-Zuordnung oder bei einer manuellen Bearbeitung. Ohne sie bedeutet die Fehlersuche, alle Systeme manuell zu überprüfen.

Darüber hinaus unterstützt sie die Compliance: Vorschriften wie der EU-Digital Product Passport verlangen von Unternehmen zunehmend, nachzuweisen, woher Produktdaten stammen und dass sie korrekt sind.

Wie unterscheidet sich das von einem Audit-Trail?

Ein Audit-Trail dokumentiert wer was und wann in einem einzelnen System geändert hat. Datenherkunft ist breiter: Sie verfolgt Daten über Systeme hinweg, vom Ursprung zum Ziel, und erfasst auch automatisierte Transformationen, die keine einzelne Person ausgelöst hat. Beide sind komplementär: Audit-Trails fließen in ein vollständiges Herkunftsbild ein.

Wer nutzt Datenherkunft?

Daten- und IT-Teams nutzen sie, um Integrationsfehler zu beheben und Systemabhängigkeiten zu dokumentieren
Compliance- und Rechtsabteilungen nutzen sie, um Behörden die Datenherkunft nachzuweisen
PIM- und MDM-Administratoren nutzen sie, um zu verfolgen, wo ungenaue Produktdaten in die Pipeline gelangt sind, und beheben das Problem an der Quelle.