Definition Datendeduplizierung
Datendeduplizierung ist der Prozess zur Identifikation und Auflösung von Duplikaten in einem Datensatz, um sicherzustellen, dass jede reale Entität — wie ein Produkt, Lieferant oder Kunde — nur einmal im System vertreten ist.
Wie entstehen Duplikate in Produktdaten?
Duplikate landen selten auf einmal im System. Sie sammeln sich über die Zeit an durch:
- Mehrere Lieferanten-Datenquellen, die das gleiche Produkt unter leicht unterschiedlichen Namen oder Referenznummern senden
- Manuelle Erfassung durch verschiedene Team-Mitglieder, die nicht wussten, dass der Datensatz bereits existiert
- Systemmigrationen, die historische Daten auf bestehende Datensätze importieren
- Marketplace-Importe, bei denen das gleiche Produkt mit unterschiedlichen Identifiern aus verschiedenen Kanälen ankommt
Ein Produkt könnte als „Blauer Laufschuh – Größe 42", „Laufschuh Blau 42" und „Schuh – Blau, Laufen, EU42" existieren — drei Datensätze, die in der Praxis ein Artikel sind.
Wie funktioniert Deduplizierung?
Die meisten Deduplizierungsprozesse folgen zwei Schritten. Zunächst die Erkennung: Das System vergleicht Datensätze anhand von Identifiern wie GTIN oder SKU, und wo diese fehlen oder inkonsistent sind, nutzt Fuzzy Matching: den Vergleich von Namen, Beschreibungen und Attributen, um wahrscheinliche Duplikate zu finden. Zweite Schritt: Auflösung: Übereinstimmende Datensätze werden entweder automatisch zusammengeführt oder zur Überprüfung und Konsolidierung durch einen Menschen gekennzeichnet, um einen einzelnen Golden Record zu erstellen.
Die Schwelle für das, was als „Treffer" zählt, ist konfigurierbar: strengere Regeln bedeuten weniger falsch-positive Ergebnisse, aber mehr Ausfälle; lockerere Regeln erfassen mehr Duplikate, erfordern aber mehr manuelle Überprüfung.
Dieser Abgleich- und Zusammenführungsprozess kann durch Clustering durchgeführt werden: Verdächtige Duplikate werden gruppiert, damit sie an einem Ort bewertet und aufgelöst werden können.
Warum ist das wichtig?
Doppelte Produktdatensätze verursachen kompliziertere Probleme. Sie blähen die Katalogogröße auf, teilen Such-Traffic zwischen mehreren Versionen des gleichen Artikels, erzeugen inkonsistente Preisgestaltung über Kanäle hinweg und machen Bestandsberichte unzuverlässig. Im PIM-Kontext ist Deduplizierung grundlegend: Ein Katalog kann nicht zuverlässig angereichert, klassifiziert oder syndiziert werden, wenn das gleiche Produkt in fünf leicht unterschiedlichen Formen existiert.
Ist Deduplizierung eine einmalige Aufgabe?
Nein. Neue Daten kommen kontinuierlich von Lieferanten, Importen und Integrationen an, daher sind Duplikate ein laufendes Problem statt einer einmaligen Bereinigung. Die meisten Teams kombinieren ein anfängliches Massen-Deduplizierungsprojekt mit automatisierten Erkennungsregeln, die potenzielle Duplikate kennzeichnen, sobald neue Datensätze erstellt werden.