Was ist Datendeduplizierung?

Definition von Datendeduplizierung

Datendeduplizierung ist der Prozess der Erkennung und Auflösung von Duplikaten innerhalb eines Datensatzes, um sicherzustellen, dass jede reale Entität wie ein Produkt, Lieferant oder Kunde nur einmal im System vorhanden ist.

Wie entstehen Duplikate in Produktdaten?

Duplikate gelangen selten auf einmal ins System. Sie sammeln sich im Laufe der Zeit durch folgende Quellen an:

  • Mehrere Lieferantenfeeds, die das gleiche Produkt unter leicht abweichenden Namen oder Referenznummern senden
  • Manuelle Eingabe durch verschiedene Teamangehörige, die nicht wussten, dass ein Datensatz bereits existiert
  • Systemmigrationen, die historische Daten zusätzlich zu bestehenden Datensätzen importieren
  • Marketplace-Importe, bei denen das gleiche Produkt mit unterschiedlichen Identifiern von verschiedenen Kanälen ankommt

Ein Produkt könnte als „Blauer Laufschuh – Größe 42", „Laufschuh Blau 42" und „Schuh – Blau, Laufen, EU42" existieren — drei Datensätze, die in der Praxis ein Artikel sind.

Wie funktioniert die Deduplizierung?

Die meisten Deduplizierungsprozesse folgen zwei Schritten. Zunächst die Erkennung: Das System vergleicht Datensätze anhand von Identifiern wie GTIN oder SKU. Wo diese fehlen oder inkonsistent sind, nutzt es Fuzzy Matching: Es vergleicht Namen, Beschreibungen und Attribute, um wahrscheinliche Duplikate zu finden. Zweitens die Auflösung: Zugeordnete Datensätze werden entweder automatisch zusammengefasst oder zur Überprüfung und Konsolidierung durch eine Person gekennzeichnet, um einen einzigen Golden Record zu erstellen.

Die Schwelle für einen „Treffer" ist konfigurierbar: Strengere Regeln bedeuten weniger falsch positive Ergebnisse, aber mehr Fehleinordnungen; lockerere Regeln erfassen mehr Duplikate, erfordern aber mehr manuelle Überprüfung.

Dieser Abgleichs- und Zusammenführungsprozess kann durch Clustering gehandhabt werden: Verdächtige Duplikate werden zusammengefasst, um sie an einer Stelle bewerten und auflösen zu können.

Warum ist das wichtig?

Doppelte Produkteinträge führen zu verstärkten Problemen. Sie vergrößern die Kataloggröße, teilen Suchanfragen zwischen mehreren Versionen des gleichen Artikels auf, schaffen inkonsistente Preise über Kanäle hinweg und machen Bestandsmeldungen unzuverlässig. Im PIM-Kontext ist die Deduplizierung grundlegend: Ein Katalog kann nicht zuverlässig angereichert, klassifiziert oder syndiziert werden, wenn das gleiche Produkt in fünf leicht unterschiedlichen Formen existiert.

Ist Deduplizierung eine einmalige Aufgabe?

Nein. Neue Daten kommen kontinuierlich von Lieferanten, Importen und Integrationen ein, daher sind Duplikate ein laufendes Problem und nicht nur eine einmalige Bereinigung. Die meisten Teams kombinieren ein anfängliches Massenbereinigungsprojekt mit automatisierten Erkennungsregeln, die potenzielle Duplikate kennzeichnen, während neue Datensätze erstellt werden.