Product MDM: Datenmodell-Grundlagen, die Neuaufbau verhindern

Wichtigste Erkenntnisse

Das Product-MDM-Datenmodell ist das architektonische Fundament jeder Master-Data-Management-Initiative. Ein schwaches Modell erzeugt schwache Daten, unabhängig von der Plattform.
Jede größere Entität muss separat modelliert werden. Das Zusammenfassen von Kategorien, Varianten, Assets oder Kanälen in einem flachen Datensatz ist der häufigste und teuerste strukturelle Fehler.
Die Attribut-Scope-Klassifizierung ist die wichtigste Designentscheidung. Eine Fehlklassifizierung eines Attributs führt zu Integrationsverwerfungen in jedem System, das es nutzt.
Survivorship-Regeln und System-of-Record-Zuweisungen müssen pro Attribut im Modell definiert werden, nicht ad hoc während der Integration gelöst werden.
Die Identifier-Strategie bestimmt die langfristige Integrationsstabilität. Verwenden Sie niemals eine ERP-Itemnummer als interne MDM-ID.
Governance und Ownership müssen von Anfang an in das Modell eingebaut werden. Modelle ohne definierte Datenverantwortliche und Ownership verschlechtern sich vorhersehbar.

Die meisten MDM-(Master-Data-Management-)Probleme sind keine Datenprobleme. Sie sind Modellprobleme. Die Daten sind ungeordnet, ja, aber das tiefere Problem ist normalerweise, dass niemand eine kohärente Struktur entwarf, bevor der erste Datensatz importiert wurde. Die Plattform wird konfiguriert, Daten werden geladen, und die strukturellen Lücken zeigen sich Monate später als Integrationsfehler, doppelte Datensätze oder Klassifizierungschaos, das niemand ohne einen vollständigen Neuaufbau entwirren kann.

Ein gutes Product-MDM-Datenmodell verhindert das. Es ist die architektonische Blaupause, die bestimmt, wie Produktdaten systemübergreifend funktionieren, nicht nur wie sie in einem System gespeichert werden.

Was das Product-MDM-Datenmodell wirklich definiert

Ein Product-MDM-Datenmodell definiert Entitäten, Attribute, Beziehungen, Hierarchien, Identifier und die Regeln, die alle steuern.

Die zentrale Entität ist der Produktdatensatz selbst. Alles andere verbindet sich damit. Category definiert, wo ein Produkt in der Hierarchie sitzt und welche Attribute gelten. Variant erfasst spezifische Kombinationen von Achsen wie Größe oder Farbe. Asset umfasst verlinkte digitale Dateien. Channel stellt einen Vertriebs- oder Distributionskanal dar. Supplier hat eigene Identifier und Daten. Price sollte bei mehreren Preislisten oder Währungen als separate Entität modelliert werden, statt als flaches Attribut.

Bei Projekten, die wir für Industriegerätehersteller umsetzten, war das Zusammenfassen von Lieferantendaten in den Produktdatensatz die häufigste Quelle von Synchronisierungsfehlern. Sobald sich ein Lieferantendatensatz im ERP änderte, mussten alle darauf verweisenden Produkte manuell abgestimmt werden. Die Lösung war immer eine strukturelle, keine Datenqualitätslösung.

Diese als separate Entitäten zu modellieren erfordert mehr Aufwand am Anfang. Das macht das Modell aber auch erweiterbar, während das Unternehmen wächst.

Ein Hinweis zum Scope: Ein Product-MDM-Datenmodell steuert operative und strukturelle Attribute. Es ist nicht dasselbe wie ein PIM-Inhaltsmodell, das beschreibende und kommerzielle Produktinhaltsanreicherung steuert. Die Vermischung dieser beiden schafft Governance-Verantwortungslücken. Beide können auf einer einzigen Plattform koexistieren, aber die Attributeigentümer-Logik muss explizit machen, welche Domäne jedes Attribut angehört.

Produkthierarchie und Relationship-Design

Die Produkthierarchie organisiert den Katalog sowohl für Navigation als auch für Attribut-Vererbung. Flache Hierarchien sind einfacher zu verwalten, bieten aber weniger Präzision. Tiefe Hierarchien ermöglichen mehr Granularität, erfordern aber mehr Governance-Aufwand.

In der Praxis sind drei bis fünf Ebenen für die meisten B2B-Kataloge ausreichend. Eine Struktur wie Komponenten > Sensoren > Drucksensoren > Keramik-Drucksensoren ist spezifisch genug, um aussagekräftige Attribut-Vererbung zu steuern, ohne unhandhabbar zu werden. Ein Tiefer-Gehen als fünf Ebenen bietet selten Mehrwert und erzeugt normalerweise Governance-Schulden, die sich stillschweigend ansammeln.

Eine Unterscheidung, die hier wichtig ist: Kategorisierung und Klassifizierung sind nicht dasselbe. Kategorisierung platziert ein Produkt in einem Navigationsbaum. Klassifizierung ordnet es einer standardisierten Taxonomie wie eCl@ss oder GS1 GPC zu, was oft für EDI oder Marketplace-Integration erforderlich ist. Die Vermischung dieser beiden schafft Verantwortungslücken und macht es schwerer, eine unabhängig weiterentwickelt werden kann. Der praktischste Ansatz ist eine primäre Kategorie für Attribut-Vererbung und sekundäre Kategorien nur für Navigation.

Beziehungen müssen auch über einfache Parent-Child-Strukturen hinausgehen. Ein gut gestaltetes Product-MDM-Datenmodell sollte Bill-of-Materials-Verknüpfungen für gefertigte Produkte, Zubehör- und Ersatzteilbeziehungen sowie Substitutions- oder Cross-Sell-Links definieren, wo relevant für das Geschäft. Diese sind nicht dekorativ. Sie speisen direkt in Beschaffungsplanung, technische Dokumentation und After-Sales-Prozesse.

Attribut-Scope: Die wichtigste Designentscheidung im Product MDM

Jedes Attribut im Modell hat einen Scope. Dieser Scope bestimmt, welches System es besitzt, welche Gebietsschema-Version darauf zutrifft und welcher Kanal es empfängt. Attribute zu fehlklassifizieren ist die häufigste Quelle für zerstörte Publishing-Logik.

Produktattribute fallen in drei Kategorien. Globale Attribute gelten für jede Instanz eines Produkts unabhängig von Gebietsschema oder Kanal: Abmessungen, Gewicht, Materialzusammensetzung, Basis-Identifier. Gebietsschema-spezifische Attribute halten übersetzte oder regionalisierte Inhalte: Produktnamen, Beschreibungen, rechtliche Haftungsausschlüsse, Einheitenlabel. Kanalspezifische Attribute enthalten Werte, die nach Vertriebskanal unterschiedlich sind: Marketing-Text für einen Webshop, komprimierte technische Spezifikationen für einen Marketplace-Feed, druckfähige Beschreibungen für einen PDF-Katalog.

Eine fehlende deutsche Beschreibung sollte die Veröffentlichung zum deutschen Webshop blockieren. Ein Produkt mit unvollständigen Logistik-Attributen sollte von der Shipping-Integration blockiert werden. Diese Vollständigkeitsregeln müssen im Modell definiert und pro Kombination durchgesetzt werden, nicht als einzelner globaler Schwellenwert angewendet.

Genauso wichtig ist die Definition, welches System das System of Record für jedes Attribut ist. Produktgewicht könnte im ERP mastergeleitet sein. Marketing-Text könnte im PIM mastergeleitet sein. Preisberechnung könnte aus einer dedizierten Pricing-Engine kommen. Das Product-MDM-Datenmodell muss dies klar dokumentieren, damit bei widersprechenden Werten zwischen zwei Systemen eine Regel zur Auflösung vorhanden ist, statt einer Diskussion.

AtroPIM handhabt dies durch konfigurierbare Vollständigkeitsregeln, die an spezifische Kanal- und Gebietsschema-Kombinationen gebunden sind, und durch eine flexible Attributebene, die native Overrides für gebietsschema-spezifische und kanalspezifische Attribute unterstützt, über die AtroCore-Grundlage. Für Hersteller, die über mehrere Länder und Vertriebskanäle verteilen, macht dieser Unterschied sofort einen Unterschied.

Survivorship-Regeln und die Single Source of Truth

Das Ziel jedes Product-MDM-Datenmodells ist eine Single Source of Truth: ein autorisierter Datensatz für jedes Produkt, den alle nachgelagerten Systeme nutzen. Um dorthin zu gelangen, sind Survivorship-Regeln erforderlich.

Survivorship-Regeln definieren, welche Quelle gewinnt, wenn zwei Systeme sich über dasselbe Attribut uneinig sind. Wenn das ERP sagt, ein Produkt wiegt 4,2 kg und das Logistik-System sagt 4,8 kg, entscheidet die Survivorship-Regel. Diese Regel könnte "ERP gewinnt immer bei physischen Attributen" oder "zuletzt aktualisierter Wert gewinnt" oder "manuelle Steward-Überprüfung erforderlich über einem definierten Diskrepanz-Schwellenwert" sein. Die Regel selbst ist weniger wichtig als die Tatsache, dass sie existiert und im Modell codiert ist.

Ohne Survivorship-Regeln lösen Teams Konflikte informell. Unterschiedliche Integrationen wenden unterschiedliche Logik an. Der Golden Record degeneriert in einen umstrittenen Record. Und der Golden Record ist ohnehin schon ein missverstandenes Konzept: Es ist nicht ein Ziel, das man einmal erreicht. Es ist die Ausgabe eines Modells mit durchgesetzter Governance, kontinuierlich gepflegt durch definierte Prozesse. Es verschlechtert sich in dem Moment, in dem diese Prozesse ausfallen.

Datendrift ist der Mechanismus. Attribute ändern sich in einem System ohne entsprechende Aktualisierungen anderswo. Das ERP wird mit einer neuen Klassifizierung für Gefahrstoffe aktualisiert. Der Produktkatalog nicht. Sechs Wochen später deckt eine Compliance-Prüfung die Unstimmigkeit auf. Das ist kein Technologieversagen. Es ist ein Modellversagen, speziell das Fehlen eines definierten Eigentümers und einer Change-Propagation-Regel für dieses Attribut.

Varianten- und Bundle-Modellierung

Varianten-Modellierung ist, wo viele Product-MDM-Datenmodelle zusammenbrechen, normalerweise weil es während der Designphase als sekundäre Überlegung behandelt wurde.

Einfache Produkte haben einen SKU und einen Attribut-Satz. Konfigurierbare Produkte haben einen Parent-Datensatz, der das Produktkonzept definiert, und Child-Datensätze für jede spezifische Kombinationen von Varianten-Achsen. Ein Druckentlastungsventil in drei Druckklassen und vier Verbindungsgrößen ist ein konfigurierbares Produkt mit zwölf Varianten. Der Parent hält gemeinsame Daten: Material, Zertifizierungen, Basis-Abmessungen. Jede Variante hält ihre eigene Druckklasse, Verbindungsgröße, SKU und Bestandsmenge.

Dies falsch zu machen bedeutet, dass der Katalog sich mit nahezu doppelten Datensätzen füllt, Filterlogik im Webshop bricht und die Beschaffung nicht zuverlässig die zu bestellende Variante identifizieren kann. Unsere Kunden im Sicherheitsausrüstungs-Distributionsbereich kommen oft zu uns nach genau diesem Szenario: flache Datensätze für jede Variante, keine Parent-Child-Struktur und ein Sucherlebnis im Frontend, das sechs nahezu identische Produkte oberflächlich darstellt, ohne sie vergleichen zu können.

Varianten-Achsen müssen kontrollierte Vokabulare verwenden. Die Definition von Größe als freies Textfeld bedeutet, ein Datensatz sagt "M", ein anderer sagt "Medium" und ein dritter sagt "Gr. M". Das sind drei Werte, die das gleiche darstellen, und kein System kann sie korrekt zusammenfassen. Kontrollierte Vokabulare, auf Modellebene durchgesetzt, eliminieren dies, bevor es beginnt.

Bundle-Modellierung hat seinen eigenen Fehler-Modus: die Behandlung von Bundle-Zusammensetzung als Notiz-Feld statt als strukturierte Beziehung. Strukturierte Bundle-Entitäten, mit definierten Mengen mit Komponenten-Produktdatensätzen verlinkt, sind der einzige Ansatz, der skaliert.

Identifier-Strategie

Identifier sind, wie Systeme das gleiche Produkt erkennen und referenzieren. Eine schwache Identifier-Strategie führt direkt zu doppelten Datensätzen und Synchronisierungsfehlern.

Die wichtigsten Identifier-Typen dienen verschiedenen Zwecken. Die interne MDM-ID ist systemvergeben und dauerhaft. Sie sollte sich nie ändern, unabhängig davon, was in externen Systemen geschieht. Die ERP-Itemnummer ist betrieblich nützlich, aber an die Logik eines Systems gebunden. Der GTIN oder EAN ist ein globaler Handels-Identifier. Die MPN ist die Hersteller-Teilnummer. Jede spielt eine andere Rolle und muss getrennt im Product-MDM-Datenmodell gespeichert werden.

Das häufigste Fehlermuster, das wir sehen: Die Verwendung der ERP-Itemnummer als MDM-interne ID. Wenn das ERP-System ersetzt wird oder Itemnummern umstrukturiert werden, bricht jede Integration. Die Lösung ist eine systemübergreifende Identifier-Mapping-Tabelle, die die interne ID neben allen externen Identifizierern speichert, mit strenger Validierung, die verhindert, dass zwei Datensätze den gleichen GTIN teilen.

Zwei Datensätze, die einen GTIN teilen, bedeuten, dass einer ein Duplikat ist. Dies sollte als harte Validierungsregel im Modell durchgesetzt werden, nicht während eines vierteljährlichen Datenaudits manuell erfasst werden. Anfängliche Duplikat-Raten von 15 bis 40% sind in Organisationen häufig, die MDM zum ersten Mal implementieren. Die meisten dieser Duplikate existieren, weil Identifier-Grenzen niemals definiert wurden.

Daten-Governance in das Modell eingebaut

Governance wird oft als Prozessschicht behandelt, die auf dem Datenmodell sitzt. Das ist die falsche Reihenfolge. Im Master Data Management müssen Daten-Governance-Entscheidungen Teil des Modellentwurfs selbst sein.

Ownership bedeutet, klare Verantwortung für jeden Teil des Modells zu weisen: wer neue Attribute hinzufügen kann, wer Änderungen an der Kategoriehierarchie genehmigt, wer sich auf eine neue Kanalebene einigt. Datenverantwortliche halten diese Verantwortung auf Attribut- und Entitätsebene tagtäglich. Ohne definierte Steward-Zuweisungen driftet das Modell. Neue Attribute werden ohne Überprüfung hinzugefügt. Kategorien werden von verschiedenen Teams auf inkompatible Weise umstrukturiert. Die Produktdatenqualität Probleme, die während der anfänglichen Implementierung gelöst wurden, kehren allmählich zurück.

McKinseys 2023 Master Data Management Survey stellte fest, dass 80% der befragten Organisationen berichteten, dass Divisionen in Silos tätig sind, jede mit ihren eigenen Datenmanagement-Praktiken. Das Product-MDM-Datenmodell ist das, was damit durchschneidet. Aber nur, wenn das Ownership auf Modellebene zugewiesen wird, nicht der informellen Koordination zwischen Teams überlassen.

Governance muss auch messbar sein. Duplikat-Erstellungsrate, unvollständige Datensätze prozentual nach Kanal, Produkt-Aktivierungszeit und Integrations-Fehlerraten sind die KPIs, die Ihnen sagen, ob das Modell in der Produktion standhält. Diese sollten kontinuierlich überwacht werden, nicht in einem Pre-Launch-Audit oder einer jährlichen Überprüfung oberflächilich gemacht.

Genauso wichtig ist die Verwaltung eines lebenden Modelldokuments. Kein Datenbankdiagramm, das in einem technischen Repository eingesperrt ist. Ein lesbares Nachschlagewerk, das für Entwickler und Business-Stakeholder zugänglich ist, und das jede Entität, jeden Attribut, jede Beziehung, jede Survivorship-Regel und jede Validierungsbeschränkung in einfacher Sprache beschreibt. Dieses Dokument ist, was Team-Alignment intakt hält, während der Katalog wächst und externe Audits unterstützt, wenn sie ankommen.

Was ein schwaches Product-MDM-Datenmodell kostet

Die Kosten sind nicht abstrakt. Ein Baustoffe-Distributor, der 40.000 SKUs ohne strukturiertes Varianten-Modell verwaltet, endet mit nahezu doppelten Datensätzen für jede Größen- und Finish-Kombination. Die Beschaffung kauft die falsche Variante, weil der Katalog nicht zuverlässig filtern kann. Rücksendungen gehen hoch. Die Bestandsplanung wird manuell. Keines davon erscheint in einem Datenqualitätsbericht als "Modellproblem". Es erscheint als operativer Overhead ohne offensichtliche Grundursache.

Auf Dateneebene erhöhen doppelte SKUs Beschaffungs- und Bestandskosten. Unvollständige Logistik-Attribute erzeugen Versandfehler. Inkonsistente Klassifizierung blockiert Marketplace-Angebote und EDI-Transaktionen. Fehlende oder falsche Gefahrstoffe-Codes schaffen Compliance-Risiken.

Branchenanalyse setzt die Kosten schlechter Datenqualität durchweg auf 15% bis 25% des Umsatzes für Unternehmensorganisationen. Die meisten davon sind auf strukturelle Entscheidungen, die während des Modellentwurfs getroffen wurden, oder nicht getroffen wurden, zurückzuführen.

Ein PIM- oder MDM-Projekt mit einer Datenmodell-Prüfung zu starten ist die zuverlässigste Möglichkeit, um später nicht neuaufzubauen. In der Praxis bedeutet das, jede aktuell verwendete Entität zuzuordnen, zu identifizieren, wo Daten flach gespeichert werden, die strukturiert sein sollten, die Identifier-Strategie auf Konflikte und fehlende Zuordnungen zu prüfen und System-of-Record-Zuweisungen pro Attribut zu dokumentieren, bevor Sie eine Konfiguration anfassen. AtroPIM ist konfigurierbar genug, um ein gut gestaltetes Modell direkt widerzuspiegeln, einschließlich komplexer Hierarchiestrukturen, mehrkanaliger Attribut-Ebenen und systemübergreifender Identifier-Zuordnungen. Diese Flexibilität ist nur nützlich, wenn das Modell bereits existiert.