Wichtigste Erkenntnisse
Entwerfen Sie das Modell, bevor Sie eine PIM/MDM-Konfiguration anfassen. Die meisten Datenprobleme sind Modellprobleme, keine Datenprobleme.
Niemals in einem einzigen Datensatz zusammenfassen. Kategorie, Variante, Asset, Kanal, Lieferant, Preis und Maßeinheit sind eigenständige Entitäten. Werden sie zusammengefasst, ist das schnell gemacht – und teuer rückgängig zu machen.
Der Attributgeltungsbereich ist die folgenschwerste Designentscheidung. Klassifizieren Sie jedes Attribut als global, gebietsschemaspezifisch oder kanalspezifisch. Fehler hier brechen die nachgelagerte Veröffentlichungslogik.
Drei Varianten-/Bundle-Fehler, die Sie vermeiden sollten:
- Varianten nachträglich in eine flache Produktstruktur einbauen
- Bundle-Zusammensetzung als Notizfeld statt als strukturierte Entität speichern
- Variantenachsen ohne kontrollierte Vokabulare definieren ("rot" / "Rot" / "ROT" zerstört die Facettensuche)
Interne ID, SKU, GTIN, EAN und MPN erfüllen jeweils unterschiedliche Funktionen – verwechseln Sie diese niemals. Verwenden Sie eine systemübergreifende Zuordnungstabelle. Zwei Datensätze mit derselben GTIN bedeuten, dass einer davon ein Duplikat ist; erzwingen Sie dies als harte Validierungsregel.
Kerndaten gehören in den Basisdatensatz. Gebietsschema- und Kanalüberschreibungen gehören in separate verknüpfte Datensätze. Definieren Sie Vollständigkeitsregeln pro Kombination: Eine fehlende deutsche Beschreibung sollte die Veröffentlichung im deutschen Webshop blockieren.
Versionieren Sie das Modell, weisen Sie Verantwortlichkeiten zu und pflegen Sie ein lebendes Dokument, das sowohl für Entwickler als auch für Business-Stakeholder verständlich ist. Ohne Governance werden die gelösten Datenqualitätsprobleme schrittweise zurückkehren.
Was ist ein Produkt-Stammdatenmodell?
Die meisten Produktdatenprobleme sind keine Datenprobleme. Es sind Modellprobleme. Die Daten sind oft vorhanden. Sie sind nur in der falschen Form, am falschen Ort, ohne die richtigen Beziehungen gespeichert. Genau das soll ein Produkt-Stammdatenmodell beheben.
Ein Produkt-Stammdatenmodell ist ein formaler Bauplan. Es beschreibt die Entitäten in Ihrer Produktdomäne, deren Attribute und deren Beziehungen zueinander. Es ist die Architekturzeichnung für alle Ihre Produktinformationen.
Das Produkt-Stammdatenmodell ist nicht dasselbe wie ein Datenbankschema. Ein Schema ist die technische Implementierung. Das Datenmodell ist die konzeptionelle Ebene darüber. Sie entwerfen zuerst das Modell, dann implementieren Sie das Schema.
Ohne ein klares Modell neigen Produktdaten dazu, chaotisch zu wachsen. Teams fügen Attribute dort ein, wo sie passen. Bezeichner werden dupliziert. Kanalspezifische Daten fließen in Kerndatensätze ein. Das Fehlen eines expliziten Modells war fast immer die Ursache von Datenqualitätsproblemen. Dies gilt insbesondere für Unternehmen, die Zehntausende von SKUs verwalten.
Das Produkt-Stammdatenmodell ist die Grundlage jeder PIM (Product Information Management)- oder MDM (Master Data Management)-Initiative. Bevor Sie Workflows, Import-Pipelines oder Veröffentlichungsregeln konfigurieren, müssen Sie wissen, wie Ihre Datenstruktur aussieht.
Kernentitäten und ihre Beziehungen
Jedes Produkt-Stammdatenmodell dreht sich um eine zentrale Entität: Produkt. Alles andere ist damit verbunden.
Die wichtigsten verwandten Entitäten sind:
- Kategorie – definiert, wo ein Produkt in der Kataloghierarchie steht und welche Attribute darauf zutreffen.
- Variante – eine spezifische Version eines Produkts, die sich durch eine oder mehrere Achsen wie Größe oder Farbe unterscheidet.
- Asset – eine mit einem Produkt verknüpfte digitale Datei, typischerweise ein Bild, Video oder Dokument.
- Kanal – ein Vertriebs- oder Distributionskanal wie ein Webshop, ein Marktplatz oder ein Druckkatalog.
- Lieferant – die Entität, die das Produkt bereitstellt, mit eigenen Bezeichnern und Daten.
- Preis – kann als eigenständige Entität modelliert werden, wenn mehrere Preislisten, Währungen oder Kundengruppen beteiligt sind.
- Maßeinheit – definiert, wie das Produkt verkauft, verpackt oder versandt wird.
Die folgende Tabelle fasst zusammen, wie jede Entität mit Produkt in Beziehung steht und welche Kardinalität diese Beziehung trägt.
| Entität | Beziehung zu Produkt | Kardinalität |
|---|---|---|
| Kategorie | Produkt gehört zu Kategorie | Viele-zu-viele |
| Variante | Produkt hat Varianten | Eins-zu-viele |
| Asset | Produkt hat Assets | Eins-zu-viele |
| Kanal | Produkt wird in Kanal veröffentlicht | Viele-zu-viele |
| Lieferant | Produkt wird von Lieferant geliefert | Viele-zu-viele |
| Preis | Produkt hat Preise | Eins-zu-viele |
| Maßeinheit | Produkt verwendet Maßeinheit | Viele-zu-eins |
Ein mittelgroßer Hersteller von Industriesensoren verdeutlicht, warum die Trennung von Entitäten wichtig ist. Jeder Sensor gehört zu einer Kategorie, hat mehrere Varianten, ist mit einem Datenblatt als PDF verknüpft, wird über drei Kanäle verkauft und wird von zwei Lieferanten bezogen. All das als flache Textfelder in einem einzigen Produktdatensatz abzubilden, macht die Daten innerhalb weniger Monate unhandhabbar.
Attributarchitektur
Attribute sind die einzelnen Datenfelder, die ein Produkt beschreiben. Die sorgfältige Gestaltung der Attributarchitektur ist eine der Entscheidungen mit dem höchsten Hebel im gesamten Projekt.
Attributtypen definieren, welche Art von Wert ein Feld enthält: Text, Zahl, Boolean, Datum, Enum, Multi-Enum oder Relation. Die Wahl des falschen Typs verursacht nachgelagerte Probleme. Einen Gewichtswert als Text statt als Zahl zu speichern, macht späteres Filtern und Umrechnen von Einheiten unmöglich. Ein Herkunftsland als Freitext statt als Enum zu speichern, führt dazu, dass „Deutschland", „DE", „Deutschland" und „germany" alle als separate Werte in Berichten erscheinen.
Attributgruppen organisieren Felder in logische Bereiche innerhalb der Benutzeroberfläche. Übliche Gruppen sind Allgemein, Technische Spezifikationen, Logistik und Marketinginhalt. Bei einem Produkt mit 80 Attributen ist der Unterschied zwischen einer gut definierten Gruppe und einer, die niemand nutzen möchte, erheblich. Eine Gruppe „Technische Spezifikationen" für einen Industriesensor könnte beispielsweise Betriebstemperatur, Schutzart (IP-Klassifizierung), Ausgangssignal und Messbereich enthalten – Felder, die zusammengehören und von derselben Person bearbeitet werden.
Geltungsbereichsdimensionen bestimmen, ob ein Attributwert global geteilt wird oder nach Gebietsschema oder Kanal variiert:
- Global – ein Wert über alle Gebietsschemata und Kanäle hinweg. Klare Beispiele sind GTIN, interne ID und Gefahrgutklassifizierung. Diese Werte sind per Definition sachlich und universell.
- Gebietsschemaspezifisch – Wert variiert nach Sprache oder Region, z. B. Produktname, Beschreibung und gesetzlicher Haftungsausschlusstext.
- Kanalspezifisch – Wert variiert nach Vertriebskanal, z. B. ein 80-Zeichen-Titel für Amazon im Vergleich zu einem vollständigen beschreibenden Titel für den Webshop.
Dies ist die einzelne Designentscheidung mit dem größten nachgelagerten Einfluss. Ein falscher Geltungsbereich bedeutet entweder unnötige Datenduplizierung oder das Zwingen kanalspezifischer Inhalte in globale Felder, was die Veröffentlichungslogik bricht.
Attributvererbung ermöglicht es Produkten, die einer Kategorie zugeordnet sind, automatisch den für diese Kategorie definierten Attributsatz zu erhalten. Sie definieren Attribute einmal auf Kategorieebene, und alle darunter liegenden Produkte erhalten sie. Wenn ein neues Attribut „Betriebstemperatur" für alle Produkte in der Kategorie Industriesensoren erforderlich ist, propagiert eine einzige Änderung sofort auf Hunderte von Produkten.
Produkthierarchie und Klassifikation
Die Produkthierarchie ist der Kategoriebaum, der Ihren Katalog sowohl für die Navigation als auch für die Attributzuweisung organisiert.
Eine flache Struktur mit wenigen Ebenen ist einfacher zu pflegen, bietet aber weniger Granularität für die Attributvererbung. Eine tiefe Struktur bietet mehr Präzision, erfordert aber mehr Governance-Aufwand. In der Praxis reichen drei bis fünf Ebenen für die meisten B2B- und B2C-Kataloge aus. Eine Hierarchie wie Komponenten > Sensoren > Drucksensoren > Keramikdrucksensoren ist spezifisch genug, um eine sinnvolle Attributvererbung zu ermöglichen, ohne unhandhabbar zu werden.
Kategorisierung und Klassifikation sind zwei unterschiedliche Konzepte, die häufig verwechselt werden. Kategorisierung platziert ein Produkt in einem Navigationsbaum (z. B. Elektronik > Kameras > DSLR). Klassifikation weist ein Produkt einer standardisierten Taxonomie wie eCl@ss oder GS1 GPC zu, die häufig für EDI oder die Marktplatzintegration erforderlich ist. Beide können im selben Modell koexistieren, separat gespeichert und für unterschiedliche Zwecke genutzt werden.
Kategoriübergreifende Produkte sind eine echte Herausforderung. Ein Produkt, das zu zwei Kategorien mit widersprüchlichen Attributsätzen gehört, benötigt eine klare Regel. Der praktischste Ansatz ist die Verwendung einer primären Kategorie für die Attributvererbung und sekundärer Kategorien nur für die Navigation. Wie Sie dies auf Hierarchieebene lösen, bestimmt direkt, wie Variantenachsen im nächsten Schritt definiert werden.
Varianten- und Bundle-Modellierung
Die Varianten- und Bundle-Modellierung ist der Bereich, an dem viele Produkt-Stammdatenmodelle scheitern. Es lohnt sich, dieser Thematik während der Designphase viel Zeit zu widmen.
Einfache Produkte haben keine Varianten: eine SKU, ein Attributsatz.
Konfigurierbare Produkte haben einen übergeordneten Datensatz, der das Produktkonzept definiert, und untergeordnete Datensätze, die jede spezifische Kombination von Variantenachsen repräsentieren. Ein T-Shirt in den Größen S, M, L, XL und den Farben Rot, Blau und Grün ist ein konfigurierbares Produkt mit zwölf Varianten. Der übergeordnete Datensatz enthält gemeinsame Daten: Marke, Material und Pflegehinweise. Jede untergeordnete Variante enthält ihre eigene Größe, Farbe, SKU und Lagerbestand. Diese Struktur hält den Katalog übersichtlich und macht das Filtern nach Größe oder Farbe zuverlässig.
Variantenachsen müssen als kontrollierte Vokabulare definiert werden. Sie wollen nicht, dass „rot", „Rot" und „ROT" als drei verschiedene Werte behandelt werden. Über die Datenkonsistenz hinaus zerstören unkontrollierte Variantenachsenwerte die Facettensuche und Filterlogik im Frontend, was bedeutet, dass Kunden Produkte in Ihrem Webshop nicht zuverlässig nach Farbe, Größe oder Material filtern können.
Bundles sind Produkte, die aus anderen Produkten zusammengesetzt sind. Ein „Starter-Kit", bestehend aus einem Sensor, einer Halterung und einem Kabel, ist ein Bundle. Das Modell benötigt eine Bundle-Zusammensetzungsentität, die aufzeichnet, welche Komponenten darin enthalten sind und in welchen Mengen. Ob das Bundle virtuell (zur Bestellzeit zusammengestellt) oder physisch (vorab zusammengestellt und als Einheit gelagert) ist, bestimmt, wie Preis- und Lagerlogik funktioniert.
In Projekten mit komplexen Produktpaletten empfehlen wir stets, Varianten und Bundles explizit zu modellieren, bevor mit der Konfigurationsarbeit begonnen wird.
Die drei kostspieligsten Fehler, die wir immer wieder sehen, sind:
- Start mit einer flachen Produktstruktur und nachträgliches Einbauen von Varianten
- Behandlung der Bundle-Zusammensetzung als manuelles Notizfeld statt als strukturierte Entität
- Definition von Variantenachsen ohne kontrollierte Vokabulare. Jeder dieser Fehler ist in der Modelldesignphase vollständig vermeidbar und nach dem Go-live sehr teuer zu beheben.
Bezeichner-Strategie
Bezeichner sind die Art und Weise, wie Ihre Systeme dasselbe Produkt erkennen und referenzieren. Eine schwache Bezeichner-Strategie führt direkt zu doppelten Datensätzen und Synchronisationsfehlern.
Die folgende Tabelle fasst die wichtigsten Bezeichnertypen, ihre Vergabe, ihren Geltungsbereich und ihre primäre Verwendung zusammen.
| Bezeichner | Vergeben durch | Geltungsbereich | Primäre Verwendung |
|---|---|---|---|
| Interne ID | PIM / MDM-System | Intern | Systemintegrität, Datensatzverknüpfung |
| SKU | Business-/Betriebsteam | Intern | Lager, Auftragsverwaltung |
| GTIN | GS1 (Quelle: https://www.gs1.org/standards/get-barcode/gtin) | Global | Handel, Lieferkette, EDI |
| EAN | GS1 | Global | Europäischer Einzelhandel, Point of Sale |
| MPN | Hersteller | Extern | B2B-Beschaffung, technische Kataloge |
Jeder Bezeichner erfüllt eine andere Funktion. Sie zu vermischen verursacht Probleme. Ein häufiges Fehlermuster ist die Verwendung der ERP-Artikelnummer als interne PIM-ID. Wenn das ERP-System ersetzt oder Artikelnummern umstrukturiert werden, bricht jede Integration zusammen.
Die praktische Lösung ist eine systemübergreifende Bezeichner-Zuordnungstabelle. Für jeden Produktdatensatz speichert das PIM seine eigene interne ID zusammen mit der ERP-Artikelnummer, der GTIN und der MPN. Import- und Export-Zuordnungen referenzieren diese Tabelle explizit. Ein konkretes Beispiel: Ein Produkt kommt aus dem ERP mit der Artikelnummer „ERP-00447". Das PIM speichert diese in einem dedizierten ERP-ID-Feld. Die Webshop-Integration mapped die GTIN. Der EDI-Feed des Distributors mapped die MPN. Jedes System spricht seine eigene Sprache, und das PIM übersetzt zwischen ihnen ohne Mehrdeutigkeit.
Wenn zwei Datensätze dieselbe GTIN teilen, ist einer davon ein Duplikat. Diese Regel als harte Validierung auf Modellebene zu implementieren, verhindert, dass Duplikate überhaupt erst ins System gelangen. Ein sauberes Bezeichnermodell ist auch das, was kanalspezifisches Publishing zuverlässig macht: Wenn jedes Produkt eine eindeutige Identität über alle Systeme hinweg hat, wird das Weiterleiten der richtigen Daten an den richtigen Kanal zu einem Routinevorgang statt zu einer manuellen Abstimmungsaufgabe.
Kanal- und Gebietsschema-Schicht
Der Kern-Produktdatensatz enthält Daten, die unabhängig davon gelten, wo das Produkt verkauft wird oder in welcher Sprache. Die Kanal- und Gebietsschema-Schicht enthält alles, was variiert.
Kanalspezifische Daten umfassen typischerweise:
- Einen neu formatierten Produkttitel für einen bestimmten Marktplatz
- Für diesen Kanal optimierte Bilder
- Werbetexte, die nur für einen Vertriebskanal relevant sind
Gebietsschemaspezifische Daten umfassen:
- Übersetzte Namen und Beschreibungen
- Gebietsschema-gerechte Einheiten
- Länderspezifische gesetzliche Texte
Jede Schicht hat ihren eigenen Platz: Kerndaten im Basis-Produktdatensatz, Gebietsschemavarianten in verknüpften Übersetzungsdatensätzen, kanalspezifische Überschreibungen in Kanalzuweisungsdatensätzen. Diese Schichten sauber zu halten, macht das Multichannel-Publishing in großem Maßstab handhabbar. AtroPIM bewältigt diese Trennung besonders gut und ermöglicht es Teams, Kanal- und Gebietsschema-Schichten unabhängig voneinander anzureichern und zu veröffentlichen, ohne den Kern-Produktdatensatz zu berühren.
Vollständigkeitsregeln pro Kanal-/Gebietsschema-Kombination sind ein Governance-Feature, das zum Modell selbst gehört – Sie definieren, welche Attribute verpflichtend sind, bevor ein Produkt für einen bestimmten Kanal veröffentlicht werden kann.
Ein Produkt ohne deutsche Beschreibung kann nicht im deutschen Webshop veröffentlicht werden. Ein Produkt ohne gültige GTIN kann nicht an einen Handelsmarktplatz übermittelt werden.
Je nach Kanalanforderung können diese Regeln harte Sperren sein, die die Veröffentlichung vollständig verhindern, oder weiche Warnungen, die die Lücke markieren und die Veröffentlichung mit einer bewussten Ausnahme erlauben. Beide Ansätze haben ihren Platz, und das Modell sollte beide unterstützen.
Governance und Eigentümerschaft im Modell
Ein Produkt-Stammdatenmodell ist nicht nur ein technisches Dokument. Es ist ein Governance-Rahmenwerk.
Pflichtfelder sollten vom System erzwungen werden. Validierungsregeln, die in Attributdefinitionen eingebettet sind, fangen Fehler bei der Eingabe ab, bevor sie sich nachgelagert ausbreiten. Ein Gewichtsfeld sollte negative Werte ablehnen. Ein EAN-Feld sollte die Prüfziffer validieren. Ein URL-Feld sollte sein Format überprüfen. Ein Produkttitelfeld kann eine maximale Zeichenanzahl pro Kanal erzwingen. Jede dieser Regeln eliminiert eine ganze Kategorie wiederkehrender Datenqualitätsprobleme.
Die Versionierung des Modells ist etwas, das die meisten Teams übersehen, bis sie es brauchen. Wenn Sie ein neues Pflichtattribut hinzufügen oder eine Kategoriehierarchie umstrukturieren, müssen bestehende Datensätze migriert werden. Das Modell als versioniertes Artefakt mit einem Änderungsprotokoll und Migrationsskripten zu behandeln, macht dies handhabbar. Ohne Versionierung wird eine strukturelle Änderung am Modell zur Krise statt zum Routinevorgang.
Eigentümerschaft bedeutet die klare Zuweisung von Verantwortlichkeiten für jeden Teil des Modells: Wer kann neue Attribute hinzufügen, wer genehmigt Änderungen an der Kategoriehierarchie, und wer gibt eine neue Kanalschicht frei? Ohne definierte Eigentümerschaft driftet das Modell. Neue Attribute werden ohne Governance hinzugefügt. Kategorien werden von verschiedenen Teams auf inkompatible Weise umstrukturiert. Die in der ursprünglichen Implementierung gelösten Datenqualitätsprobleme kehren schrittweise zurück.
Ebenso wichtig ist die Pflege eines lebenden Modelldokuments. Dies ist kein Datenbankdiagramm, das in einem technischen Repository vergraben ist. Es ist ein lesbares Referenzdokument, das sowohl für Entwickler als auch für Business-Stakeholder zugänglich ist und jede Entität, jedes Attribut, jede Beziehung und jede Validierungsregel in verständlicher Sprache beschreibt. Ein gutes Modelldokument ermöglicht das Onboarding neuer Teammitglieder, unterstützt externe Audits und erhält die teamübergreifende Abstimmung aufrecht, während sich der Katalog weiterentwickelt.
Wenn Sie ein PIM- oder MDM-Projekt starten, ist der richtige erste Schritt ein Datenmodell-Audit: Kartieren Sie Ihre aktuellen Entitäten, identifizieren Sie, wo Daten inkonsistent gespeichert sind, und definieren Sie das Zielmodell, bevor Sie eine Konfiguration anfassen. Die Qualität dieses Modells bestimmt die Qualität von allem, was darauf aufbaut.