Definición de Linaje de Datos
Linaje de Datos es un registro del origen de un dato, cómo ha sido transformado y dónde ha circulado a lo largo del tiempo, desde el sistema de origen pasando por cada proceso que lo ha tocado, hasta su estado actual.
¿Qué rastrea el linaje de datos?
Para un registro de producto, el linaje podría mostrar que un título de producto provino de una hoja de cálculo de un proveedor, fue editado manualmente por un equipo de contenido y luego se distribuyó a tres canales de venta. Captura:
- Origen — qué sistema, archivo o proveedor fue la fuente del dato
- Transformaciones — cualquier limpieza, reformateo o cambio aplicado en el camino
- Movimiento — qué sistemas recibieron o consumieron el dato y cuándo
- Propiedad — quién realizó cambios y en qué punto del proceso
¿Por qué es importante?
Cuando una descripción de producto es incorrecta en un marketplace, el linaje de datos te indica exactamente dónde se introdujo el error: en el feed del proveedor, en el mapeo de importación o en una edición manual. Sin él, rastrear un problema de datos significa revisar cada sistema manualmente.
También respalda el cumplimiento normativo: regulaciones como el Pasaporte Digital de Producto de la UE requieren cada vez más que las empresas demuestren de dónde provienen los datos de producto y que son precisos.
¿En qué se diferencia de un registro de auditoría?
Un registro de auditoría registra quién cambió qué y cuándo dentro de un único sistema. El linaje de datos es más amplio: sigue los datos entre sistemas, desde el origen hasta el destino, e incluye transformaciones automatizadas que ninguna persona específica disparó. Los dos son complementarios: los registros de auditoría alimentan un cuadro de linaje completo.
¿Quién utiliza el linaje de datos?
- Equipos de datos e IT lo utilizan para depurar errores de integración y mapear dependencias entre sistemas
- Equipos de cumplimiento y legal lo utilizan para demostrar la procedencia de datos a los reguladores
- Administradores de PIM y MDM lo utilizan para rastrear dónde entraron datos de producto inexactos en el pipeline y corregirlo en la fuente.