Los datos son uno de los activos más importantes de las empresas. Esta es una de las razones por las que se aplican técnicas y políticas que permitan garantizar su calidad, integridad y usabilidad. Pero, en materia de data governance se trabaja un concepto que estudia a los datos desde su origen y nos entrega grandes beneficios en términos de calidad.
Se trata del linaje de datos. Descubre un poco más sobre los principios de este concepto y su importancia para tu empresa.
¿Qué es Data Lineage?
El linaje de datos, en términos sencillos, nos ayuda a entender dónde se originaron los datos que forman parte de nuestra empresa. Nos permite tener un registro pormenorizado de las transformaciones o modificaciones que se han realizado, así como también, las manipulaciones o usos que se han dado a un conjunto de datos. El Linaje de datos es una versión más avanzada de un historial de la vida de los datos.
Para comprender de mejor forma el concepto de linaje de datos, debemos asociar el concepto de trazabilidad. Este concepto es muy importante, ya que podemos tener una hoja de ruta de donde se generó un dato y seguir todos los usos que ha tenido, hasta su depósito o almacenamiento final.
El linaje de datos dentro del data governance es relevante porque aporta valor a la administración de permisos de acceso a los datos, nos ayuda a asegurarnos de que los datos sensibles cumplen con los estándares de privacidad y auditoría, entre otras ventajas.
La visión sobre el linaje de datos
Dentro de nuestra empresa, el linaje de datos debe ser gestionado y analizado por personal altamente cualificado que posea una visión amplia del negocio. La visión sobre los datos también debe ser amplía y debe distanciarse de los análisis tradicionales, ya que podría limitarse el alcance del linaje, perdiendo valor potencial y ocasionando bloqueos importantes en los datos maestros.
Para sacar el máximo provecho al linaje de datos, podemos contemplar el estudio a nivel de detalle de qué usuario utiliza cada dato, cuál es el significado de su uso, establecer patrones de cuando se accede a la información, por qué se almacenan los datos y hasta el nivel de relación con otros elementos.
Una perspectiva amplia, en este sentido, ayuda a derribar limitaciones analíticas y acorta los períodos de desarrollo y prueba sobre los datos. Puedes lograr esta perspectiva teniendo dentro de tus análisis dimensiones relacionadas:
Quién usa los datos
Qué datos usa
Dónde se implementan
Por qué los usan
Cómo los usan
¿Cómo construir el Linaje de datos?
El Linaje de datos necesita de un alto nivel técnico para ser desarrollado. Ya que se debe definir el alcance, el sistema de implementación y a su vez, tienen que definirse fuentes, esquemas de transformación de datos y receptores.
Todo esto unido a conjuntos de atributos tipo (describe el tipo de fuente para que un usuario pueda identificar al conjunto correcto de lectores de datos que se usarán) y atributos identificadores (describe la ubicación de los datos para identificar el origen y el destino).
Estos atributos se combinan en un almacén de datos con componentes como:
Tiempo de conciliación de datos
Información del trabajo de transformación de datos
Linaje a nivel de tabla
Información de linaje a nivel de columna