Data Pipelines for Analytics
Data Pipelines for Analytics
Un pipeline de datos eficiente para conseguir los resultados esperados en las acciones de analítica avanzada.
Un pipeline de datos eficiente para conseguir los resultados esperados en las acciones de analítica avanzada.
La realidad de los Departamentos de Analytics
Los requerimientos técnicos de los Departamentos de Analytics van cambiando a lo largo del tiempo y también las plataformas utilizadas (SAS, Python, R y recientemente, Databricks.). Durante todo este tiempo, no se ha dejado de usar ninguna de estas tecnologías y esto genera una serie de problemas recurrentes: silos de información, diferentes latencias en los datos, diferentes orígenes y calidad de los datos, etc.
El 80% del tiempo de los Data Scientists está dedicado a “arreglar” los datos: obtenerlos, limpiarlos, enriquecerlos, transformarlos, etc. Esta parte de “Data Engineering” es crucial para disponer de resultados válidos.
Y como siempre, “garbage in, garbage out”. Si no tenemos los datos correctos, las conclusiones que tomemos sobre ellos tampoco lo serán, por mucho que hayamos usado los mejores modelos de machine learning.
INICIATIVAS
Beneficios del pipeline de datos corporativo
- Resultados medibles a corto plazo. Para ello debemos tener en cuenta las siguientes fases:
- Encontrar los datos correctos.
- Catalogar los datos a utilizar.
- Medir su calidad.
- Cumplir con los requisitos de privacidad.
- Reducción de los costes de mantenimiento y mayor flexibilidad a la hora de añadir nuevos datos o modificar los existentes.
- Sencillez a la hora de integrar datos de diferentes orígenes o con diferentes latencias sin “morir en el intento”.
En entornos corporativos, debemos dotarnos de herramientas que nos permitan industrializar estas tareas y llevarlas a la realidad con costes razonables. No es posible una estrategia a largo plazo sin pensar que debemos ser resilientes a cambios tecnológicos, a cambios en los modelos de datos, a cambios en los lenguajes de programación o en donde y de qué manera almacenamos los datos que luego vamos a analizar.