PT – Data Pipelines for Analytics
Data Pipelines for Analytics
Uma pipeline de dados eficiente para conseguir os resultados esperados nas ações da análise avançada.
Un pipeline de datos eficiente para conseguir los resultados esperados en las acciones de analítica avanzada.
A realidade dos Departamentos de Analytics
Os requisitos técnicos dos Departamentos de Analytics vão-se alterando no decurso do tempo, bem como as plataformas utilizadas (SAS, Python, R e recentemente, Databricks). Durante todo este período, não deixamos de usar nenhuma destas tecnologias e isso gera uma série de problemas recorrentes: silos de informação, diferentes latências nos dados, diferentes origens e qualidade dos dados, etc.
80% do tempo dos Data Scientists está destinado a “resolver” os dados: obtê-los, limpá-los, enriquecê-los, transformá-los, etc. Esta parte da “Data Engineering” é essencial para contar com resultados válidos.
E, como sempre, “garbage in, garbage out”. Se não contarmos com os dados corretos, as conclusões a que cheguemos sobre eles não o serão também, por muito que tenhamos usado os melhores modelos de machine learning.
INICIATIVAS
Benefícios da pipeline de dados corporativa
- Resultados mensuráveis a curto prazo. Para o efeito, temos de ter em conta as seguintes fases:
- Encontrar os dados corretos.
- Catalogar os dados a utilizar.
- Medir a sua qualidade.
- Cumprir com os requisitos de privacidade.
- Redução dos custos de manutenção e maior flexibilidade no momento de acrescentar novos dados ou de modificar os existentes.
- Simplicidade no momento de integrar dados de diferentes origens ou com diferentes latências sem “morrer na tentativa”.
Em ambientes corporativos, devemos dotar-nos de ferramentas que nos permitam industrializar estas tarefas e torná-las realidade com custos razoáveis. Não é possível uma estratégia a longo prazo sem pensar que devemos ser resilientes a alterações tecnológicas, a alterações nos modelos de dados, a alterações nas linguagens de programação ou onde e de que forma armazenamos os dados que, em seguida, iremos analisar.