Um pipeline de dados é um método no qual dados brutos são ingeridos de várias fontes de dados, transformados e, em seguida, transferidos para um armazenamento de dados, como um data lake ou data warehouse, para análise.
Antes de os dados entrarem em um repositório de dados, eles geralmente passam por algum processamento de dados. Isso inclui transformações de dados, como filtragem, mascaramento e agregações, que garantem a integração e padronização de dados apropriadas. Isso é particularmente importante quando o destino do conjunto de dados é um banco de dados relacional. Esse tipo de repositório de dados tem um esquema definido que requer alinhamento, ou seja, correspondência de colunas e tipos de dados, para atualizar os dados existentes com novos dados.
Como o nome sugere, os pipelines de dados funcionam como o "encaminhamento" para os projetos de ciência de dados ou dashboards de business intelligence.
Os dados podem ser obtidos em uma grande variedade de lugares – APIs, bancos de dados SQL e NoSQL, arquivos, etc. – mas, infelizmente, esses dados geralmente não estão prontos para uso imediato. Durante o fornecimento, a linhagem de dados é rastreada para documentar a relação entre os dados corporativos em várias aplicações comerciais e de TI, por exemplo, onde os dados estão atualmente e como são armazenados em um ambiente, como no local, em um data lake ou em um data warehouse.
As tarefas de preparação de dados geralmente recaem sobre os ombros dos cientistas ou engenheiros de dados, que estruturam os dados para atender às necessidades dos casos de uso comercial e lidar com grandes quantidades de dados.
O tipo de processamento de dados que um pipeline de dados exige geralmente é determinado por meio de uma combinação de análise exploratória de dados e requisitos de negócios definidos. Depois que os dados tiverem sido devidamente filtrados, mesclados e resumidos, eles poderão ser armazenados e disponibilizados para uso.
Pipelines de dados bem organizados fornecem a base para uma série de projetos de dados; isso pode incluir análises exploratórias de dados, visualizações de dados e tarefas de aprendizado de máquina.