Una pipeline di dati è un metodo in cui i dati non elaborati vengono acquisiti da varie origini dati, trasformati e quindi trasferiti in uno storage di dati, ad esempio un data lake o un data warehouse, per l'analisi.
Prima che i dati entrino in un repository di dati, generalmente vengono sottoposti a un trattamento dei dati. Questo include le trasformazioni dei dati, come il filtraggio, il mascheramento e le aggregazioni, che garantiscono un'adeguata integrazione e standardizzazione dei dati. Ciò è particolarmente importante quando la destinazione del set di dati è un database relazionale. Questo tipo di repository di dati ha uno schema definito che richiede l'allineamento, ovvero la corrispondenza di colonne e tipi di dati, per aggiornare i dati esistenti con nuovi dati.
Come suggerisce il nome, le pipeline di dati fungono da "condutture" per progetti di data science o dashboard di business intelligence. I dati possono provenire da un'ampia varietà di luoghi: API, database SQL e NoSQL, file, ecc., ma purtroppo questi dati, di solito, non sono pronti per l'uso immediato. Durante il sourcing, viene tracciato il data lineage per documentare la relazione tra i dati aziendali in varie applicazioni aziendali e IT, ad esempio, dove si trovano attualmente i dati e come vengono memorizzati in un ambiente, ad esempio on-premise, in un data lake o in un data warehouse.
Le attività di data preparation ricadono solitamente sulle spalle dei data scientist o dei data engineer, che strutturano i dati per soddisfare le esigenze dei casi d'uso aziendali e gestiscono enormi quantità di dati. Il tipo di trattamento dei dati richiesto da una pipeline di dati viene in genere determinato attraverso una combinazione di analisi esplorativa dei dati e requisiti aziendali definiti. Una volta che i dati sono stati filtrati, riuniti e riepilogati in modo appropriato, possono essere archiviati e resi disponibili per l'uso. Le pipeline di dati ben organizzate forniscono la base per una serie di progetti di dati, tra cui analisi esplorative dei dati, visualizzazioni dei dati e attività di machine learning.