L'ingestion de données désigne le processus qui consiste à collecter des données brutes issues de diverses sources, puis à les préparer pour l'analyse. Ce pipeline, en plusieurs étapes, garantit que les données sont accessibles, précises, cohérentes et prêtes à être utilisées pour la business intelligence. Il s'agit d'un processus qui est essentiel pour prendre en charge les analyses basées sur SQL ainsi que d'autres workloads de traitement.
Découverte des données : c'est la phase exploratoire durant laquelle les données disponibles au sein de l'organisation sont identifiées. Une ingestion de données réussie implique de bien comprendre le paysage des données, leur structure, leur qualité et leurs utilisations potentielles.
Acquisition de données : une fois les sources de données identifiées, l’acquisition de données consiste à collecter ces données. Cela inclut la récupération de données provenant de sources variées, telles que des bases de données structurées, des interfaces de programmation d’applications (API) ou encore des formats non structurés comme des feuilles de calcul ou des documents papier. La complexité réside dans la gestion de la diversité des formats de données, des volumes parfois importants et dans la protection de l'intégrité des données tout au long du processus d'acquisition.
Validation des données : après avoir acquis les données, la validation s'assure de leur exactitude et de leur cohérence. Les données sont vérifiées en vue de détecter toute erreur, incohérence ou valeur manquante. Divers contrôles sont effectués, comme la vérification du type de données, des plages de valeurs et de l’unicité, pour que les données soient fiables et prêtes à être traitées.
Transformation des données : lors de cette étape, les données validées sont converties dans un format adapté à l'analyse. Cela peut inclure la normalisation (suppression des redondances), l'agrégation (synthèse des données) et la standardisation (formatage cohérent). L’objectif est de rendre les données plus faciles à comprendre et à analyser.
Chargement des données : la dernière étape consiste à placer les données transformées dans leur emplacement final, généralement un entrepôt de données ou un data lake, où elles seront facilement accessibles pour l'analyse et la création de rapports. Le chargement peut être réalisé par lots ou en temps réel, selon les besoins, et ce processus marque l'achèvement du pipeline d'ingestion. Après toutes ces étapes, les données sont prêtes à être exploitées afin de servir de base à la prise de décisions éclairées et à la génération de business intelligence.