I moderni sistemi di dati offrono un'ampia varietà di funzionalità, consentendo agli utenti di memorizzare e interrogare i propri dati in molti modi diversi. Naturalmente più funzionalità vengono aggiunte, più complicato diventa garantire che il sistema funzioni correttamente. Questa complicanza include:

Più fonti di dati esterne



In passato, l'infrastruttura dei dati veniva costruita per gestire piccole quantità di dati, solitamente dati operativi provenienti da poche fonti di dati interne, e i dati non erano destinati a cambiare molto. Ora, molti prodotti di dati si basano su dati provenienti da fonti interne ed esterne e il volume e la velocità con cui vengono raccolti possono causare deviazioni impreviste, modifiche allo schema, trasformazioni e ritardi.



Trasformazioni più complicate



Una maggiore quantità di dati acquisiti da fonti di dati esterne significa che è necessario trasformare, strutturare e aggregare tutti i dati in tutti gli altri formati per renderli tutti utilizzabili. Ancora peggio, se questi formati cambiano del tutto, si verifica un effetto domino di errori a valle poiché la logica strettamente codificata non riesce ad adattarsi al nuovo schema.



Troppa attenzione all'ingegneria degli analytics



Le pipeline di inserimento complesse hanno creato un mercato di strumenti per semplificare questo processo end-to-end, automatizzando soprattutto i processi di inserimento ed ETL (Extract, Transform, Load)/ELT (Extract, Load, Transform). Combinandoli insieme, si ottiene una piattaforma di dati che il settore degli analytics ha soprannominato "modern data stack" o MDS. L'obiettivo dell'MDS è quello di ridurre il tempo necessario per rendere i dati utilizzabili dagli utenti finali (tipicamente gli analisti), in modo che possano iniziare a sfruttarli più rapidamente. Tuttavia, maggiore è l'automazione, minore è il controllo sulle modalità di consegna dei dati. Queste organizzazioni hanno bisogno di creare pipeline di dati personalizzate per poter garantire meglio che i dati vengano forniti come previsto.