La storia delle pipeline di machine learning è strettamente legata all'evoluzione del machine learning e della data science come campi. Sebbene il concetto di workflow di trattamento dei dati sia antecedente al machine learning, la formalizzazione e l’uso diffuso delle pipeline di machine learning come le conosciamo oggi si sono sviluppati più recentemente.
I primi workflow per il trattamento dei dati (antecedenti agli anni 2000): prima dell'adozione diffusa del machine learning, i workflow di trattamento dei dati venivano utilizzati per attività come la pulizia, la trasformazione e l'analisi dei dati. Questi workflow erano in genere manuali e prevedevano lo scripting o l'utilizzo di strumenti come il software per fogli di calcolo. Tuttavia, in questo periodo, il machine learning non rappresentava una parte centrale di questi processi.
Affermazione del machine learning (anni 2000): il machine learning ha acquisito importanza all'inizio degli anni 2000 con i progressi negli algoritmi, nella potenza di calcolo e nella disponibilità di grandi set di dati. Ricercatori e data scientist hanno iniziato ad applicare il machine learning a vari domini, generando una crescente necessità di workflow sistematici e automatizzati.
Ascesa della data science (dalla fine degli anni 2000 all'inizio del 2010): il termine "data science" è diventato popolare come campo multidisciplinare che combinava statistica, analisi dei dati e machine learning. In questo periodo abbiamo assistito alla formalizzazione dei workflow di data science, tra cui il trattamento preventivo dei dati, la selezione e la valutazione dei modelli, ad oggi parti integranti delle pipeline di machine learning.
Sviluppo di librerie e strumenti di machine learning (anni 2010): gli anni '10 del 2000 hanno portato allo sviluppo di librerie e strumenti di machine learning in grado di facilitare la creazione delle pipeline. Librerie come scikit-learn (per Python) e caret (per R) hanno fornito API standardizzate per la creazione e la valutazione di modelli di machine learning, semplificando la creazione delle pipeline.
Ascesa delle AutoML (anni 2010): sono emersi strumenti e piattaforme automatizzate di machine learning (AutoML) che miravano ad automatizzare il processo di creazione delle pipeline di machine learning. In genere, questi strumenti automatizzano attività quali l'ottimizzazione degli iperparametri, la selezione delle funzioni e la selezione dei modelli, rendendo il machine learning più accessibile ai non esperti con visualizzazioni e tutorial. Apache Airflow è un esempio di una piattaforma di gestione del workflow open source che può essere utilizzata per costruire pipeline di dati.
Integrazione con DevOps (anni 2010): le pipeline di machine learning hanno iniziato ad essere integrate con le pratiche DevOps per abilitare l'integrazione continua e l'implementazione (CI/CD) dei modelli di machine learning. Questa integrazione ha evidenziato l'esigenza della riproducibilità, del controllo della versione e del monitoraggio nelle pipeline di apprendimento automatico (ML). Questa integrazione viene definita come un insieme di operazioni di machine learning o MLOps, che aiutano i team di data science a gestire efficacemente la complessità di gestione dell'orchestrazione dell'apprendimento automatico (ML). In una distribuzione in tempo reale, la pipeline risponde a una richiesta entro qualche millisecondo.