Una pipeline di machine learning consiste in una serie di passaggi per il trattamento e la modellazione di dati interconnessi, progettati per automatizzare, standardizzare e semplificare il processo di creazione, addestramento, valutazione e implementazione dei modelli di machine learning.
Una pipeline di machine learning è un componente fondamentale nello sviluppo e nella produzione di sistemi di machine learning, che aiuta i data scientist e i data engineer a gestire la complessità del processo di machine learning end-to-end e a sviluppare soluzioni accurate e scalabili per una vasta gamma di applicazioni.
Le pipeline di Machine Learning offrono molti benefici.
La tecnologia del machine learning sta avanzando rapidamente, tuttavia possiamo identificare alcuni passaggi generali nel processo di creazione e implementazione di modelli di machine learning e deep learning.
I cicli di vita del machine learning possono variare a livello di complessità e possono comportare passaggi aggiuntivi a seconda del caso d'uso, come l'ottimizzazione degli iperparametri, la convalida incrociata e la selezione delle caratteristiche. L'obiettivo di una pipeline di machine learning è quello di automatizzare e standardizzare questi processi, semplificando lo sviluppo e la manutenzione di modelli di machine learning per varie applicazioni.
La storia delle pipeline di machine learning è strettamente legata all'evoluzione del machine learning e della data science come campi. Sebbene il concetto di workflow di trattamento dei dati sia antecedente al machine learning, la formalizzazione e l’uso diffuso delle pipeline di machine learning come le conosciamo oggi si sono sviluppati più recentemente.
I primi workflow di trattamento dei dati (antecedenti agli anni 2000): prima dell'adozione diffusa del machine learning, i workflow di trattamento dei dati venivano utilizzati per attività come la pulizia, la trasformazione e l'analisi dei dati. Questi workflow erano in genere manuali e prevedevano lo scripting o l'utilizzo di strumenti come il software per fogli di calcolo. Tuttavia, in questo periodo, il machine learning non rappresentava una parte centrale di questi processi.
Affermazione del machine learning (anni 2000): il machine learning ha acquisito importanza all'inizio degli anni 2000 con i progressi negli algoritmi, nella potenza di calcolo e nella disponibilità di grandi set di dati. Ricercatori e data scientist hanno iniziato ad applicare il machine learning a vari domini, generando un crescente bisogno di workflow sistematici e automatizzati.
Ascesa della data science (dalla fine degli anni 2000 ai primi anni 2010): il termine "data science" è diventato popolare come campo multidisciplinare che combinava statistica, analisi dei dati e machine learning. In questo periodo abbiamo assistito alla formalizzazione dei workflow di data science, tra cui il trattamento preventivo dei dati e la selezione e valutazione dei modelli, oggi parti integranti delle pipeline di machine learning.
Sviluppo di librerie e strumenti di machine learning (anni 2010): gli anni '10 del 2000 hanno portato allo sviluppo di librerie e strumenti di machine learning in grado di facilitare la creazione delle pipeline. Librerie come scikit-learn (per Python) e caret (per R) hanno fornito API standardizzate per la creazione e la valutazione di modelli di machine learning, semplificando la creazione delle pipeline.
Ascesa dell'AutoML (anni 2010): si sono affermati strumenti e piattaforme di machine learning automatizzato (AutoML), che miravano ad automatizzare il processo di creazione delle pipeline di machine learning. In genere, questi strumenti automatizzano attività quali l'ottimizzazione degli iperparametri, la selezione delle caratteristiche e la selezione dei modelli, rendendo il machine learning più accessibile ai non esperti con visualizzazioni e tutorial. Apache Airflow è un esempio di piattaforma di gestione del workflow open source che può essere utilizzata per costruire pipeline di dati.
Integrazione con DevOps (anni 2010): le pipeline di machine learning hanno iniziato ad essere integrate con le pratiche DevOps per abilitare l'integrazione continua e la distribuzione continua (CI/CD) dei modelli di machine learning. Questa integrazione ha evidenziato la necessità della riproducibilità, del controllo della versione e del monitoraggio nelle pipeline di ML. Questa integrazione viene definita come un insieme di operazioni di machine learning o MLOps, che aiutano i team di data science ad affrontare efficacemente la complessità di gestire l'orchestrazione ML. In una distribuzione in tempo reale, la pipeline risponde a una richiesta entro qualche millisecondo.
Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.
Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.
Vuoi ottenere un ritorno migliore sui tuoi investimenti nell'AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.
Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Approfondisci i 3 elementi critici di una solida strategia AI: creare un vantaggio competitivo, scalare l'AI attraverso l'azienda e promuovere un'AI affidabile.
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.