Raccolta e pre-elaborazione dei dati: la raccolta di un numero elevato e diversificato di immagini per ogni gruppo è il primo passo. I dati devono essere etichettati, quindi normalizzati. La normalizzazione e altre tecniche di aumento dei dati includono il ridimensionamento delle immagini a dimensioni fisse, la normalizzazione del valore dei pixel e altro ancora.
Selezione del modello: il prossimo passo nel workflow è la selezione del modello. L'architettura selezionata è molto probabilmente una CNN. Come discusso in precedenza, la CNN inizia a rilevare caratteristiche più complesse man mano che i dati si spostano attraverso i suoi livelli.
Addestramento del modello e convalida: dopo la selezione, le immagini etichettate vengono divise in set di dati di addestramento, set di dati di convalida e set di dati di test. La rete utilizza questi set per ottimizzare e regolare ripetutamente i pesi, riducendo al minimo gli errori tra le etichette previste e le etichette effettive. La prevenzione dell'overfitting è assistita dai dati di convalida e questo processo di addestramento può continuare fino a quando i risultati non soddisfano uno standard predeterminato.
Durante questo passaggio, potrebbe essere applicato un set di dati di immagini con annotazioni umane come ImageNet. ImageNet è un'enorme raccolta di oltre 14 milioni di immagini. Queste immagini sono tutte organizzate ed etichettate per insegnare ai computer a riconoscere gli oggetti nelle immagini. Ogni immagine nel database è contrassegnata con categorie specifiche chiamate "synset". Questi synset includono cose come "cane", "macchina" o "mela" e utilizzano un framework chiamato WordNet.
Estrazione delle caratteristiche: in questa fase, contrariamente alla classificazione delle immagini basata su regole, i modelli di deep learning apprendono le proprie caratteristiche dai dati delle immagini grezze estratti. Questo approccio consente alla rete di stabilire rappresentazioni interne per distinguere tra gruppi o classi.
Valutazione e distribuzione: successivamente, il modello viene valutato in base ai dati di test e messo a punto se necessario. Il modello viene quindi distribuito per fare previsioni su nuove immagini in un ambiente reale se le metriche vengono soddisfatte.