L'apprendimento supervisionato utilizza un set di dati di addestramento etichettati per comprendere le relazioni tra dati di input e output. I data scientist creano manualmente set di dati di addestramento contenenti dati di input insieme alle etichette corrispondenti. L'apprendimento supervisionato addestra il modello ad applicare gli output corretti ai nuovi dati di input in casi d'uso reali.
Durante l'addestramento, l'algoritmo del modello elabora grandi set di dati per esplorare le potenziali correlazioni tra input e output. Le prestazioni del modello vengono quindi valutate con i dati di test per scoprire se l'addestramento è stato eseguito correttamente. La convalida incrociata è il processo di test di un modello utilizzando una porzione diversa del set di dati.
Gli algoritmi della famiglia di discesa del gradiente, inclusa la discesa stocastica del gradiente (SGD), sono gli algoritmi di ottimizzazione, o algoritmi di apprendimento, più comunemente usati durante l'addestramento delle reti neurali e di altri modelli di machine learning. L'algoritmo di ottimizzazione del modello valuta l'accuratezza attraverso la funzione di perdita, ovvero un'equazione che misura la discrepanza tra le previsioni del modello e i valori effettivi.
La funzione di perdita misura la distanza tra le previsioni e i valori effettivi. Il suo gradiente indica la direzione in cui i parametri del modello devono essere regolati per ridurre l'errore. Durante l'addestramento, l'algoritmo di ottimizzazione aggiorna i parametri del modello (le sue regole operative o "impostazioni") per ottimizzare il modello.
Poiché i grandi set di dati contengono spesso molte caratteristiche, i data scientist possono semplificare questa complessità attraverso la riduzione della dimensionalità. Questa tecnica di data science riduce il numero di caratteristiche a quelle più cruciali per la previsione delle etichette dei dati, il che preserva la precisione e aumenta l'efficienza.