Prima di approfondire la discesa del gradiente, può essere utile rivedere alcuni concetti della regressione lineare. Ricordiamo che la formula y = mx + b riportata di seguito si applica alla pendenza di una linea, in cuimrappresenta la pendenza ebè l'intercetta sull'asse y.
Ricordiamo inoltre che un grafico a dispersione si usava per le statistiche e che, per trovare la linea di adattamento migliore, era necessario calcolare l'errore tra l'output effettivo e l'output previsto (ŷ) usando la formula dell'errore quadratico medio. L'algoritmo di discesa del gradiente si comporta allo stesso modo, ma si basa su una funzione convessa.
Il punto di partenza è solo un punto arbitrario per valutare la prestazione. Da quel determinato punto di partenza, troveremo la derivata (o pendenza), e da lì possiamo usare una linea tangente per osservare la ripidità della pendenza. La pendenza fornirà informazioni sugli aggiornamenti dei parametri del modello, ovvero i pesi e la distorsione. La pendenza in corrispondenza del punto di partenza sarà più ripida, ma procedendo con la generazione di nuovi parametri, la ripidità dovrebbe gradualmente diminuire fino a raggiungere il punto più basso della curva, noto come punto di convergenza.
Analogamente alla ricerca della linea di miglior adattamento nella regressione lineare, l'obiettivo della discesa del gradiente è minimizzare la funzione di costo o l'errore tra l'y previsto e l'y effettivo. Per fare ciò, sono necessari due punti dati: una direzione e un tasso di apprendimento. Questi fattori determinano i calcoli delle derivate parziali delle iterazioni future, consentendo di arrivare gradualmente al minimo locale o globale (cioè al punto di convergenza).
- Il tasso di apprendimento (noto anche come dimensione del passo o alfa) è la dimensione dei passaggi compiuti per raggiungere il minimo. Si tratta in genere di un valore piccolo e viene valutato e aggiornato in base al comportamento della funzione di costo. Tassi di apprendimento elevati comportano passi più ampi, ma vi è il rischio di superare il minimo. Al contrario, un tasso di apprendimento ridotto presenta passi di piccole dimensioni. Sebbene abbia il vantaggio di una maggiore precisione, il numero di iterazioni compromette l'efficienza complessiva in quanto richiede più tempo e calcoli per raggiungere il minimo.
- La funzione di costo (o perdita) misura la differenza, o errore, tra l'y effettivo e l'y previsto nella sua posizione corrente. Ciò migliora l'efficacia del modello di machine learning fornendo un feedback al modello in modo che possa regolare i parametri per ridurre al minimo l'errore e trovare il minimo locale o globale. Si ripete continuamente, muovendosi lungo la direzione della discesa più ripida (o del gradiente negativo) fino a quando la funzione di costo non è pari o prossima allo zero. A questo punto, il modello smetterà di apprendere. Inoltre, mentre i termini, funzione di costo e funzione di perdita, sono considerati sinonimi, tra loro esiste una leggera differenza. Vale la pena notare che una funzione di perdita si riferisce all'errore di un esempio di addestramento, mentre una funzione di costo calcola l'errore medio in un intero set di addestramento.