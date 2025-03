L'addestramento dei modelli AI per le attività di previsione, come la classificazione o la regressione, richiede in genere dati etichettati, ovvero dei punti dati annotati che forniscono il contesto necessario e dimostrano le previsioni corrette (output) per ogni input campione. Durante la fase di addestramento, una funzione di perdita misura la differenza (perdita) tra le previsioni del modello per un dato input e il “ground truth” fornito dall'etichetta di quell'input. I modelli apprendono da questi esempi etichettati utilizzando tecniche come la discesa del gradiente, che adeguano i pesi del modello per ridurre al minimo le perdite. Poiché questo processo di apprendimento automatico coinvolge attivamente gli esseri umani, esso viene chiamato apprendimento “supervisionato”.

L'etichettatura corretta dei dati diventa sempre più laboriosa per le attività di AI complesse. Ad esempio, per addestrare un modello di classificazione delle immagini a distinguere tra automobili e motociclette, centinaia (se non migliaia) di immagini di addestramento devono essere etichettate come "automobile" o "motocicletta"; per un'attività di computer vision più dettagliata, come il rilevamento di oggetti, gli operatori umani non devono solo annotare gli oggetti contenuti in ciascuna immagine, ma anche dove si trova ciascun oggetto; per attività ancora più dettagliate, come la segmentazione delle immagini, le etichette dei dati devono annotare i confini specifici pixel per pixel di segmenti diversi per ciascuna immagine.



L'etichettatura dei dati può risultare pertanto particolarmente tediosa per alcuni casi d'uso. Nei casi d’uso più specializzati dell'apprendimento automatico, come la scoperta di farmaci, il sequenziamento genetico o la classificazione delle proteine, l’annotazione dei dati non solo richiede molto tempo, ma anche competenze molto specifiche.

L’apprendimento semi-supervisionato offre un modo per trarre il massimo beneficio da una scarsa quantità di dati etichettati, sfruttando al contempo una notevole quantità di dati non etichettati.