L'apprentissage supervisé est une technique de machine learning qui utilise des jeux de données étiquetés pour entraîner des modèles IA afin d'identifier les modèles sous-jacents à travers les points de données. Les données étiquetées comprennent des caractéristiques et des étiquettes, ainsi que les résultats correspondants que le modèle utilise pour comprendre la relation entre les deux.
De nombreuses entreprises emploient de grandes équipes d'annotateurs de données humains, qui sont parfois assistés par des machines. Ces annotateurs ont souvent besoin de compétences techniques pour garantir que les données sont correctement étiquetées. Par exemple, lorsque vous étiquetez des données juridiques, les annotateurs peuvent avoir besoin d’une expérience en droit. Le processus consistant à utiliser des annotateurs humains pour garantir un étiquetage approprié est parfois appelé « humain dans la boucle ».
La détection des spams est un exemple classique d’apprentissage supervisé. Pour apprendre à un modèle à identifier le spam, on peut l’exposer à un jeu de données composé de milliers d’e-mails, chacun étant étiqueté par des humains comme « spam » ou « non-spam ». Le modèle examinera les modèles dans les e-mails, remarquant différents modèles. Par exemple, les e-mail dont l'objet contient le mot « gratuit » sont plus susceptibles d'être des spams. Le modèle calcule la probabilité statistique que le mot « gratuit » dans la ligne d’objet corresponde à l’étiquette « spam ». Ensuite, lorsqu’on lui fournit un nouvel e-mail sans étiquette, le modèle peut appliquer ce calcul, ainsi que beaucoup d’autres, pour déterminer si le nouvel e-mail est un spam ou non.
Ce type de machine learning est qualifié de « supervisé » car il nécessite une supervision humaine pour étiqueter toutes ces données.