Les entreprises intègrent des logiciels, des processus et des annotateurs de données pour nettoyer, structurer et étiqueter les données. Ces données de formation deviennent la base des modèles de machine learning. Ces étiquettes permettent aux analystes d’isoler les variables au sein des jeux de données, et ce processus, à son tour, permet de sélectionner des prédicteurs de données optimaux pour les modèles de ML. Les étiquettes identifient les vecteurs de données appropriés à extraire pour l'entraînement du modèle, qui apprend ensuite à faire les meilleures prédictions.
Outre l’assistance des machines, les tâches d’étiquetage des données nécessitent la participation d’un « humain dans la boucle » (« human-in-the-loop » ou HITL). L’HITL s’appuie sur le jugement des « étiqueteurs de données » humains pour créer, entraîner, affiner et tester des modèles de machine learning. Il permet de guider le processus d’étiquetage des données en fournissant aux modèles les jeux de données les plus pertinents pour un projet donné.