Unternehmen integrieren Software, Prozesse und Datenkommentatoren, um Daten zu bereinigen, zu strukturieren und zu kennzeichnen. Diese Trainingsdaten bilden die Grundlage für Modelle des maschinellen Lernens. Diese Labels ermöglichen es Analysten, Variablen innerhalb von Datensätzen zu isolieren, und dieser Prozess wiederum ermöglicht die Auswahl optimaler Datenprädiktoren für ML-Modelle. Die Kennzeichnungen identifizieren die geeigneten Datenvektoren, die für das Modelltraining herangezogen werden, wo das Modell dann lernt, die besten Vorhersagen zu treffen.
Neben maschineller Unterstützung ist bei der Datenkennzeichnung auch die Beteiligung von Menschen –„Human-In-The-Loop (HITL)“ – erforderlich. HITL nutzt das Urteilsvermögen menschlicher „Datenkennzeichner“ für die Erstellung, Schulung, Feinabstimmung und das Testen von ML-Modellen. Sie helfen bei der Steuerung des Datenkennzeichnungsprozesses, indem sie die Modelldatensätze einspeisen, die für ein bestimmtes Projekt am besten geeignet sind.