Die Klassifizierung ist traditionell eine Art des überwachten maschinellen Lernens, was bedeutet, dass sie gekennzeichnete Daten zum Trainieren von Modellen verwendet. Beim überwachten Lernen enthält jeder Datenpunkt in den Trainingsdaten Eingabevariablen (auch als unabhängige Variablen oder Funktionen bezeichnet) und eine Ausgabe oder eine Kennzeichnung.
Beim Klassifizierungstraining besteht die Aufgabe des Modells darin, die Beziehungen zwischen Funktionen und Klassenbezeichnungen zu verstehen und diese Kriterien dann auf zukünftige Datensätze anzuwenden. Klassifizierungsmodelle verwenden die Funktionen jedes Datenpunktes zusammen mit seiner Klassenbezeichnung, um zu entschlüsseln, welche Funktionen die einzelnen Klassen definieren. Mathematisch gesehen betrachtet das Modell jeden Datenpunkt als Tupel x. Ein Tupel ist eine geordnete numerische Folge, die als x = (x1,x2,x3…xn) dargestellt wird.
Jeder Wert im Tupel ist eine Funktion des Datenpunkts. Indem Trainingsdaten mit dieser Gleichung abgeglichen werden, lernt ein Modell, welche Funktionen mit den einzelnen Klassenkennzeichnungen verbunden sind.
Der Zweck des Trainings besteht darin, Fehler bei der Vorhersagemodellierung zu minimieren. Gradientenabstiegs-Algorithmen trainieren Modelle, indem sie die Lücke zwischen vorhergesagten und tatsächlichen Ergebnissen minimieren. Modelle können später mit mehr Training fein abgestimmt werden, um spezifischere Aufgaben auszuführen.
Unüberwachte Lernansätze für Klassifikationsprobleme sind ein Schwerpunkt der jüngsten Forschung. Unüberwachte Lernmethoden ermöglichen es Modellen, selbst Muster in nicht gekennzeichneten Daten zu erkennen. Das Fehlen von Kennzeichnungen ist das, was unüberwachtes Lernen und überwachtes Lernen unterscheidet.
Beim halbüberwachten Lernen werden hingegen gekennzeichnete und nicht gekennzeichnete Daten kombiniert, um Modelle für Klassifizierungs- und Regressionszwecke zu trainieren. In Situationen, in denen die Beschaffung großer Datensätze gekennzeichneter Daten nicht möglich ist, ist halbüberwachtes Lernen eine praktikable Alternative.