Bei überwachten Lerntechniken wird ein gekennzeichneter Trainingsdatensatz verwendet, um die Beziehungen zwischen Eingabe- und Ausgabedaten zu verstehen. Data Scientists erstellen manuell Grundwahrheit-Trainingsdatensätze, die Eingabedaten und die entsprechenden Kennzeichnungen enthalten. Durch überwachtes Lernen wird das Modell trainiert, in realen Anwendungsfällen die richtigen Ausgaben auf neue Daten anzuwenden.
Während des Trainings verarbeitet der Algorithmus des Modells große Datensätze, um mögliche Korrelationen zwischen Eingaben und Ausgaben zu untersuchen. Anschließend wird die Leistung des Modells anhand von Testdaten bewertet, um herauszufinden, ob es erfolgreich trainiert wurde. Kreuzvalidierung ist der Prozess des Testens eines Modells mit einem anderen Teil des Datensatzes.
Die Algorithmen-Gruppe des Gradientenabstiegs, einschließlich des stochastischen Gradientenabstiegs (SGD), sind die am häufigsten verwendeten Optimierungsalgorithmen oder Lernalgorithmen beim Training von Neural Networks und anderen maschinellen Lern-Modellen. Der Optimierungsalgorithmus des Modells bewertet die Genauigkeit anhand der Verlustfunktion: einer Gleichung, die die Diskrepanz zwischen den Vorhersagen des Modells und den tatsächlichen Werten misst.
Die Verlustfunktion misst, wie weit die Vorhersagen von den tatsächlichen Werten entfernt sind. Sein Gradient gibt die Richtung an, in der die Parameter des Modells angepasst werden sollten, um Fehler zu reduzieren. Während des Trainings aktualisiert der Optimierungsalgorithmus die Parameter des Modells – seine Betriebsregeln oder „Einstellungen“ –, um das Modell zu optimieren.
Da große Datensätze in der Regel viele Funktionen enthalten, können Data Scientist diese Komplexität durch Dimensionalitätsreduzierung vereinfachen. Diese Data-Science-Technik reduziert die Anzahl der Funktionen auf die wichtigsten für die Vorhersage von Datenkennzeichnungen, wodurch die Genauigkeit erhalten und gleichzeitig die Effizienz erhöht wird.