Die Verbesserung der Leistung bei Trainingsdaten ist das Ziel des Trainings, aber das ist nur ein Mittel zum Zweck. Das primäre Ziel ist die Generalisierung, die dadurch erreicht wird, dass das Modell so trainiert wird, dass es sich gut auf reale Aufgaben verallgemeinern lässt, die es nicht in seinen Trainingsdaten gesehen hat.
Es muss darauf geachtet werden, Fallstricke wie Überanpassung zu vermeiden, wenn Parameter Rauschen oder zufällige Schwankungen in den Trainingsdaten erfassen, was zu einer schlechten Generalisierung neuer Daten führt. Die Parameter müssen flexibel genug sein, um aussagekräftige Muster zu erlernen, jedoch nicht so flexibel, dass sie irrelevante Details speichern.
Zur Bewertung der Modellleistung werden verschiedene Data Science-Techniken verwendet. Die Kreuzvalidierung ist eine Technik zur Evaluierung von Modellen, bei der der Datensatz in mehrere Teile (Folds) aufgeteilt wird. Das Modell wird auf einigen Faltungen trainiert und auf der verbleibenden Falte getestet. Dieser Vorgang wird so lange wiederholt, bis jede Falte als Testsatz verwendet wurde. Dadurch wird das Risiko einer Überanpassung verringert, da das Modell an mehreren Partitionen der Daten getestet wird. Bei der Kreuzvalidierung werden die Parameter nicht direkt geändert, sondern es wird getestet, wie gut die gelernten Parameter auf ungesehene Daten verallgemeinert werden können. Wenn die Leistung über alle Ebenen hinweg konsistent ist, sind die Parameter wahrscheinlich gut optimiert. Ist dies nicht der Fall, könnten die Modellparameter zu stark an die Untermenge der Trainingsdaten angepasst sein, die es bereits gesehen hat. Weiteres Training mit vielfältigeren Daten kann die Generalisierung verbessern.
Eine weitere Technik ist das Bootstrapping, eine statistische Methode, bei der neue Datensätze durch zufällige Stichproben mit Ersetzung aus dem ursprünglichen Datensatz erstellt werden. Bootstrapping erzeugt viele Parametersätze, da jede Bootstrap-Stichprobe leicht unterschiedlich ist. Wenn Sie sich die Variation zwischen diesen Bootstrap-Modellen ansehen, können Sie messen, wie zuverlässig die Parameter sind, wenn sie auf leicht unterschiedlichen Daten trainiert wurden.
Praktiker verlassen sich auch auf Metriken, die die Leistung des Modells quantifizieren, wie z. B. Genauigkeit, Präzision, Wiedererkennung oder mittlerer quadratischer Fehler. Diese liefern objektives Feedback darüber, ob die aktuellen Parameter das Modell in die richtige Richtung lenken.