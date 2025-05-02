Alles maschinelle Lernen beginnt mit einem Datensatz oder einer Sammlung von Daten. Ein Datensatz kann aus Tabellenkalkulationen, Videomaterial, Webseiten, PDF-Dateien oder anderen Datentypen bestehen. Im Allgemeinen gilt: Je mehr Trainingsdaten in ein Modell eingespeist werden, desto besser ist die Leistung des Modells. Aber es geht nicht nur um die Menge, sondern auch um die Qualität der Daten.

KI-Trainingsdaten bestehen aus Merkmalen, auch Attribute genannt, die Daten beschreiben. Ein Datensatz über eine Fabrikanlage könnte zum Beispiel die Temperatur, die Schwingungsgeschwindigkeit und den Zeitpunkt der letzten Reparatur enthalten. Diese Daten werden mit einem Algorithmus für maschinelles Lernen „gefüttert“. Dabei handelt es sich um eine Reihe von Anweisungen, die durch einen Code ausgedrückt werden, der eine Eingabe von Daten verarbeitet, um eine Ausgabe zu erzeugen. Den Algorithmus mit Daten zu füttern bedeutet, ihn mit Eingabedaten zu versorgen, die dann verarbeitet und analysiert werden, um die Ausgabe zu erzeugen. Ein trainiertes mathematisches Modell ist das Ergebnis dieses Prozesses. Diese Modelle bilden die Grundlage für fast alle jüngsten Innovationen im Bereich der künstlichen Intelligenz.

Einige Modelle werden für die Verarbeitung natürlicher Sprache (NLP) verwendet, mit der man Maschinen beibringen kann, die menschliche Sprache zu lesen und zu sprechen. Computer Vision ermöglicht es anderen Modellen, visuelle Informationen zu interpretieren. Aber alles beginnt mit Trainingsdaten.