Was sind Trainingsdaten?

Was sind Trainingsdaten?

Trainingsdaten sind Informationen, die dazu dienen, einem maschinellen Lernmodell beizubringen, wie es Vorhersagen treffen, Muster erkennen oder Inhalte generieren kann. Nachdem ein Algorithmus eine große Menge an Daten verarbeitet hat, gilt er als „trainiert“ und kann für viele Anwendungen eingesetzt werden. Aber ohne Trainingsdaten sind nicht einmal ausgefeilte Algorithmen nützlich, so wie ein intelligenter Schüler, der den Stoff für einen Test nicht gelernt hat.

Alles maschinelle Lernen beginnt mit einem Datensatz oder einer Sammlung von Daten. Ein Datensatz kann aus Tabellenkalkulationen, Videomaterial, Webseiten, PDF-Dateien oder anderen Datentypen bestehen. Im Allgemeinen gilt: Je mehr Trainingsdaten in ein Modell eingespeist werden, desto besser ist die Leistung des Modells. Aber es geht nicht nur um die Menge, sondern auch um die Qualität der Daten.

KI-Trainingsdaten bestehen aus Merkmalen, auch Attribute genannt, die Daten beschreiben. Ein Datensatz über eine Fabrikanlage könnte zum Beispiel die Temperatur, die Schwingungsgeschwindigkeit und den Zeitpunkt der letzten Reparatur enthalten. Diese Daten werden mit einem Algorithmus für maschinelles Lernen „gefüttert“. Dabei handelt es sich um eine Reihe von Anweisungen, die durch einen Code ausgedrückt werden, der eine Eingabe von Daten verarbeitet, um eine Ausgabe zu erzeugen. Den Algorithmus mit Daten zu füttern bedeutet, ihn mit Eingabedaten zu versorgen, die dann verarbeitet und analysiert werden, um die Ausgabe zu erzeugen. Ein trainiertes mathematisches Modell ist das Ergebnis dieses Prozesses. Diese Modelle bilden die Grundlage für fast alle jüngsten Innovationen im Bereich der künstlichen Intelligenz.

Einige Modelle werden für die Verarbeitung natürlicher Sprache (NLP) verwendet, mit der man Maschinen beibringen kann, die menschliche Sprache zu lesen und zu sprechen. Computer Vision ermöglicht es anderen Modellen, visuelle Informationen zu interpretieren. Aber alles beginnt mit Trainingsdaten.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Arten von Training

Verschiedene Arten von Lernalgorithmen verwenden unterschiedliche Ansätze für Trainingsdaten. Überwachtes Lernen verwendet gelabelte Daten, während unüberwachtes Lernen nicht gelabelte Daten verwendet. Halbüberwachtes Lernen kombiniert beides.

Trainingsmodelle für überwachtes Lernen

Überwachtes Lernen ist eine Technik des maschinellen Lernens, bei der markierte Datensätze verwendet werden, um KI-Modelle zu trainieren, die die zugrunde liegenden Muster in den Datenpunkten erkennen. Beschriftete Daten enthalten Merkmale und Beschriftungen, also entsprechende Ausgaben, die das Modell verwendet, um die Beziehung zwischen den beiden zu verstehen.

Viele Unternehmen stellen große Teams von menschlichen Datenkommentatoren ein, die manchmal auch von Maschinen unterstützt werden. Diese Annotatoren benötigen oft Fachwissen, um sicherzustellen, dass die Daten richtig beschriftet werden. Wenn Sie zum Beispiel juristische Daten kennzeichnen, benötigen die Kommentatoren möglicherweise einen juristischen Hintergrund. Der Einsatz menschlicher Annotatoren zur Gewährleistung einer korrekten Kennzeichnung wird manchmal als „Human in the Loop“ bezeichnet.

Ein klassisches Beispiel für überwachtes Lernen ist die Spam-Erkennung. Um einem Modell beizubringen, Spam zu erkennen, könnte man es einem Datensatz mit Tausenden von E-Mails aussetzen, die jeweils von Menschen als „Spam“ oder „nicht Spam“ gekennzeichnet wurden. Das Modell würde die Muster in den E-Mails überprüfen und dabei verschiedene Muster feststellen. So sind beispielsweise E-Mails mit dem Wort „kostenlos“ in der Betreffzeile eher als Spam einzustufen. Das Modell würde die statistische Wahrscheinlichkeit berechnen, dass das Wort „kostenlos“ in der Betreffzeile mit der Bezeichnung „Spam“ übereinstimmt. Wenn dann eine neue E-Mail ohne Kennzeichnung eintrifft, kann das Modell diese Berechnung zusammen mit vielen anderen anwenden, um festzustellen, ob die neue E-Mail Spam ist oder nicht.

Diese Art des maschinellen Lernens wird als „überwacht“ bezeichnet, weil es eine menschliche Überwachung erfordert, um all diese Daten zu kennzeichnen.

Trainingsmodelle für unüberwachtes Lernen

Modelle für unüberwachtes Lernen arbeiten selbstständig, um die inhärente Struktur von nicht gekennzeichneten Daten zu entdecken. Während überwachtes Lernen für die Zuordnung von Eingaben zu Ausgaben hilfreich ist, eignet sich unüberwachtes Lernen besser, um Muster, Strukturen und Beziehungen innerhalb der Daten selbst zu finden, ohne dass Vorgaben dazu bestehen, wonach gesucht werden soll.

Stellen Sie sich zum Beispiel vor, ein Werbetreibender möchte Kunden aufgrund ihres Kaufverhaltens in bestimmte Segmente einteilen, ohne die Kategorien im Voraus zu kennen. Ein unbeschrifteter Datensatz könnte Merkmale wie Kaufhäufigkeit, durchschnittlicher Bestellwert, Art der gekauften Produkte und Zeit seit dem letzten Kauf enthalten, aber er hat keine Spalten für „Kundentyp“. Das ist es, was das Modell herauszufinden versucht. Ein Clustering-Algorithmus könnte verwendet werden, um drei Clusters zu identifizieren:

  1. Häufige Käufer mit hohem Budget
     

  2. Gelegentliche Rabattkäufer
     

  3. Neue oder einmalige Kunden

Das Modell hat die Muster selbständig gelernt und diese Gruppierungen direkt aus dem Trainingsdatensatz erstellt.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Vorbereitung von Trainingsdaten

Daten sind überall um uns herum. Die Weltbevölkerung generiert jede Sekunde des Tages immense Datenmengen. Rohdaten sind jedoch für das Modelltraining in der Regel nicht sinnvoll. Die Qualitätssicherung ist entscheidend. Zunächst müssen Daten durch eine mehrstufige Datenpipeline vorverarbeitet werden. Dies kann für Data Scientists ein aufwändiger Prozess sein, der einen großen Teil des Umfangs eines maschinellen Lernprojekts ausmacht und ausgefeilte Data Science-Tools und -Infrastrukturen erfordert. Qualitativ minderwertige Daten können zu Rauschen und Verzerrungen führen, die verhindern, dass Modelle für maschinelles Lernen genaue Vorhersagen treffen können. Hochwertige Trainingsdaten hingegen ermöglichen es den Modellen, in unzähligen Anwendungsfällen – von der Automatisierung über die Übersetzung bis hin zur datengesteuerten Entscheidungsfindung – zuverlässigere Ergebnisse zu erzielen.

Datenerfassung

Zunächst müssen Daten gesammelt werden. Bei KI-Systemen wie autonomen Fahrzeugen oder intelligenten Häusern kann die Datenerfassung über Sensoren oder IoT-Geräte erfolgen. Regierungsbehörden, Forschungseinrichtungen und Unternehmen stellen häufig öffentliche Datensätze zur Verfügung. Werbetreibende nutzen Clickstreams, Formulareingaben und Verhaltensdaten von Nutzern.

Datenbereinigung und -transformation

Rohdaten enthalten häufig Missing Values, Duplikate und andere Fehler. Sobald Daten erfasst wurden, müssen sie bereinigt werden, um diese Fehler zu korrigieren. Dies kann so einfach sein wie das Standardisieren von Formaten, z. B. das Sicherstellen, dass Datumsangaben als MM/DD/YYYY angezeigt werden. Nach der Bereinigung müssen Daten oft in ein Format umgewandelt werden, das von Algorithmen einfacher verarbeitet werden kann. Die Funktionsentwicklung verarbeitet Rohdaten in ein maschinenlesbares Format vor. Sie optimiert die Leistung des ML-Modells durch Transformieren und Auswählen relevanter Funktionen.

Aufteilen des Datensatzes

Um zu beurteilen, wie gut sich ein Modell auf neue Daten verallgemeinern lässt, wird der Datensatz in der Regel in drei Gruppen unterteilt. Die erste ist ein Trainingsset, das dazu dient, die Parameter eines Modells anzupassen, um die beste Übereinstimmung zwischen den Vorhersagen und den Daten zu finden – ein Trainingsprozess, der als „Anpassung“ bezeichnet wird. Der zweite ist ein Validierungsdatensatz, der zur Feinabstimmung der Hyperparameter und zur Vermeidung von Overfitting verwendet wird. Schließlich wird ein Testdatensatz für die endgültige Bewertung der Modellleistung verwendet.

Datenkennzeichnung

Die Kennzeichnung von Daten wird manchmal auch als „menschliche Annotation“ bezeichnet. Dabei werden den Rohdaten aussagekräftige Etiketten hinzugefügt, damit ein Modell daraus lernen kann. Kennzeichnungen können jede Eigenschaft von Daten beschreiben. Zum Beispiel könnte ein Beitrag in den sozialen Medien, in dem es heißt „Dieses Produkt ist schrecklich“, in einem Prozess, der als Sentimentanalyse bekannt ist, als „negative Stimmung“ eingestuft werden. Ein menschlicher Annotator könnte ein Foto eines Hundes als „Hund“ bezeichnen. Eine Banktransaktion könnte als „betrügerisch“ eingestuft werden.

Weitere Schritte können Datenstrukturierung, -erweiterung und -versionierung sein. Einige Workflows enthalten eine Rückkopplungsschleife, in der die Analyse aufzeigt, wo mehr oder bessere Daten benötigt werden, oder wo unbrauchbare Daten herausgefiltert werden können.

Trends bei den Trainingsdaten

Da Daten ebenso wichtig sind wie die Modellarchitektur, wird der Optimierung des Datentrainings viel Aufmerksamkeit gewidmet. Synthetische Daten sind ein Bereich der Innovation. Anstatt riesige reale Datensätze auszuwerten, generieren Unternehmen jetzt synthetische Daten mithilfe von KI selbst.

Ein weiterer Trend sind kleinere, qualitativ hochwertigere Datensätze. Große Modelle benötigen nicht nur mehr Daten, sie brauchen bessere Daten. Data Scientists erstellen kleinere Datensätze oder aufgabenspezifische Datensätze, die für enge Anwendungsfälle nützlich sind. Zum Beispiel könnte ein LLM, der im Bereich der Rechtsdienstleistungen eingesetzt wird, ausschließlich auf juristische Korpora geschult werden, um bessere Ergebnisse zu erzielen.

Die in diesem Artikel beschriebene Vorverarbeitung von Daten kann mit Hilfe von KI automatisch durchgeführt werden. Neuere Algorithmen helfen dabei, große Datensätze zu bereinigen, indem sie minderwertige Texte, doppelte Inhalte und irrelevante Textbausteine entfernen und so Zeit und Rechenleistung sparen.

Dies sind nur einige Trends in einem sich schnell entwickelnden Bereich.

Weitere Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen