Im Bereich Data Science stellen Grundwahrheitsdaten den Goldstandard für genaue Daten dar. Sie ermöglichen es Data Scientists, die Leistung von Modellen zu bewerten, indem sie die Ergebnisse mit der „richtigen Antwort“ (Daten, die auf realen Beobachtungen basieren) vergleichen. Dadurch wird bestätigt, dass Modelle für maschinelles Lernen (ML) genaue Ergebnisse liefern, die der Realität entsprechen.
Grundwahrheitsdaten sind besonders für das überwachte Lernen wichtig, eine Unterkategorie des ML, die markierte Datensätze zum Trainieren von Algorithmen verwendet, um Daten zu klassifizieren (Klassifikatoren) oder Ergebnisse genau vorherzusagen.
Das Labeln von Daten oder deren Kennzeichnung ist eine wesentliche Voraussetzung für die Erhebung von Grundwahrheitsdaten. Ohne genaue Labels oder Annotationen können Daten nicht als Maßstab für die reale Wahrheit angesehen werden.
Grundwahrheitsdaten (auch Ground-Truth-Daten) sind das Fundament des überwachten maschinellen Lernens, das sich auf hochwertige, markierte Datensätze stützt. Überwachte ML-Modelle werden für den Aufbau und die Weiterentwicklung vieler heutiger KI-Anwendungen verwendet. So stecken beispielsweise überwachte ML-Modelle hinter der Bild- und Objekterkennung, der vorausschauenden Analytik, der Analyse der Kundenstimmung und der Spam-Erkennung.
Grundwahrheitsdaten liefern die genau gekennzeichneten, überprüften Informationen, die zum Trainieren überwachter ML-Modelle, zur Validierung ihrer Leistung und zum Testen ihrer Generalisierungsfähigkeit (oder zum Treffen genauer Vorhersagen auf der Grundlage neuer Daten) benötigt werden. Indem sie im Vergleich zu den Vorhersagen des Modells als "richtige Antwort" fungiert, trägt die Grundwahrheit dazu bei, dass KI-Systeme die richtigen Muster lernen und in realen Szenarien zuverlässig funktionieren.
Stellen Sie sich zum Beispiel ein Bild einer Katze vor. Der Trainingsdatensatz für dieses Bild könnte Beschriftungen für den Körper, die Ohren, die Augen und die Schnurrhaare der Katze enthalten, Klassifizierungen bis hinunter auf die Pixelebene. Anhand dieser Beschriftungen lernen Algorithmen für maschinelles Lernen, wie sie ähnliche Merkmale in neuen Bilddaten identifizieren können.
Die Genauigkeit dieser Labels des Trainingssets ist entscheidend. Wenn die Labels falsch oder uneinheitlich sind (z. B. Hundepfoten statt Katzenpfoten), kann das Modell nicht die richtigen Muster lernen. Dies kann zu falschen Vorhersagen führen.
Eine Katze mit Hundepfoten mag harmlos erscheinen. Doch in Bereichen wie dem Gesundheitswesen und der Bekämpfung des Klimawandels, in denen es auf Genauigkeit in Echtzeit ankommt, sind falsche Vorhersagen weitaus problematischer.
Die Grundwahrheit ist für den Lebenszyklus des überwachten maschinellen Lernens (ML) unerlässlich, einschließlich der Phasen der Modellschulung, der Validierung und der Tests.
Die Grundwahrheit dient als Grundlage für verschiedene überwachte Lernaufgaben, darunter Klassifizierung, Regression und Segmentierung. Ganz gleich, ob ein Modell die Kategorisierung von Daten, die Vorhersage numerischer Ergebnisse oder die Identifizierung von Objekten in Bildern erlernt, die Grundwahrheit liefert den Benchmark für genaue Vorhersagen. Für diese Aufgaben gibt es eine Vielzahl von realen Anwendungsfällen, bei denen die Genauigkeit der Grundwahrheitsdaten entscheidend für den Erfolg ist..
Bei Klassifizierungsaufgaben liefern Grundwahrheitsdaten die richtigen Labels für jede Eingabe und helfen dem Modell, die Daten in vordefinierte Klassen einzuordnen. Bei der binären Klassifizierung zum Beispiel unterscheidet ein Modell zwischen zwei Kategorien (wie wahr oder falsch). Die Klassifizierung mit mehreren Klassen ist etwas komplexer: Das Modell ordnet die Daten einer von mehreren Klassen zu, die es auswählen muss.
Nehmen wir das Gesundheitswesen. KI-Plattformen verwenden häufig eine Mehrklassen-Klassifizierung, um medizinische Bilder wie CT-Scans und MRTs zur Unterstützung der Diagnose zu analysieren.
Grob gesagt kann eine KI-Anwendung ein Röntgenbild eines Arms betrachten und ihn in eine von vier Klassen einordnen: zertrümmert, gebrochen, verstaucht oder gesund. Wenn die Basisdaten fehlerhaft sind, kann dies zu falschen Vorhersagen führen, die möglicherweise zu Fehldiagnosen oder verzögerten Behandlungen führen.
Regressionsaufgaben konzentrieren sich auf die Vorhersage von kontinuierlichen Werten. Die Grundwahrheitsdaten stellen die tatsächlichen numerischen Ergebnisse dar, die das Modell vorhersagen soll. Ein Modell der linearen Regression kann zum Beispiel Hauspreise auf der Grundlage von Faktoren wie Quadratmeterzahl, Anzahl der Zimmer und Lage vorhersagen.
Bei der Bekämpfung des Klimawandels nutzen KI-Modelle Satellitenbilder und Fernerkundungsdaten, um Umweltveränderungen wie Temperaturschwankungen oder Abholzung zu überwachen.
Zu den Grundwahrheitsdaten gehören in diesem Fall verifizierte Aufzeichnungen historischer Wetterdaten oder bekannte Temperaturmessungen. Diese Wahrheitsdaten tragen dazu bei, dass die Vorhersagen des KI-Modells genau sind und können wichtige politische und klimapolitische Entscheidungen beeinflussen.
Bei Segmentierungsaufgaben geht es darum, ein Bild oder einen Datensatz in verschiedene Regionen oder Objekte aufzuteilen. Die Basisdaten für die Segmentierung werden oft auf Pixelebene definiert, um Grenzen oder Regionen innerhalb eines Bildes zu identifizieren.
Bei der Entwicklung von autonomen Fahrzeugen werden beispielsweise Labels für die Grundwahrheit verwendet, um Modelle zu trainieren, die Fußgänger, Fahrzeuge und Straßenschilder in realen Umgebungen erkennen und unterscheiden und entsprechend handeln können. Wenn die Labels der Grundwahrheit falsch oder uneinheitlich sind, könnte das Modell bestimmte Objekte falsch identifizieren, was ein ernsthaftes Sicherheitsrisiko im Straßenverkehr darstellen würde.
Es gibt verschiedene Herausforderungen bei der Erstellung von qualitativ hochwertigen Grundwahrheitsdaten, darunter:
Es gibt verschiedene Strategien und Methoden, die Unternehmen zur Ermittlung und Optimierung hochwertiger Grundwahrheitsdaten anwenden können, darunter:
Verwalten Sie generative KI-Modelle ortsunabhängig und stellen Sie diese in der Cloud oder lokal mit IBM watsonx.governance bereit.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.