Grundwahrheitsdaten (auch Ground-Truth-Daten) sind das Fundament des überwachten maschinellen Lernens, das sich auf hochwertige, markierte Datensätze stützt. Überwachte ML-Modelle werden für den Aufbau und die Weiterentwicklung vieler heutiger KI-Anwendungen verwendet. So stecken beispielsweise überwachte ML-Modelle hinter der Bild- und Objekterkennung, der vorausschauenden Analytik, der Analyse der Kundenstimmung und der Spam-Erkennung.

Grundwahrheitsdaten liefern die genau gekennzeichneten, überprüften Informationen, die zum Trainieren überwachter ML-Modelle, zur Validierung ihrer Leistung und zum Testen ihrer Generalisierungsfähigkeit (oder zum Treffen genauer Vorhersagen auf der Grundlage neuer Daten) benötigt werden. Indem sie im Vergleich zu den Vorhersagen des Modells als "richtige Antwort" fungiert, trägt die Grundwahrheit dazu bei, dass KI-Systeme die richtigen Muster lernen und in realen Szenarien zuverlässig funktionieren.

Stellen Sie sich zum Beispiel ein Bild einer Katze vor. Der Trainingsdatensatz für dieses Bild könnte Beschriftungen für den Körper, die Ohren, die Augen und die Schnurrhaare der Katze enthalten, Klassifizierungen bis hinunter auf die Pixelebene. Anhand dieser Beschriftungen lernen Algorithmen für maschinelles Lernen, wie sie ähnliche Merkmale in neuen Bilddaten identifizieren können.

Die Genauigkeit dieser Labels des Trainingssets ist entscheidend. Wenn die Labels falsch oder uneinheitlich sind (z. B. Hundepfoten statt Katzenpfoten), kann das Modell nicht die richtigen Muster lernen. Dies kann zu falschen Vorhersagen führen.

Eine Katze mit Hundepfoten mag harmlos erscheinen. Doch in Bereichen wie dem Gesundheitswesen und der Bekämpfung des Klimawandels, in denen es auf Genauigkeit in Echtzeit ankommt, sind falsche Vorhersagen weitaus problematischer.