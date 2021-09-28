Unternehmen integrieren Software, Prozesse und Datenkommentatoren, um Daten zu bereinigen, zu strukturieren und zu kennzeichnen. Diese Trainingsdaten bilden die Grundlage für Modelle des maschinellen Lernens. Diese Kennzeichnungen ermöglichen es Analysten, Variablen innerhalb von Datensätzen zu isolieren, was wiederum die Auswahl optimaler Datenprädiktoren für ML-Modelle ermöglicht. Die Kennzeichnungen identifizieren die geeigneten Datenvektoren, die für das Modelltraining herangezogen werden, wo das Modell dann lernt, die besten Vorhersagen zu treffen.

Neben maschineller Unterstützung ist bei der Datenkennzeichnung auch die Beteiligung von Menschen – „Human-In-The-Loop (HITL)“ – erforderlich. HITL nutzt das Urteilsvermögen menschlicher „Datenkennzeichner“ für die Erstellung, Schulung, Feinabstimmung und das Testen von ML-Modellen. Sie helfen bei der Steuerung des Datenkennzeichnungsprozesses, indem sie die Modelldatensätze einspeisen, die für ein bestimmtes Projekt am besten geeignet sind.

Gekennzeichnete Daten vs. nicht gekennzeichnete Daten



Computer verwenden gekennzeichnete und nicht gekennzeichnete Daten, um ML-Modelle zu trainieren, aber was ist der Unterschied?

Gekennzeichnete Daten werden beim überwachten Lernen verwendet, während nicht gekennzeichnete Daten beim unüberwachten Lernen verwendet werden.

Gekennzeichnete Daten sind schwieriger zu erfassen und zu speichern (d. h. zeitaufwändig und teuer), während Daten ohne Kennzeichnung einfacher zu erfassen und zu speichern sind.

Gekennzeichnete Daten können verwendet werden, um umsetzbare Erkenntnisse zu gewinnen (z. B. Forecasting-Aufgaben), während nicht gekennzeichnete Daten in ihrer Nützlichkeit eingeschränkter sind. Unüberwachte Lernmethoden können dabei helfen, neue Datencluster zu entdecken, und ermöglichen so neue Kategorisierungen bei der Beschriftung.

Computer können auch kombinierte Daten für halbüberwachtes Lernen verwenden, wodurch der Bedarf an manuell gekennzeichneten Daten verringert wird und gleichzeitig ein großer annotierter Datensatz bereitgestellt wird.