Was ist Daten-Labeln?

Was ist Daten-Labeln?

Die Datenkennzeichnung oder Datenannotation ist Teil der Vorverarbeitungsphase bei der Entwicklung eines Machine Learning (ML)-Modells.

Bei der Datenkennzeichnung werden Rohdaten wie Bilder, Textdateien oder Videos identifiziert und eine oder mehrere Kennzeichnungen zugewiesen, um ihren Kontext für maschinelle Lernmodelle festzulegen. Diese Bezeichnungen helfen den Modellen, die Daten korrekt zu interpretieren, sodass sie genaue Vorhersagen treffen können.

Die Kennzeichnung von Daten bildet die Grundlage für verschiedene Anwendungsfälle des maschinellen Lernens und des Deep Learning, einschließlich Computer Vision und der Verarbeitung natürlicher Sprache (NLP).

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Wie funktioniert die Datenkennzeichnung?

Unternehmen integrieren Software, Prozesse und Datenkommentatoren, um Daten zu bereinigen, zu strukturieren und zu kennzeichnen. Diese Trainingsdaten bilden die Grundlage für Modelle des maschinellen Lernens. Diese Labels ermöglichen es Analysten, Variablen innerhalb von Datensätzen zu isolieren, und dieser Prozess wiederum ermöglicht die Auswahl optimaler Datenprädiktoren für ML-Modelle. Die Kennzeichnungen identifizieren die geeigneten Datenvektoren, die für das Modelltraining herangezogen werden, wo das Modell dann lernt, die besten Vorhersagen zu treffen.

Neben maschineller Unterstützung ist bei der Datenkennzeichnung auch die Beteiligung von Menschen –„Human-In-The-Loop (HITL)“ – erforderlich. HITL nutzt das Urteilsvermögen menschlicher „Datenkennzeichner“ für die Erstellung, Schulung, Feinabstimmung und das Testen von ML-Modellen. Sie helfen bei der Steuerung des Datenkennzeichnungsprozesses, indem sie die Modelldatensätze einspeisen, die für ein bestimmtes Projekt am besten geeignet sind.

Beschriftete Daten im Vergleich zu unbeschrifteten Daten

Computer verwenden gekennzeichnete und nicht gekennzeichnete Daten, um ML-Modelle zu trainieren, aber was ist der Unterschied?

  • Gekennzeichnete Daten werden beim überwachten Lernen verwendet, während nicht gekennzeichnete Daten beim unüberwachten Lernen verwendet werden.

  • Gekennzeichnete Daten sind schwieriger zu erfassen und zu speichern (d. h. zeitaufwändig und teuer), während Daten ohne Kennzeichnung einfacher zu erfassen und zu speichern sind.

  • Gelabelte Daten können verwendet werden, um umsetzbare Erkenntnisse zu gewinnen (z. B. für Forecasting), während nicht gelabelte Daten in ihrer Nützlichkeit stärker eingeschränkt sind. Unüberwachte Lernmethoden können dabei helfen, neue Datencluster zu entdecken, und ermöglichen so neue Kategorisierungen bei der Beschriftung.

Computer können auch kombinierte Daten für halbüberwachtes Lernen verwenden, wodurch der Bedarf an manuell gekennzeichneten Daten verringert wird und gleichzeitig ein großer annotierter Datensatz bereitgestellt wird.

AI Academy

KI-Experte werden

Erlangen Sie das nötige Wissen, um KI-Investitionen zu priorisieren, die das Unternehmenswachstum vorantreiben. Starten Sie noch heute mit unserer kostenlosen AI Academy und gestalten Sie die Zukunft der KI in Ihrem Unternehmen.

Ansätze für Datenkennzeichnung

Die Datenkennzeichnung ist ein entscheidender Schritt bei der Entwicklung eines leistungsstarken ML-Modells. Obwohl die Kennzeichnung einfach erscheint, ist sie nicht unbedingt leicht umzusetzen. Daher müssen Unternehmen mehrere Faktoren und Methoden berücksichtigen, um den besten Ansatz für die Kennzeichnung zu ermitteln. Da jede Methode zur Datenkennzeichnung ihre Vor- und Nachteile hat, wird eine detaillierte Bewertung der Aufgabenkomplexität sowie der Größe, des Umfangs und der Dauer des Projekts empfohlen.

Hier sind einige Pfade zum Kennzeichnen Ihrer Daten:

  • Interne Kennzeichnung: Der Einsatz interner Data-Science-Experten vereinfacht die Nachverfolgung, sorgt für eine höhere Genauigkeit und steigert die Qualität. Dieser Ansatz erfordert jedoch in der Regel mehr Zeit und begünstigt große Unternehmen mit umfangreichen Ressourcen.

  • Synthetische Kennzeichnung: Bei diesem Ansatz werden neue Projektdaten aus bereits vorhandenen Datensätzen generiert, wodurch die Datenqualität und die Zeiteffizienz verbessert werden. Die synthetische Kennzeichnung erfordert jedoch eine hohe Rechenleistung, was zu höheren Preisen führen kann.

  • Programmatische Kennzeichnung –Bei diesem automatisierten Datenkennzeichnungsverfahren werden Skripte verwendet, um den Zeitaufwand und den Bedarf an manuellen Anmerkungen zu reduzieren. Da jedoch technische Probleme auftreten können, muss HITL weiterhin Teil des Qualitätssicherungsprozesses (QS) bleiben.

  • Outsourcing: Dies kann eine optimale Wahl für zeitlich begrenzte Projekte auf hoher Ebene sein, aber die Entwicklung und Verwaltung eines auf Freiberufler ausgerichteten Workflows kann auch mit einem hohen Zeitaufwand verbunden sein. Obwohl Plattformen für Freiberufler umfassende Informationen über Bewerber bereitstellen, um den Überprüfungsprozess zu erleichtern, bietet die Einstellung von Teams für die Datenbeschriftung vorab überprüfte Mitarbeiter und vorgefertigte Tools für die Kennzeichnung von Daten.

  • Crowdsourcing: Dieser Ansatz ist aufgrund seiner Mikrotasking-Fähigkeit und webbasierten Verteilung schneller und kostengünstiger. Die Qualität der Mitarbeiter, die Qualitätssicherung und das Projektmanagement variieren jedoch je nach Crowdsourcing-Plattform. Eines der bekanntesten Beispiele für die Dateneingabe durch Crowdsourcing ist Recaptcha. Dieses Projekt hatte zwei Ziele: die Kontrolle von Bots und die gleichzeitige Verbesserung der Datenanmerkungen von Bildern. Ein reCAPTCHA-Prompt würde einen Benutzer beispielsweise auffordern, alle Fotos mit einem Auto zu identifizieren, um zu beweisen, dass sie von Menschen stammen. Das Programm kann dann seine Genauigkeit überprüfen, indem es die Ergebnisse mit denen anderer Benutzer vergleicht. Die Beiträge dieser Benutzer lieferten eine Datenbank mit Beschriftungen für eine Reihe von Bildern.

Vorteile und Herausforderungen der Datenkennzeichnung

Der allgemeine Nachteil der Datenkennzeichnung besteht darin, dass sie zwar den Skalierungsprozess eines Unternehmens beschleunigen kann, aber oft mit erheblichen Kosten verbunden ist. Genauere Daten führen zu besseren Modellvorhersagen, was die Datenkennzeichnung zu einer wertvollen, aber teuren Investition macht. Trotz der hohen Kosten lohnt sich die Lösung für Unternehmen aufgrund der höheren Genauigkeit.

Da Datenannotationen Datensätzen mehr Kontext hinzufügen, verbessern sie die Leistung von explorativer Datenanalyse, maschinellem Lernen (ML) und künstlicher Intelligenz (KI) Anwendungen. Beispielsweise tragen gekennzeichnete Daten zu relevanten Ergebnissen auf Suchmaschinenplattformen und besseren Produktempfehlungen im E-Commerce bei. Lassen Sie uns nun auf weitere Hauptvorteile und Herausforderungen näher erkunden.

Vorteile

Die Datenkennzeichnung bietet Benutzern, Teams und Unternehmen einen besseren Kontext, eine bessere Qualität und eine bessere Benutzerfreundlichkeit. Konkret können Sie Folgendes erwarten:

  • Präzisere Vorhersagen: Eine genaue Datenkennzeichnung gewährleistet eine bessere Qualitätssicherung innerhalb der Algorithmen für maschinelles Lernen, sodass das Modell trainiert werden und den erwarteten Output liefern kann. Ansonsten gilt, wie das alte Sprichwort sagt: „Müll rein, Müll raus.“ Richtig beschriftete Daten liefern die „Grundwahrheit“ (d. h., wie Beschriftungen Szenarien der „realen Welt“ widerspiegeln) für das Testen und Iterieren nachfolgender Modelle.

  • Bessere Nutzbarkeit der Daten: Die Kennzeichnung von Daten kann auch die Nutzbarkeit von Datenvariablen innerhalb eines Modells verbessern. Sie könnten zum Beispiel eine kategorische Variable in eine binäre Variable umklassifizieren, um sie für ein Modell besser nutzbar zu machen. Die Aggregation von Daten auf diese Weise kann das Modell optimieren, indem es die Anzahl der Modellvariablen reduziert oder die Einbeziehung von Kontrollvariablen ermöglicht. Egal ob Sie Daten verwenden, um Computer-Vision-Modelle (also das Hinzufügen von Begrenzungsrahmen um Objekte) oder NLP-Modelle (also die Klassifizierung von Texten hinsichtlich sozialer Stimmungen) zu erstellen, die Sicherstellung qualitativ hochwertiger Daten hat oberste Priorität.

Herausforderungen

Die Datenkennzeichnung bringt eine Reihe von Herausforderungen mit sich. Zu den häufigsten Herausforderungen zählen insbesondere:

  • Teuer und zeitaufwändig: Während die Datenkennzeichnung für Modelle des maschinellen Lernens von entscheidender Bedeutung ist, kann sie sowohl aus Ressourcen- als auch aus Zeitsicht kostspielig sein. Wenn ein Unternehmen einen stärker automatisierten Ansatz verfolgt, müssen die Entwicklungsteams vor der Datenverarbeitung immer noch Datenpipelines einrichten, und die manuelle Kennzeichnung wird fast immer teuer und zeitaufwändig sein.

  • Anfällig für menschliche Fehler: Bei diesen Kennzeichnungsansätzen können auch menschliche Fehler auftreten (z. B. Codierungsfehler, manuelle Eingabefehler), die Qualität der Daten verschlechtern können. Dies wiederum führt zu einer ungenauen Datenverarbeitung und -modellierung. Qualitätssicherungsprüfungen sind unerlässlich für die Wahrung der Datenqualität.

Best Practices für die Datenkennzeichnung

Unabhängig vom Ansatz optimieren die folgenden Best Practices die Genauigkeit und Effizienz der Datenkennzeichnung:

  • Intuitive und optimierte Aufgabenoberflächen minimieren die kognitive Belastung und den Kontextwechsel für menschliche Kennzeichner.

  • Konsens: Misst den Grad der Übereinstimmung zwischen mehreren Kennzeichnern (Mensch oder Maschine). Ein Konsenswert wird berechnet, indem die Summe der übereinstimmenden Beschriftungen durch die Gesamtzahl der Beschriftungen pro Asset geteilt wird.

  • Etiketten-Überwachung: Überprüft die Richtigkeit von Beschriftungen und aktualisiert sie bei Bedarf.

  • Transfer-Lernen: Nimmt ein oder mehrere vortrainierte Modelle aus einem Dataset und wendet sie auf ein anderes Dataset an. Dazu kann auch Multitasking-Lernen gehören, bei dem mehrere Aufgaben im Tandem erlernt werden.

  • Aktives Lernen: Eine Kategorie von ML-Algorithmen und Teilmengen von halbüberwachtem Lernen, die Menschen dabei hilft, die geeignetsten Datensätze zu identifizieren. Zu den aktiven Lernansätzen gehören:

    • Synthese der Mitgliedschaftsabfrage – Generiert eine synthetische Instanz und fordert eine Bezeichnung dafür an.

    • Pool-basiertes Sampling – Ordnet alle unbeschrifteten Instanzen nach dem Maß der Informiertheit und wählt die besten Abfragen für die Annotation aus.

    • Streambasierte selektive Stichprobe – Wählt nicht beschriftete Instanzen einzeln aus und ignoriert sie je nach Informativität oder Unsicherheit.

Anwendungsfälle für die Datenkennzeichnung

Obwohl die Datenkennzeichnung die Genauigkeit, Qualität und Benutzerfreundlichkeit in verschiedenen Kontexten und Branchen verbessern kann, gehören die folgenden Anwendungsfälle zu den wichtigsten:

  • Computer Vision: Ein KI-Bereich, der Trainingsdaten verwendet, um ein Computer-Vision-Modell zu erstellen, das die Bildsegmentierung und die Automatisierung von Kategorien ermöglicht, wichtige Punkte in einem Bild identifiziert und die Position von Objekten erkennt. IBM bietet eine Computer-Vision-Plattform namens Maximo Visual Inspection an, die es Experten ermöglicht, Deep-Learning-Modelle zu trainieren und zu schulen. Diese Modelle können in der Cloud, auf Edge-Geräten und in Rechenzentren bereitgestellt werden. Computer Vision wird in zahlreichen Branchen eingesetzt – von der Energie- und Versorgungswirtschaft bis hin zur Fertigungs- und Automobilindustrie. Bis 2022 dürfte dieser Wachstumsbereich einen Marktwert von 48,6 Milliarden US-Dollar erreichen.

  • Verarbeitung natürlicher Sprache (Natural Language Processing, NLP): Ein Zweig der künstlichen Intelligenz kombiniert Computerlinguistik mit statistischen, maschinellen Lern- und Deep-Learning-Modellen, um wichtige Textabschnitte zu identifizieren und zu kennzeichnen. Diese gekennzeichneten Abschnitte generieren Trainingsdaten für die Stimmungsanalyse, die Erkennung von Entitätsnamen und die optische Zeichenerkennung. NLP wird zunehmend in Unternehmenslösungen wie Spam-Erkennung, maschineller Übersetzung, Spracherkennung, Textzusammenfassung, virtuellen Assistenten und Chatbots sowie sprachgesteuerten GPS-Systemen eingesetzt. Dieser Fortschritt hat NLP zu einer kritischen Komponente bei der Entwicklung geschäftskritischer Geschäftsprozesse gemacht.
Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Buchen Sie eine Live-Demo