Was ist Datenbeschriftung?

Datenbeschriftung oder Datenannotation ist Teil der Vorverarbeitungsphase bei der Entwicklung eines Modells zum maschinellen Lernen (ML). Es erfordert die Identifizierung von Rohdaten (d. h. Bilder, Textdateien, Videos) und dann das Hinzufügen einer oder mehrerer Beschriftungen zu diesen Daten, um den Kontext für die Modelle anzugeben, sodass das maschinelle Lernmodell genaue Vorhersagen treffen kann.

Die Datenbeschriftung unterstützt verschiedene Anwendungsfälle für maschinelles Lernen und Deep Learning, einschließlich Computer Vision und die Verarbeitung natürlicher Sprache (NLP).

Relevante Produkte

IBM Watson Natural Language Understanding

IBM Cloud Object Storage

Wie funktioniert Datenbeschriftung?

Unternehmen integrieren Software, Prozesse und Datenannotatoren, um Daten zu bereinigen, zu strukturieren und zu beschriften. Aus diesen Trainingsdaten entsteht die Grundlage für maschinelle Lernmodelle. Diese Beschriftungen ermöglichen es Analysten, Variablen innerhalb von Datensätzen zu isolieren, was wiederum die Auswahl optimaler Datenvorhersagen für ML-Modelle ermöglicht. Die Beschriftungen identifizieren die geeigneten Datenvektoren, die für das Modelltraining herangezogen werden sollen, wobei das Modell dann lernt, die besten Vorhersagen zu treffen.

Neben der maschinellen Unterstützung erfordern Datenbeschriftungsaufgaben die Teilnahme von „Human-in-the-Loop“ (HITL). HITL nutzt das Urteil menschlicher „Datenbeschrifter“, um ML-Modelle zu erstellen, zu trainieren, zu optimieren und zu testen. Sie helfen, den Datenbeschriftungsprozess zu steuern, indem sie die Modelle mit Datensätze füttern, die für ein bestimmtes Projekt am geeignetsten sind.

Beschriftete vs. unbeschriftete Daten

Computer verwenden beschriftete und unbeschriftete Daten, um ML-Modelle zu trainieren, aber was ist der Unterschied?

Beschriftete Daten werden im überwachtem Lernen und unbeschriftete Daten im nicht überwachten Lernen verwendet.
Beschriftete Daten sind schwieriger als unbeschriftete Daten zu beziehen und zu speichern (d. h. zeitaufwendig und kostenintensiv).
Beschriftete Daten können verwendet werden, um umsetzbare Erkenntnisse (z. B. Aufgaben zur Vorhersage) zu ermitteln, während unbeschriftete Daten in ihrer Nützlichkeit eingeschränkter sind. Nicht überwachte Lernmethoden können helfen, neue Datencluster zu entdecken, was neue Kategorisierungen bei der Beschriftung ermöglicht.

Computer können auch kombinierte Daten für halbüberwachtes Lernen verwenden, wodurch der Bedarf an manuell beschrifteten Daten reduziert und gleichzeitig ein großer annotierter Datensatz bereitgestellt wird.

Ansätze zur Datenbeschriftung

Datenbeschriftung ist ein entscheidender Schritt bei der Entwicklung eines leistungsfähigen ML-Modells. Auch wenn Beschriftung einfach erscheint, ist sie nicht immer einfach zu implementieren. Infolgedessen müssen Unternehmen mehrere Faktoren und Methoden berücksichtigen, um den besten Ansatz für die Beschriftung zu bestimmen. Da jede Datenbeschriftungsmethode ihre Vor- und Nachteile hat, wird eine detaillierte Bewertung der Aufgabenkomplexität sowie der Größe, des Umfangs und der Dauer des Projekts empfohlen.

Hier sind einige Möglichkeiten zur Beschriftung Ihrer Daten:

Interne Beschriftung – Unternehmensinterne Datenwissenschaftler vereinfachen die Nachverfolgung, bieten größere Genauigkeit und steigern die Qualität. Dieser Ansatz erfordert jedoch in der Regel mehr Zeit und begünstigt große Unternehmen mit umfangreichen Ressourcen.
Synthetische Beschriftung – Dieses Konzept generiert neue Projektdaten aus bestehenden Datensätzen, was die Datenqualität und Zeiteffizienz verbessert. Synthetische Beschriftung erfordert aber umfangreiche Computerleistung, was die Preise erhöhen kann.
Programmatische Beschriftung – Dieser automatisierte Datenbeschriftungsprozess verwendet Scripts, um den Zeitaufwand und die Notwendigkeit menschlicher Annotation zu reduzieren. Die Möglichkeit technischer Probleme erfordert jedoch, dass HITL Teil des Qualitätssicherungsprozesses (QA) bleibt.
Auslagerung – Dies kann eine optimale Wahl für temporäre Projekte auf hoher Ebene sein, aber die Entwicklung und Verwaltung eines freiberuflich-orientierten Workflows kann auch zeitaufwendig sein. Obwohl freiberufliche Plattformen umfassende potenzielle Informationen bereitstellen, um den Überprüfungsprozess zu vereinfachen, bietet die Einstellung von verwalteten Datenbeschriftungsteams vorab überprüfte Mitarbeiter und vorgefertigte Datenbeschriftungstools.
Crowdsourcing – Dieser Ansatz ist aufgrund seiner Microtasking-Fähigkeit und der webbasierten Verteilung schneller und kostengünstiger. Die Qualität der Mitarbeiter, die Qualitätssicherung und das Projektmanagement variieren jedoch je nach Crowdsourcing-Plattform. Eines der bekanntesten Beispiele für Crowdsourcing-Datenbeschriftung ist Recaptcha. Dieses Projekt hatte einen doppelten Zweck, da es Bots kontrollierte und gleichzeitig die Datenannotation von Bildern verbesserte. Eine Recaptcha-Abfrage würde den Nutzer beispielsweise auffordern, alle Fotos zu identifizieren, auf denen ein Auto zu sehen ist, um zu beweisen, dass es sich um einen Menschen handelt, und dann könnte sich das Programm anhand der Ergebnisse anderer Nutzer selbst überprüfen. Die Eingabe dieser Benutzer lieferte eine Datenbank von Beschriftungen für eine Feldgruppe von Bildern.

Vorteile und Herausforderungen der Datenbeschriftung

Der allgemeine Zielkonflikt der Datenbeschriftung besteht darin, dass sie zwar die Zeit bis zur Skalierung eines Unternehmens verkürzen kann, aber tendenziell mit Kosten verbunden ist. Genauere Daten verbessern im Allgemeinen die Modellvorhersagen, sodass trotz ihrer hohen Kosten der Wert, den sie bieten, die Investition in der Regel lohnt. Da Datenannotation mehr Kontext für Datensätze bietet, verbessert sie den Durchsatz der explorativen Datenanalyse sowie für Anwendungen zum maschinellen Lernen (ML) und für künstliche Intelligenz (KI). Die Kennzeichnung von Daten führt zum Beispiel zu relevanteren Suchergebnissen auf Suchmaschinenplattformen und zu besseren Produktempfehlungen auf E-Commerce-Plattformen. Andere wichtige Vorteile und Herausforderungen sind die Folgenden:

Vorteile

Datenbeschriftung bietet Anwendern, Teams und Unternehmen mehr Zusammenhang, Qualität und Bedienungskomfort. Konkret kann Folgendes erwartet werden:

Genauere Vorhersagen: Eine genaue Datenbeschriftung gewährleistet eine bessere Qualitätssicherung innerhalb der maschinellen Lernalgorithmen, damit das Modell trainieren und die erwartete Ausgabe liefern kann. Ansonsten gilt das altbekannte „garbage in, garbage out“. Richtig beschriftete Daten liefern die „zugrunde liegende Wahrheit“ (d. h. wie Beschriftungen „echte“ Szenarien widerspiegeln) zum Testen und Iterieren nachfolgender Modelle.
Bessere Datenverwendbarkeit: Datenbeschriftung kann auch die Nutzbarkeit von Datenvariablen innerhalb eines Modells verbessern. Zum Beispiel könnten Sie eine kategoriale Variable als Binärvariable neu klassifizieren, um sie für ein Modell verwendbarer zu machen. Die Aggregation von Daten auf diese Weise kann das Modell optimieren, indem die Anzahl der Modellvariablen reduziert oder die Einbeziehung von Steuervariablen ermöglicht wird. Unabhängig davon, ob Sie Daten zum Erstellen von Computer-Vision-Modellen (d. h. Begrenzungsrahmen um Objekte setzen) oder NLP-Modellen (d. h. Text für soziale Stimmungen klassifizieren) verwenden, hat die Verwendung hochwertiger Daten oberste Priorität.

Herausforderungen

Datenbeschriftung ist nicht ohne Herausforderungen. Einige der häufigsten Herausforderungen sind insbesondere:

Teuer und zeitintensiv: Während die Datenbeschriftung für maschinelle Lernmodelle von entscheidender Bedeutung ist, kann sie sowohl aus Ressourcen- als auch aus Zeitsicht kostspielig sein. Wenn ein Unternehmen einen stärker automatisierten Ansatz verfolgt, müssen die Entwicklungsteams vor der Datenverarbeitung immer noch Datenpipelines einrichten, und die manuelle Beschriftung ist fast immer teuer und zeitaufwendig.
Anfällig für menschliche Fehler: Diese Beschriftungsansätze unterliegen auch menschlichen Fehlern (z. B. Codierungsfehler, manuelle Eingabefehler), die die Qualität der Daten beeinträchtigen können. Dies wiederum führt zu einer ungenauen Datenverarbeitung und Modellierung. Qualitätssicherungsprüfungen sind für die Aufrechterhaltung der Datenqualität wesentlich.

Best Practices für die Datenbeschriftung

Unabhängig vom Ansatz optimieren die folgenden Best Practices die Genauigkeit und Effizienz der Datenbeschriftung:

Intuitive und optimierte Aufgabenschnittstellen minimieren die kognitive Belastung und die Kontextwechsel für menschliche Beschrifter.
Konsens: Misst die Zustimmungsrate mehrerer Beschrifter (Mensch oder Maschine). Ein Konsens-Score wird berechnet, indem die Summe der übereinstimmenden Beschriftungen durch die Gesamtzahl der Beschriftungen pro Asset dividiert wird.
Überprüfung der Beschriftung: Überprüft die Genauigkeit der Beschriftungen und aktualisiert sie bei Bedarf.
Transferlernen: Nimmt ein oder mehrere vortrainierte Modelle aus einem Datenbestand und wendet sie auf ein anderes an. Dies kann Multitasking-Lernen beinhalten, bei dem mehrere Aufgaben gleichzeitig erlernt werden.
Aktives Lernen: Eine Kategorie von ML-Algorithmen und Teil des halbüberwachten Lernens, das Menschen dabei hilft, die am besten geeigneten Datensätze zu identifzieren. Aktive Lernmethoden schließen ein:
- Synthese von Zugehörigkeitsabfragen – Erzeugt eine synthetische Instanz und fordert eine Beschriftung dafür an.
- Poolbasierte Stichprobenentnahme – Ordnet alle unbeschrifteten Instanzen nach der Messung der Informationswürdigkeit ein und wählt die besten Abfragen aus, die mit Annotationen versehen werden sollen.
- Stream-basierte selektive Abtastrate – Wählt unbeschriftete Instanzen und beschriftet oder ignoriert sie je nach Information oder Unsicherheit.

Anwendungsfälle für Datenbeschriftung

Obwohl die Datenbeschriftung Genauigkeit, Qualität und Nutzbarkeit in verschiedenen Kontexten in verschiedenen Branchen verbessern kann, gehören zu den bekannteren Anwendungsfällen:

Computer Vision: Ein KI-Bereich, der Trainingsdaten verwendet, um ein Computer-Vision-Modell zu erstellen, das Bildsegmentierung und Kategorieautomatisierung ermöglicht, Schlüsselpunkte in einem Bild identifiziert und die Position von Objekten erkennt. IBM bietet mit Maximo Visual Inspection eine Computer-Vision-Plattform, die es Experten ermöglicht, Deep-Learning-Vision-Modelle zu beschriften und zu trainieren, die in der Cloud, auf Edge-Geräten und in lokalen Rechenzentren bereitgestellt werden können. Computer Vision wird in mehreren Branchen verwendet – von Energie- und Versorgungsunternehmen über die Fertigung bis zum Automobilbau. Bis zum Jahr 2022 soll dieser Wachstumsbereich einen Marktwert von 48,6 Mrd. US-Dollar erreichen.
Natürliche Sprachverarbeitung (NLP): Ein Zweig der KI, der Computerlinguistik mit statistischen, maschinellen Lern- und Deep-Learning-Modellen kombiniert, um wichtige Textabschnitte zu identifizieren und zu markieren, die Trainingsdaten für die Stimmungsanalyse, die Erkennung von Entitätsnamen und die optische Zeichenerkennung generieren. NLP wird zunehmend in Unternehmenslösungen wie Spam-Erkennung, maschineller Übersetzung, Spracherkennung, Textzusammenfassung, virtuellen Assistenten und Chatbots sowie sprachgesteuerten GPS-Systemen eingesetzt. Dies hat NLP zu einer entscheidenden Komponente in der Weiterentwicklung geschäftskritischer Geschäftsprozesse gemacht.

Relevante Lösungen

Natural Language Understanding (Verstehen natürlicher Sprache)

Der NLP-Service (Verarbeitung natürlicher Sprache) für erweiterte Textanalyse

IBM Watson Natural Language Understanding erkunden

Cloud Object Storage

Ermöglichen Sie KI-Workloads und konsolidieren Sie den primären und sekundären Big-Data-Speicher mit dem branchenführenden On-Premises-Objektspeicher.

IBM Cloud Object Storage erkunden

Sichtprüfung

Erkennen, prognostizieren und verhindern Sie mit innovativem KI-gestütztem Remote Monitoring und Computer Vision Probleme für Assets und Aktivitäten

IBM Maximo Application Suite Visual Inspection erkunden

Machen Sie den nächsten Schritt

IBM bietet mehr Ressourcen, um Herausforderungen der Datenbeschriftung zu bewältigen und Ihr gesamtes Datenbeschriftungserlebnis zu maximieren. Unabhängig von der Größe oder dem Zeitplan Ihres Projekts können IBM Cloud und IBM Watson Ihre Datenschulungsprozesse verbessern, Ihre Datenklassifizierungsbemühungen erweitern und komplexe Prognosemodelle vereinfachen.

Watson Natural Language Understanding jetzt testen