Datenkennzeichnung

menu icon

Datenkennzeichnung

Erkunden Sie die Einsatzmöglichkeiten und Vorteile der Datenkennzeichnung, einschließlich verschiedener Ansätze und bewährter Methoden.

Was ist Datenkennzeichnung?

Die Datenkennzeichnung gehört zur Vorverarbeitungsphase bei der Entwicklung eines Modells für maschinelles Lernen (ML). Es müssen Rohdaten (also Bilder, Textdateien, Videos) ermittelt und dann mit einer oder mehreren Kennzeichnungen versehen werden, um den Kontext für die Modelle zu spezifizieren, damit das maschinelle Lernmodell genaue Vorhersagen treffen kann.

Die Datenkennzeichnung unterstützt verschiedene Anwendungsfälle von maschinellem Lernen und Deep Learning, darunter Computer Vision und Verarbeitung natürlicher Sprache (NLP).

Wie funktioniert Datenkennzeichnung?

Unternehmen integrieren Software, Prozesse und Datenannotatoren, um Daten zu bereinigen, zu strukturieren und zu kennzeichnen. Diese Trainingsdaten bilden die Basis für maschinelle Lernmodelle. Mit diesen Kennzeichnungen können Analytiker Variablen innerhalb von Datensätzen isolieren, was wiederum die Auswahl der optimalen Datenprädiktoren für ML-Modelle ermöglicht. Die Kennzeichnungen identifizieren die entsprechenden Datenvektoren für das Modelltraining, bei dem es dann lernt, die besten Vorhersagen zu treffen.

Neben der maschinellen Unterstützung erfordern die Aufgaben der Datenkennzeichnung auch die Beteiligung des „Human-in-the-Loop (HITL)“. HITL nutzt das Urteil menschlicher „Datenkennzeichner“ zur Erstellung, zum Training, zur Feinabstimmung und zum Testen von ML-Modellen. Sie steuern den Prozess der Datenkennzeichnung durch die Eingabe der für ein bestimmtes Projekt am besten geeigneten Datensätzen in das Modell.

Daten mit Kennzeichnung versus Daten ohne Kennzeichnung

Computer trainieren ML-Modelle mit gekennzeichneten und ungekennzeichneten Daten, aber was ist der Unterschied?

  • Beim überwachten Lernen werden gekennzeichnete Daten, beim unüberwachten Lernen ungekennzeichnete Daten herangezogen .
  • Gekennzeichnete Daten sind schwieriger zu beschaffen und zu speichern (d. h. zeitaufwendig und teuer), bei ungekennzeichneten Daten ist dies einfacher.
  • Mit gekennzeichneten Daten lassen sich verwertbare Erkenntnisse ermitteln (z. B. für Aufgaben der Bedarfsvorhersage), während ungekennzeichnete Daten eher von eingeschränkter Nützlichkeit sind. Unüberwachte Lernmethoden können dabei helfen, neue Datencluster zu entdecken, was neue Kategorisierungen bei der Kennzeichnung ermöglicht.

Computer können auch kombinierte Daten für halbüberwachtes Lernen verwenden, was den Bedarf an Daten mit manueller Kennzeichnung reduziert und gleichzeitig einen großen kommentierten Datensatz liefert.

Ansätze zur Datenkennzeichnung

Datenkennzeichnung ist ein entscheidender Schritt bei der Entwicklung eines leistungsstarken ML-Modells. Auch wenn das Kennzeichnen scheinbar einfach ist, ist es nicht immer leicht implementierbar. Folglich müssen Unternehmen mehrere Faktoren und Methoden in Betracht ziehen, um den besten Ansatz zur Kennzeichnung zu bestimmen. Da jede Datenkennzeichnungsmethode ihre Vor- und Nachteile hat, ist eine detaillierte Bewertung der Komplexität der Aufgabe sowie der Größe, des Umfangs und der Dauer des Projekts ratsam.

Hier sind einige Möglichkeiten zur Kennzeichnung Ihrer Daten:

  • Interne Kennzeichnung: Eigene Datenwissenschaftler vereinfachen die Nachverfolgung, sorgen für größere Genauigkeit und erhöhen die Qualität. Dieser Ansatz erfordert jedoch in der Regel mehr Zeit und eignet sich eher für große Unternehmen mit umfangreichen Ressourcen.
  • Synthetische Kennzeichnung: Dieser Ansatz generiert neue Projektdaten aus bereits vorhandene Datensätzen, was die Datenqualität und die Zeiteffizienz verbessert. Die synthetische Kennzeichnung erfordert jedoch eine hohe Rechenleistung, was sich im Preis niederschlagen kann.
  • Programmatische Kennzeichnung: Diese automatische Datenkennzeichnung arbeitet mit Skripten, um den Zeitbedarf und Kennzeichnungen durch menschliche Bearbeiter zu verringern. Da technische Probleme auftreten können, muss HITL Teil des Qualitätssicherungsprozesses bleiben.
  • Outsourcing: Dies kann die optimale Wahl für zeitlich begrenzte, wichtige Projekte, aber einen auf Freiberufler basierenden Arbeitsablauf zu entwickeln und zu organisieren, kann auch zeitaufwändig sein. Obwohl Plattformen für Freiberufler umfassende Informationen über die Kandidaten bietehn, um die Sicherheitsüberprüfung zu vereinfachen, bedeutet die Beauftragung verwalteter Datenkennzeichnungsteams, dass die Mitarbeiter bereits sicherheitsgeprüft sind und dass es vorgefertigte Datenkennzeichnungstools gibt.
  • Crowdsourcing: Dieser Ansatz ist schneller und kosteneffizienter, da er Mikroaufgaben und eine webbasierte Verteilung ermöglicht. Die Qualität der Mitarbeiter, die Qualitätssicherung und das Projektmanagement variieren jedoch je nach Crowdsourcing-Plattform. Eines der bekanntesten Beispiele für Crowdsourcing-Datenkennzeichnung ist Recaptcha. Dieses Projekt hatte einen doppelten Zweck, denn es kontrollierte Bots und verbesserte gleichzeitig die Datenanmerkung von Bildern. Eine Recaptcha-Abfrage würde einen Benutzer zum Beispiel auffordern, alle Fotos zu identifizieren, auf denen ein Auto zu sehen ist, um zu beweisen, dass er ein Mensch ist. Die Eingaben dieser Benutzer lieferten eine Datenbank mit Kennezichnungen für eine Reihe von Bildern.

Vorteile und Herausforderungen der Datenkennzeichnung

Der allgemeine Nachteil der Datenkennzeichnung besteht darin, dass sie zwar den Zeitaufwand für die Skalierung eines Unternehmens verkürzen kann, aber in der Regel ihren Preis hat. Genauere Daten verbessern im Allgemeinen die Modellvorhersagen, so dass sich die Investition trotz der hohen Kosten normalerweise lohnt. Da die Datenkennzeichnung den Datensätzen mehr Kontext verleiht, verbessert sie die Leistung der explorativen Datenanalyse sowie der Anwendungen für maschinelles Lernen (ML) und künstliche Intelligenz (KI). So führt die Kennzeichnung von Daten beispielsweise zu relevanteren Suchergebnissen auf Suchmaschinenplattformen und zu besseren Produktempfehlungen auf E-Commerce-Plattformen. Lassen Sie uns weitere wichtige Vorteile und Herausforderungen näher beleuchten:

Vorteile

Die Kennzeichnung von Daten bietet Benutzern, Teams und Unternehmen mehr Kontext, Qualität und Benutzerfreundlichkeit. Genauer gesagt, können Sie Folgendes erwarten:

  • Genauere Vorhersagen: Eine genaue Datenkennzeichnung sorgt für eine bessere Qualitätssicherung der Algorithmen für maschinelles Lernen, so dass das Modell trainiert werden kann und die erwarteten Ergebnisse liefert. Andernfalls gilt „von nichts kommt nichts“. Korrekt gekennzeichnete Daten  liefern die Basisfakten (d. h. wie die Kennzeichnungen die Szenarien der „realen Welt“ widerspiegeln) zum Testen und Iterieren der nachfolgenden Modelle.
  • Bessere Datennutzbarkeit: Die Datenkennzeichnung kann auch die Nutzbarkeit von Datenvariablen innerhalb eines Modells verbessern. Sie könnten zum Beispiel eine kategorische Variable in eine binäre Variable umklassifizieren, um sie für ein Modell besser nutzbar zu machen.  Eine solche Aggregation von Daten kann das Modell optimieren, weil die Anzahl der Modellvariablen reduziert oder die Einbeziehung von Kontrollvariablen ermöglicht wird. Ganz gleich, ob Sie Daten für die Erstellung von Computer-Vision-Modellen (z. B. Zeichenrahmen um Objekte) oder NLP-Modellen (z. B. Klassifizierung von Text für Social Sentiment) verwenden: hochwertige Daten zu nutzen, hat höchste Priorität.

Herausforderungen

Die Datenkennzeichnung ist nicht ohne Herausforderungen. Einige der häufigsten Herausforderungen sind insbesondere:

  • Kosten- und zeitintensiv: Die Datenkennzeichnung ist zwar für Modelle des maschinellen Lernens von entscheidender Bedeutung, kann aber sowohl ressourcen- als auch zeitaufwändig sein. Wählt ein Unternehmen einen stärker automatisierten Ansatz, müssen die technischen Teams vor der Datenverarbeitung immer noch Datenpipelines einrichten, und die manuelle Kennzeichnung ist fast immer teuer und zeitaufwändig.
  • Anfällig für menschliche Fehler: Diese Kennzeichnungsansätze unterliegen auch menschlichen Fehlern (z. B. Programmierfehler, manuelle Eingabefehler), die die Qualität der Daten beeinträchtigen können. Dies wiederum führt zu einer ungenauen Datenverarbeitung und -modellierung. Qualitätssicherungsüberprüfungen sind zur Erhaltung der Datenqualität unerlässlich.

Best Practices der Datenkennzeichnung

Unabhängig vom Ansatz optimieren die folgenden Best Practices die Genauigkeit und Effizienz der Datenkennzeichnung:

  • Intuitive und optimierte Benutzeroberflächen minimieren die kognitive Belastung und den Kontextwechsel für menschliche Kennzeichner.
  • Konsens: Misst die Rate der Übereinstimmung zwischen mehreren Kennzeichnern (Mensch oder Maschine). Der Konsenswert ergibt sich aus der Summe der zustimmenden Kennzeichnungen, dividiert durch die Gesamtzahl der Kennzeichnungen pro Asset.
  • Kennzeichnungsprüfung: Verifiziert die Richtigkeit der Kennzeichnungen und aktualisiert sie bei Bedarf.
  • Transferlernen: Nimmt ein oder mehrere vortrainierte Modelle aus einem Datensatz und wendet sie auf einen anderen Datensatz an. Dazu kann auch das Multitasking gehören, bei dem mehrere Aufgaben gleichzeitig gelernt werden.
  • Aktives Lernen: Eine Kategorie von ML-Algorithmen und eine Untergruppe des halbüberwachten Lernens, die den Menschen hilft, die am besten geeigneten Datensätze zu identifizieren. Aktive Lernansätze umfassen:
    • Synthese der Mitgliedschaftsabfrage : Erzeugt eine synthetische Instanz und fordert ein Kennzeichen für sie an.
    • Poolbasierte Stichprobenziehung: Ordnet alle ungekennzeichneten Instanzen nach dem Grad des Informationsgehalts und wählt die besten Abfragen für die Kommentierung aus.
    • Streambasierte selektive Stichprobenziehung: Wählt nacheinander ungekennzeichnete Instanzen aus und kennzeichnet oder ignoriert sie je nach Informationsgehalt oder Unsicherheitsgrad.

Anwendungsbeispiele für Datenkennzeichnung

Obwohl die Kennzeichnung von Daten die Genauigkeit, die Qualität und die Nutzbarkeit in den verschiedensten Kontexten und Branchen verbessern kann, sind die wichtigsten Anwendungsbeispiele die folgenden:

  • Computer Vision: Ein Bereich der künstlichen Intelligenz, der mithilfe von Trainingsdaten ein Computer-Vision-Modell erstellt, das die Segmentierung von Bildern und die Automatisierung von Kategorien ermöglicht, Schlüsselpunkte in einem Bild identifiziert und die Position von Objekten erkennt. IBM bietet mit Maximo Visual Inspection eine Bildverarbeitungsplattform, mit der Fachexperten Deep-Learning-Vision-Modelle kennzeichnen und trainieren können, um sie dann in der Cloud, auf Edge-Geräten oder in lokalen Rechenzentren bereitzustellen. Computer Vision wird in zahlreichen Branchen eingesetzt – von der Energie- und Versorgungswirtschaft über die Fertigung bis hin zur Automobilindustrie. Laut Prognosen erreicht dieser aufstrebende Bereich 2022 einen Marktwert von 48,6 Mrd. USD.
  • Verarbeitung natürlicher Sprache (NLP): Eine Teilgruppe der künstlichen Intelligenz, die Computerlinguistik mit statistischen Modellen des maschinellen Lernens und des Deep Learning kombiniert, um wichtige Textabschnitte zu identifizieren und zu markieren, die Trainingsdaten zur Stimmungsanalyse, Erkennung von Entitätsnamen und optischen Zeichenerkennung liefern. NLP wird zunehmend in Unternehmenslösungen wie Spam-Erkennung, maschinelle Übersetzung, Spracherkennung, Textauswertung, virtuelle Assistenten und Chatbots sowie sprachgesteuerte GPS-Systeme eingesetzt. Dies hat NLP zu einer entscheidenden Komponente bei der Entwicklung ausführungskritischer Geschäftsabläufe gemacht.

IBM und Datenkennzeichnung

IBM bietet weitere Ressourcen, die Ihnen dabei helfen, die Herausforderungen bei der Datenkennzeichnung zu überwinden und Ihre Erfahrung bei der Datenkennzeichnung zu maximieren.

  • IBM Cloud Annotations : Ein kollaboratives Open-Source-Bildanmerkungstool, das Entwicklern mit KI-Modellen dabei hilft, vollständig gekennzeichnete Bilddatensätze in Echtzeit zu erstellen, ohne die Kennzeichnungen manuell zeichnen zu müssen.
  • IBM Cloud Object Storage: Im Ruhezustand verschlüsselt und von überall zugänglich, speichert vertrauliche Daten und schützt die Integrität, Verfügbarkeit und Vertraulichkeit der Daten durch den Information Dispersal Algorithm (IDA) und All-or-Nothing-Transform (AONT).
  • IBM Watson: KI-Plattform mit NLP-gesteuerten Tools und Services, mit denen sich Arbeitszeiten optimieren, komplexe Geschäftsprozesse automatisieren und Einblicke in essenzielle Geschäftsabläufe gewinnen lassen, um zukünftige Ergebnisse vorherzusagen.

Unabhängig von der Größe oder dem Zeitrahmen Ihres Projekts können IBM Cloud und IBM Watson Ihre Datentrainingsprozesse verbessern, Ihre Datenklassifizierungsbemühungen erweitern und komplexe Bedarfsvorhersagemodelle vereinfachen.