Validierte Daten liegen innerhalb der zulässigen Grenzen oder Bereiche, entsprechen den festgelegten Datenformaten, sind genau und erfüllen die spezifischen Validierungskriterien eines Unternehmens.
Die Datenvalidierung ist ein seit langem etablierter Schritt in den Arbeitsabläufen der Datenverwaltung - schließlich können ungültige Daten bei der Datenanalyse verheerende Folgen haben. Ihre Dringlichkeit und Bedeutung hat sich jedoch vervielfacht, da Unternehmen ein umfassendes Maß an Datenerfassung betreiben, um datengesteuerte Entscheidungsfindung und Initiativen zur künstlichen Intelligenz (KI) zu unterstützen.
Heutzutage sammeln Unternehmen routinemäßig große Datensätze mit Terabytes oder Petabytes an Daten. Diese Informationen stammen aus verschiedenen Datenquellen, wie z. B. Geräten des Internets der Dinge (IoT) oder sozialen Medien, und werden häufig in Data Warehouse und andere Zielsysteme verschoben. Informationen aus einer Vielzahl von Quellen in Verbindung mit umfassenden Datenmigrationen können jedoch eine Vielzahl von Problemen mit sich bringen: inkonsistente Formate und Diskrepanzen, doppelte Daten, unvollständige Datenfelder, Fehler bei der Dateneingabe und sogar Datenverfälschungen.
Diese Datenqualitätsprobleme können die Datenintegrität beeinträchtigen und fundierte Entscheidungsfindung gefährden. Und ungültige Daten bereiten nicht nur Datenanalysten Kopfschmerzen, sie sind auch ein Problem für z. B. Ingenieure, Datenwissenschaftler und anderen Berufsgruppen, die mit KI-Modellen arbeiten.
KI-Modelle, einschließlich maschineller Lernmodelle und generativer KI-Modelle, benötigen zuverlässige, genaue Daten für das Training und die Leistung der Modelle. Da die effektive Implementierung von KI zu einem entscheidenden Wettbewerbsvorteil wird, können es sich Unternehmen nicht leisten, dass ungültige Daten ihre KI-Bemühungen gefährden. Unternehmen nutzen Datenvalidierungsprozesse, um sicherzustellen, dass die Qualität der Daten für die Verwendung in der Datenanalyse und KI ausreichend ist.
Darüber hinaus hat die Datenvalidierung hinsichtlich der Einhaltung gesetzlicher Vorschriften immer mehr an Bedeutung gewonnen. Beispielsweise verlangt das EU-Gesetz über künstliche Intelligenz , dass die Datenvalidierung für KI-Systeme mit erhöhtem Risiko strengen Data Governance-Praktiken unterliegt.
Branchen-Newsletter
Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und darüber hinaus auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.
Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.
Die Datenvalidierung umfasst die Einrichtung und Durchsetzung von Business Rules und Datenvalidierungsprüfungen.
Auch wenn verschiedene Unternehmen unterschiedliche Regeln und Datenvalidierungstechniken einsetzen, sind das die gängigsten Datenvalidierungsprüfungen:
Eine Codeprüfung bestimmt, ob ein Datenwert gültig ist, indem sie ihn mit einer Liste akzeptabler Werte vergleicht. Einige Beispiele hierfür sind Ländercodes, ISBN-Codes (International Standard Book Number) und NAICS-Codes (North American Industry Classification System) zur Klassifizierung von Unternehmen.
Konsistenzprüfungen bestätigen, dass die Eingabedaten logisch sind und nicht in Konflikt mit anderen Werten stehen. Beispielsweise sollten in einer Datenbank mit Ehepaaren die Daten ihrer Verlobungen vor ihren Hochzeitsdaten liegen.
Ein Datentyp definiert das gültige Format für Daten in einer bestimmten Spalte. Beispiele für Datentypen können Text, Zahlen oder Datumsangaben sein. Bei dieser Überprüfung wird jeder Wert identifiziert, der in Länge, Genauigkeit oder Maßstab nicht mit dem ausgewählten Datentyp übereinstimmt oder gegen den angegebenen Datentyp verstößt.
Formatprüfungen werden für Spalten implementiert, die bestimmte Anforderungen an die Datenformatierung haben, wie z. B. Spalten für Telefonnummern, E-Mail-Adressen und Datumsangaben.
Bereichsprüfungen ermitteln, ob numerische Daten in einen vordefinierten Bereich von Minimal- und Maximalwerten fallen. Zum Beispiel könnte eine Spalte mit akzeptablen Fahrzeugreifendruckwerten zwischen 30 und 35 Pfund pro Quadratzoll liegen.
Eindeutigkeitsprüfungen kommen bei Spalten zum Einsatz, in denen jede Dateneingabe eindeutig sein muss und keine doppelten Werte vorkommen dürfen.
Zu den weiteren Prüfungen, die zur Datenvalidierung verwendet werden, gehören Längenprüfungen (Sicherstellung der richtigen Zeichenanzahl in einem Feld); Präsenzprüfungen (sicherstellen, dass Pflichtfelder nicht leer sind); und Schemavalidierung (sicherstellen, dass die Daten einer vordefinierten Struktur entsprechen).
Datenvalidierung wird oft im Zusammenhang mit Datenbereinigung erwähnt, also der Korrektur von Fehlern und Inkonsistenzen in Rohdatensätzen. Manchmal wird die Datenvalidierung als Komponente der Datenbereinigung betrachtet, während sie in anderen Fällen als eigenständiger Prozess bezeichnet wird.
Sowohl Datenvalidierung als auch Datenbereinigung sind Elemente des Datenqualitätsmanagements (DQM), einer Sammlung von Verfahren zur Aufrechterhaltung qualitativ hochwertiger Daten in einem Unternehmen. Weitere, ergänzende DQM-Prozesse umfassen Daten-Profiling, Datenqualitätsüberwachung und Metadatenverwaltung.
Obwohl die Datenvalidierung manuell durchgeführt werden kann, kann dies mühsam und zeitaufwändig sein. Verschiedene Datentools können Datenexperten dabei helfen, den Datenvalidierungsprozess zu beschleunigen, zu automatisieren und zu optimieren.
Spreadsheet-Softwares wie Microsoft Excel verfügen über Datenvalidierungsfunktionen, wie z. B. die Möglichkeit, Dropdown-Listen und benutzerdefinierte Formeln zu erstellen und die Eingaben auf Werte zu beschränken, die bestimmten Regeln entsprechen. So kann es beispielsweise vorkommen, dass ein Benutzer keinen Wert eingibt, der die Längenbeschränkungen und Formatanforderungen des Texts nicht einhält. Solche Lösungen eignen sich am effektivsten für die Verwaltung und Validierung kleinerer Datensätze.
Datenexperten können Open-Source-Tools und Programmiersprachen wie Python und SQL verwenden, um Skripte auszuführen und den Datenvalidierungsprozess zu automatisieren. Excel-Benutzer können die Programmiersprache VBA (Visual Basic für Anwendungen) verwenden, um benutzerdefinierte Datenvalidierungsregeln zu erstellen und Validierungsprozesse zu automatisieren.
Die Datenintegration ist der Prozess der Kombination und Synchronisierung von Daten aus verschiedenen Quellen in einem einheitlichen, kohärenten Format, das für verschiedene analytische, operative und entscheidungsrelevante Zwecke genutzt werden kann. Die Datenvalidierung ist ein üblicher Schritt im Daten-Integrations-Prozess. Insbesondere der ETL-Integration (Extract, Transform, Load) ist für seine strenge Datenvalidierung bekannt.
Lösungen zur Daten-Observability überwachen den Zustand der Daten im gesamten Datenökosystem einer Organisation und bieten Dashboards für mehr Transparenz. Durch kontinuierliche, KI-gestützte Überwachung und Analyse können Datenanomalien und andere Datenprobleme nahezu in Echtzeit erkannt und behoben werden. Führende Plattformen zur Datenintegration verfügen über Funktionen zur Daten-Observability.
Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.