Was ist Datenreduktion?

18. Januar 2024

Autoren

Phill Powell

Staff Writer

Ian Smalley

Senior Editorial Strategist

Was ist Datenreduktion?

Unter Datenreduktion versteht man den Prozess, bei dem ein Unternehmen versucht, die Menge an gespeicherten Daten zu begrenzen.

Mithilfe von Techniken zur Datenreduktion soll die Redundanz im Originaldatensatz verringert werden. Dadurch können große Mengen ursprünglicher Daten effizienter in Form von reduzierten Daten gespeichert werden.

Erst einmal sollte darauf hingewiesen werden, dass der Begriff „Datenreduktion“ nicht automatisch mit Informationsverlust gleichzusetzen ist. Meistens bedeutet Datenreduktion nur, dass die Daten jetzt intelligenter gespeichert werden – vielleicht nachdem sie den Optimierungsprozess durchlaufen haben und dann mit ähnlichen Daten in einer praktischeren Konfiguration wieder zusammengefügt wurden.

Außerdem ist die Datenreduktion nicht gleichbedeutend mit der Datendeduplizierung, bei der zusätzliche Kopien derselben Daten zum Zweck der Rationalisierung entfernt werden. Vielmehr kombiniert die Datenreduktion verschiedene Aspekte unterschiedlicher Aktivitäten, wie z. B. Datendeduplizierung und Datenkonsolidierung, um ihre Ziele zu erreichen.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Eine umfassendere Sicht auf die Daten

Wenn im Zusammenhang mit der Datenreduktion über Daten gesprochen wird, meinen wir meistens Daten im Sinne einer einzelnen Informationseinheit im Gegensatz zur üblicherweise verwendeten Pluralform. Ein Aspekt der Datenreduktion ist zum Beispiel die Definition der tatsächlichen physischen Dimensionen einzelner Datenpunkte.

Bei der Datenreduktion wird viel mit Data Science gearbeitet. Es kann ziemlich komplex und schwierig sein, das Material prägnant zusammenzufassen. Dieses Dilemma hat sogar einen eigenen Begriff hervorgebracht:Interpretierbarkeit oder die Fähigkeit eines Menschen mit durchschnittlicher Intelligenz, ein bestimmtes Modell für maschinelles Lernen zu verstehen.

Das Erfassen der Bedeutung einiger dieser Begriffe kann eine Herausforderung darstellen, da es sich hier um Daten aus einer nahezu mikroskopischen Perspektive handelt. Wir sprechen normalerweise über Daten in ihrer „Makro“-Form, aber bei der Datenreduktion meinen wir häufig Daten im Sinne der „Mikro“-Form. Um genau zu sein, muss man bei den meisten Diskussionen zu diesem Thema sowohl die Makroebene als auch die Mikroebene betrachten.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Vorteile der Datenreduktion

Wenn ein Unternehmen die Menge seiner vorhandenen Daten reduziert, ergeben sich daraus in der Regel erhebliche finanzielle Einsparungen in Form geringerer Speicherkosten, weil weniger Speicherplatz gebraucht wird.

Methoden zur Datenreduktion bieten darüber hinaus noch weitere Vorteile, etwa eine höhere Dateneffizienz. Nach einer erfolgreichen Datenreduktion können die daraus resultierenden Daten für Methoden der künstlichen Intelligenz (KI) einfacher und auf vielfältige Weise genutzt werden, einschließlich der Anwendung anspruchsvoller Datenanalysen, die Entscheidungsfindungsaufgaben erheblich erleichtern können.

Wenn beispielsweise die Speichervirtualisierung erfolgreich eingesetzt wird, unterstützt sie die Koordination zwischen Server- und Desktopumgebungen, verbessert deren Gesamteffizienz und sorgt für höhere Zuverlässigkeit.

Beim Data Mining spielt die Datenreduktion eine wichtige Rolle. Daten müssen so sauber und so gut wie möglich aufbereitet sein, bevor sie extrahiert und für die Datenanalyse verwendet werden können.

Arten der Datenreduktion

Im Folgenden sind einige der Methoden aufgeführt, mit denen Unternehmen eine Datenreduktion durchführen können.

Reduzierung der Dimensionalität

Das gesamte Konzept baut auf dem Begriff der Daten-Dimensionalität auf. Unter Dimensionalität versteht man die Anzahl der Attribute (oder Funktionen), die einem einzelnen Datensatz zugewiesen werden. Allerdings gibt es hier einen Haken: Je höher die Dimensionalität, desto mehr Datenspeicher benötigt der jeweilige Datensatz. Außerdem kommt es mit zunehmender Dimensionalität häufiger vor, dass die Daten eher spärlich sind, was die notwendige Sonderfallanalyse erschwert.

Die Reduzierung der Dimension wirkt dem entgegen, indem sie das „Rauschen“ in den Daten begrenzt und eine bessere Visualisierung der Daten ermöglicht. Ein gutes Beispiel für die Reduzierung der Dimension ist die Wavelet-Transformationsmethode, die die Bildkomprimierung unterstützt, indem sie den relativen Abstand zwischen Objekten auf verschiedenen Auflösungsstufen beibehält.

Die Funktionsextraktion ist eine weitere mögliche Transformation für Daten. Hierbei werden die Originaldaten in numerische Funktionen umgewandelt. Dies wird in Verbindung mit maschinellem Lernen genutzt. Diese Vorgehensweise unterscheidet sich von der Hauptkomponentenanalyse (Principal Component Analysis, PCA), einer anderen Methode zur Reduzierung der Dimensionalität großer Datensätze, bei der ein großer Satz von Variablen in einen kleineren Satz umgewandelt wird, während die meisten Daten des großen Satzes erhalten bleiben.

Reduzierung der Anzahl

Bei der anderen Methode wird ein kleineres, weniger datenintensives Format zur Datendarstellung ausgewählt. Es gibt zwei Möglichkeiten zur Reduzierung der Anzahl: die auf parametrischen Methoden basierende und die auf nicht-parametrischen Methoden basierende Reduzierung. Parametrische Methoden wie die Regression konzentrieren sich auf die Modellparameter und schließen die Daten selbst aus. In ähnlicher Weise könnte ein logarithmisch-lineares Modell verwendet werden, das sich auf Teilbereiche innerhalb der Daten konzentriert. Nicht-parametrische Methoden (wie Histogramme, die die Verteilung numerischer Daten darstellen) sind hingegen überhaupt nicht auf Modelle angewiesen.

Aggregation von Datenwürfeln

Datenwürfel sind eine visuelle Möglichkeit für die Datenspeicherung. Der Begriff „Datenwürfel“ ist eigentlich in Bezug auf seine implizierte Singularität fast irreführend, denn er beschreibt eigentlich einen großen, mehrdimensionalen Würfel, der aus kleineren, organisierten Quadern besteht. Jeder der Quader stellt einen Aspekt der Gesamtdaten innerhalb dieses Datenwürfels dar, insbesondere Datenteile bezüglich Messungen und Dimensionen. Bei der Aggregation von Datenwürfeln handelt es sich daher um die Konsolidierung von Daten in ein mehrdimensionales visuelles Würfelformat, das die Datengröße reduziert, indem es ihnen einen einzigartigen, speziell für diesen Zweck erstellten Container zur Verfügung stellt.

Datendiskretisierung

Eine weitere Methode zur Datenreduktion ist die Datendiskretisierung, bei der eine lineare Menge von Datenwerten auf der Grundlage einer definierten Menge von Intervallen erstellt wird, die jeweils einem bestimmten Datenwert entsprechen.

Datenkomprimierung

Es gibt verschiedene Arten der Verschlüsselung, um die Dateigröße einzuschränken und Daten erfolgreich zu komprimieren. Grundsätzlich unterscheidet man zwischen verlustfreien und verlustbehafteten Techniken zur Datenkomprimierung und die Datenkomprimierung wird entsprechend dieser beiden Typen gruppiert. Bei der verlustfreien Komprimierung wird die Datengröße durch Kodierungsverfahren und Algorithmen reduziert und die vollständigen Originaldaten können bei Bedarf wiederhergestellt werden. Bei der verlustbehafteten Komprimierung werden dagegen andere Verfahren zur Komprimierung eingesetzt. Auch wenn es sich unter Umständen lohnt, die verarbeiteten Daten aufzubewahren, handelt es sich dabei nicht um eine exakte Kopie, wie bei der verlustfreien Komprimierung.

Datenvorverarbeitung

Einige Daten müssen vor der Datenanalyse und Datenreduktion erst bereinigt, aufbereitet und verarbeitet werden. Ein Teil dieser Transformation kann die Umwandlung der Daten aus einem analogen in ein digitales Format beinhalten. Binning ist ein weiteres Beispiel für die Vorverarbeitung von Daten. Dabei werden Medianwerte verwendet, um verschiedene Datentypen zu normalisieren und die Datenintegrität durchgängig sicherzustellen.

Weiterführende Lösungen
Software und Lösungen für die Datenverwaltung

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden
IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden IBM watsonx.data entdecken