Was ist Datenreduktion?
Erkunden Sie unsere KI-Plattform Abonnieren Sie KI-Updates
Mann in einem Serverraum

Veröffentlicht: 18. Januar 2024
Mitwirkende: Phill Powell, Ian Smalley

Was ist Datenreduktion?

Unter Datenreduktion versteht man den Prozess, bei dem ein Unternehmen versucht, die Menge an gespeicherten Daten zu begrenzen.

Mithilfe von Techniken zur Datenreduktion soll die Redundanz im Originaldatensatz verringert werden. Dadurch können große Mengen ursprünglicher Daten effizienter in Form von reduzierten Daten gespeichert werden.

Erst einmal sollte darauf hingewiesen werden, dass der Begriff „Datenreduktion“ nicht automatisch mit Informationsverlust gleichzusetzen ist. Meistens bedeutet Datenreduktion nur, dass die Daten jetzt intelligenter gespeichert werden – vielleicht nachdem sie den Optimierungsprozess durchlaufen haben und dann mit ähnlichen Daten in einer praktischeren Konfiguration wieder zusammengefügt wurden.

Außerdem ist die Datenreduktion nicht gleichbedeutend mit der Datendeduplizierung, bei der zusätzliche Kopien derselben Daten zum Zweck der Rationalisierung entfernt werden. Vielmehr kombiniert die Datenreduktion verschiedene Aspekte unterschiedlicher Aktivitäten, wie z. B. Datendeduplizierung und Datenkonsolidierung, um ihre Ziele zu erreichen.

Warum KI-Governance eine geschäftliche Notwendigkeit für die Skalierung von KI in Unternehmen ist

Erfahren Sie mehr über die Hindernisse bei der Einführung von KI, insbesondere über das Fehlen von Lösungen für KI-Governance und -Risikomanagement.

Ähnliche Inhalte

Registrieren Sie sich, um den Leitfaden zu Foundation Models zu lesen

Eine umfassendere Sicht auf die Daten

Wenn im Zusammenhang mit der Datenreduktion über Daten gesprochen wird, meinen wir meistens Daten im Sinne einer einzelnen Informationseinheit im Gegensatz zur üblicherweise verwendeten Pluralform. Ein Aspekt der Datenreduktion ist zum Beispiel die Definition der tatsächlichen physischen Dimensionen einzelner Datenpunkte.

Bei der Datenreduktion wird viel mit Data Science gearbeitet. Es kann ziemlich komplex und schwierig sein, das Material prägnant zusammenzufassen. Dieses Dilemma hat sogar einen eigenen Begriff hervorgebracht: Interpretierbarkeit oder die Fähigkeit eines Menschen mit durchschnittlicher Intelligenz, ein bestimmtes Modell für maschinelles Lernen zu verstehen.

Das Erfassen der Bedeutung einiger dieser Begriffe kann eine Herausforderung darstellen, da es sich hier um Daten aus einer nahezu mikroskopischen Perspektive handelt. Wir sprechen normalerweise über Daten in ihrer „Makro“-Form, aber bei der Datenreduktion meinen wir häufig Daten im Sinne der „Mikro“-Form. Um genau zu sein, muss man bei den meisten Diskussionen zu diesem Thema sowohl die Makroebene als auch die Mikroebene betrachten.

Vorteile der Datenreduktion

Wenn ein Unternehmen die Menge seiner vorhandenen Daten reduziert, ergeben sich daraus in der Regel erhebliche finanzielle Einsparungen in Form geringerer Speicherkosten, weil weniger Speicherplatz gebraucht wird.

Methoden zur Datenreduktion bieten darüber hinaus noch weitere Vorteile, etwa eine höhere Dateneffizienz. Nach einer erfolgreichen Datenreduktion können die daraus resultierenden Daten für Methoden der künstlichen Intelligenz (KI) einfacher und auf vielfältige Weise genutzt werden, einschließlich der Anwendung anspruchsvoller Datenanalysen, die Entscheidungsfindungsaufgaben erheblich erleichtern können.

Wenn beispielsweise die Speichervirtualisierung erfolgreich eingesetzt wird, unterstützt sie die Koordination zwischen Server- und Desktopumgebungen, verbessert deren Gesamteffizienz und sorgt für höhere Zuverlässigkeit.

Beim Data Mining spielt die Datenreduktion eine wichtige Rolle. Daten müssen so sauber und so gut wie möglich aufbereitet sein, bevor sie extrahiert und für die Datenanalyse verwendet werden können.

Arten der Datenreduktion

Im Folgenden sind einige der Methoden aufgeführt, mit denen Unternehmen eine Datenreduktion durchführen können.

Reduzierung der Dimensionalität

Das gesamte Konzept baut auf dem Begriff der Daten-Dimensionalität auf. Unter Dimensionalität versteht man die Anzahl der Attribute (oder Funktionen), die einem einzelnen Datensatz zugewiesen werden. Allerdings gibt es hier einen Haken: Je höher die Dimensionalität, desto mehr Datenspeicher benötigt der jeweilige Datensatz. Außerdem kommt es mit zunehmender Dimensionalität häufiger vor, dass die Daten eher spärlich sind, was die notwendige Sonderfallanalyse erschwert.

Die Reduzierung der Dimension wirkt dem entgegen, indem sie das „Rauschen“ in den Daten begrenzt und eine bessere Visualisierung der Daten ermöglicht. Ein gutes Beispiel für die Reduzierung der Dimension ist die Wavelet-Transformationsmethode, die die Bildkomprimierung unterstützt, indem sie den relativen Abstand zwischen Objekten auf verschiedenen Auflösungsstufen beibehält.

Die Funktionsextraktion ist eine weitere mögliche Transformation für Daten. Hierbei werden die Originaldaten in numerische Funktionen umgewandelt. Dies wird in Verbindung mit maschinellem Lernen genutzt. Diese Vorgehensweise unterscheidet sich von der Hauptkomponentenanalyse (Principal Component Analysis, PCA), einer anderen Methode zur Reduzierung der Dimensionalität großer Datensätze, bei der ein großer Satz von Variablen in einen kleineren Satz umgewandelt wird, während die meisten Daten des großen Satzes erhalten bleiben.

Reduzierung der Anzahl

Bei der anderen Methode wird ein kleineres, weniger datenintensives Format zur Datendarstellung ausgewählt. Es gibt zwei Möglichkeiten zur Reduzierung der Anzahl: die auf parametrischen Methoden basierende und die auf nicht-parametrischen Methoden basierende Reduzierung. Parametrische Methoden wie die Regression konzentrieren sich auf die Modellparameter und schließen die Daten selbst aus. In ähnlicher Weise könnte ein logarithmisch-lineares Modell verwendet werden, das sich auf Teilbereiche innerhalb der Daten konzentriert. Nicht-parametrische Methoden (wie Histogramme, die die Verteilung numerischer Daten darstellen) sind hingegen überhaupt nicht auf Modelle angewiesen.

Aggregation von Datenwürfeln

Datenwürfel sind eine visuelle Möglichkeit für die Datenspeicherung. Der Begriff „Datenwürfel“ ist eigentlich in Bezug auf seine implizierte Singularität fast irreführend, denn er beschreibt eigentlich einen großen, mehrdimensionalen Würfel, der aus kleineren, organisierten Quadern besteht. Jeder der Quader stellt einen Aspekt der Gesamtdaten innerhalb dieses Datenwürfels dar, insbesondere Datenteile bezüglich Messungen und Dimensionen. Bei der Aggregation von Datenwürfeln handelt es sich daher um die Konsolidierung von Daten in ein mehrdimensionales visuelles Würfelformat, das die Datengröße reduziert, indem es ihnen einen einzigartigen, speziell für diesen Zweck erstellten Container zur Verfügung stellt.

Datendiskretisierung

Eine weitere Methode zur Datenreduktion ist die Datendiskretisierung, bei der eine lineare Menge von Datenwerten auf der Grundlage einer definierten Menge von Intervallen erstellt wird, die jeweils einem bestimmten Datenwert entsprechen.

Datenkomprimierung

Es gibt verschiedene Arten der Verschlüsselung, um die Dateigröße einzuschränken und Daten erfolgreich zu komprimieren. Grundsätzlich unterscheidet man zwischen verlustfreien und verlustbehafteten Techniken zur Datenkomprimierung und die Datenkomprimierung wird entsprechend dieser beiden Typen gruppiert. Bei der verlustfreien Komprimierung wird die Datengröße durch Kodierungsverfahren und Algorithmen reduziert und die vollständigen Originaldaten können bei Bedarf wiederhergestellt werden. Bei der verlustbehafteten Komprimierung werden dagegen andere Verfahren zur Komprimierung eingesetzt. Auch wenn es sich unter Umständen lohnt, die verarbeiteten Daten aufzubewahren, handelt es sich dabei nicht um eine exakte Kopie, wie bei der verlustfreien Komprimierung.

Datenvorverarbeitung

Einige Daten müssen vor der Datenanalyse und Datenreduktion erst bereinigt, aufbereitet und verarbeitet werden. Ein Teil dieser Transformation kann die Umwandlung der Daten aus einem analogen in ein digitales Format beinhalten. Binning ist ein weiteres Beispiel für die Vorverarbeitung von Daten. Dabei werden Medianwerte verwendet, um verschiedene Datentypen zu normalisieren und die Datenintegrität durchgängig sicherzustellen.

Weiterführende Lösungen
Nachhaltige Speicherung mit IBM FlashSystem

Mit dem Einsatz von IBM FlashSystem-Speicher profitiert nicht nur Ihr Unternehmen, sondern auch die Umwelt. Senken Sie Ihren Energieverbrauch, erzielen Sie Kosteneinsparungen und reduzieren Sie gleichzeitig die CO2-Bilanz Ihres Unternehmens.

Mehr Informationen zur nachhaltigen Speicherung mit IBM FlashSystem

IBM Spectrum Virtualize for Public Cloud

Stellen Sie sich eine Lösung vor, die die Spiegelung zwischen lokalen und Cloud-Rechenzentren oder zwischen Cloud-Rechenzentren unterstützt. IBM Spectrum Virtualize for Public Cloud hilft auch bei der Implementierung einer Notfallwiederherstellungsstrategie.

IBM Spectrum Virtualize for Public Cloud kennenlernen

IBM Storage as a Service

Holen Sie sich das Beste aus beiden Welten mit IBM Storage as a Service. Beginnen Sie mit lokaler Hardware, die von IBM bereitgestellt und verwaltet wird. Koppeln Sie diese mit einem cloudähnlichen, verbrauchsbasierten Preisgestaltungsmodell für eine flexible Kombination.

IBM Storage as a Service kennenlernen
Ressourcen IBM FlashSystem Produkttour

Erkunden Sie FlashSystems auf Basis von IBM Spectrum Virtualize Software, das symmetrische Virtualisierung verwendet.

Webinar zum Thema nachhaltige Speicherung ansehen

Sowohl die Energiekosten als auch die Daten scheinen exponentiell zu wachsen. Da Unternehmen mit dieser kostspieligen Realität zu kämpfen haben, benötigen sie energieeffiziente Speicher, auf die sie sich verlassen können.

IBM Data Reduction Estimator Tool

Das Data Reduction Estimator Tool (DRET) ist ein hostbasiertes Befehlszeilen-Dienstprogramm zum Schätzen der Einsparungen durch Datenreduktion auf Blockgeräten.

Was ist Datenkonsolidierung?

Erfahren Sie, warum sich viele Unternehmen bei der Verwaltung ihres Data Warehouse auf Tools zur Datenkonsolidierung verlassen.

Was ist Datenspeicher?

Erfahren Sie mehr über die Grundlagen der Datenspeicherung, einschließlich Speichergerätetypen und verschiedener Formate der Datenspeicherung.

Was ist Flash Speicher?

Flash-Speicherlösungen reichen von USB-Laufwerken bis hin zu Arrays auf Unternehmensebene. Erfahren Sie, wie sie funktionieren.

Machen Sie den nächsten Schritt

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden Buchen Sie eine Live-Demo