Wie funktioniert die Datendeduplizierung?

29. Januar 2024

Lesedauer: 6 Minuten

In den letzten Jahren hat die Verbreitung von Self-Storage-Einheiten explosionsartig zugenommen. Diese großen Lagereinheiten sind landesweit zu einer boomenden Branche geworden, und das aus einem einzigen Grund: Der Durchschnittsbürger besitzt heute mehr Dinge, als er zu nutzen weiß.

Die gleiche Grundsituation ist auch in der IT-Welt zu beobachten. Wir befinden uns inmitten einer Explosion von Daten. Selbst relativ einfache Alltagsgegenstände generieren nun selbstständig Daten, dank der Funktionalität des Internets der Dinge (IoT). Noch nie in der Geschichte wurden so viele Daten erstellt, gesammelt und analysiert. Und noch nie zuvor haben mehr Datenmanager mit dem Problem der Speicherung so vieler Daten zu kämpfen gehabt.

Es kann sein, dass ein Unternehmen das Problem zunächst nicht erkennt oder nicht weiß, wie groß es werden kann, und dann muss das Unternehmen eine Lösung für mehr Speicherplatz finden. Mit der Zeit könnte das Unternehmen auch aus diesem Speichersystem herauswachsen, was dann noch mehr Investitionen erfordert. Das Unternehmen wird sich dieses Spieles unweigerlich überdrüssig und nach einer günstigeren und einfacheren Option suchen – was uns zur Datendeduplizierung bringt.

Obwohl viele Unternehmen im Rahmen ihres Datenverwaltungssystems Techniken zur Datendeduplizierung (oder kurz „Deduplizierung“) einsetzen, verstehen bei weitem nicht alle, was der Deduplizierungsprozess ist und was er bewirken soll. Lassen Sie uns also die Deduplizierung entmystifizieren und erklären, wie die Datendeduplizierung funktioniert.

Was bewirkt Deduplizierung?

Lassen Sie uns zunächst eine Begriffsbestimmung vornehmen. Die Datendeduplizierung ist ein Prozess, den Unternehmen nutzen, um ihre Datenbestände zu optimieren und die Menge der zu archivierenden Daten zu reduzieren, indem redundante Datenkopien eliminiert werden.

Außerdem sollten wir darauf hinweisen, dass wir, wenn wir von redundanten Daten sprechen, eigentlich auf Dateiebene sprechen und uns auf eine unkontrollierte Vermehrung von Datendateien beziehen. Wenn wir also über Maßnahmen zur Datendeduplizierung sprechen, ist eigentlich ein System zur Dateideduplizierung erforderlich.

Was ist das Hauptziel der Deduplizierung?

Manche Menschen haben eine falsche Vorstellung von der Natur von Daten und betrachten sie als eine Ware, die einfach nur existiert, um gesammelt und geerntet zu werden – wie Äpfel von einem Baum im eigenen Garten.

Tatsache ist, dass jede neue Datei mit Daten Geld kostet. Erstens kostet es in der Regel Geld, an solche Daten zu kommen (durch den Kauf von Datenlisten). Oder es erfordert erhebliche finanzielle Investitionen, damit ein Unternehmen in der Lage ist, Daten selbst zu sammeln und zu erfassen, selbst wenn es sich um Daten handelt, die das Unternehmen selbst organisch produziert und sammelt. Datensätze sind daher eine Investition, und wie jede wertvolle Investition müssen sie rigoros geschützt werden.

In diesem Fall geht es um Datenspeicherplatz – sei es in Form von lokalen Hardwareservern oder durch Cloud-Speicher über ein cloudbasiertes Rechenzentrum –, der gekauft oder gemietet werden muss.

Duplikate von Daten, die repliziert wurden, schmälern somit das Endergebnis, indem sie zusätzliche Speicherkosten verursachen, die über die Kosten hinausgehen, die mit dem primären Speichersystem und seinem Speicherplatz verbunden sind. Kurz gesagt, es müssen mehr Speichermedien eingesetzt werden, um sowohl neue Daten als auch bereits gespeicherte Daten aufzunehmen. An einem bestimmten Punkt in der Entwicklung eines Unternehmens können doppelte Daten leicht zu einer finanziellen Belastung werden.

Zusammenfassend ist das Hauptziel der Datendeduplizierung also, Geld zu sparen, indem Unternehmen weniger für zusätzlichen Speicherplatz ausgeben müssen.

Zusätzliche Vorteile der Deduplizierung

Neben der Speicherkapazität gibt es noch weitere Gründe, warum Unternehmen Lösungen zur Datendeduplizierung einsetzen sollten – wahrscheinlich sind der Datenschutz und die Verbesserung der Datenqualität, die sie bieten, die wichtigsten. Unternehmen verfeinern und optimieren deduplizierte Daten-Workloads, damit sie effizienter laufen als Daten, die voller doppelter Dateien sind.

Ein weiterer wichtiger Aspekt der Deduplizierung ist, dass sie dazu beiträgt, eine schnelle und erfolgreiche Notfallwiederherstellung zu ermöglichen und den Datenverlust zu minimieren, der oft durch solche Ereignisse verursacht wird. Die Deduplizierung ermöglicht einen stabilen Sicherungsprozess, sodass das Sicherungssystem eines Unternehmens der Aufgabe gewachsen ist, seine Sicherungsdaten zu verarbeiten. Neben der Unterstützung bei vollständigen Backups hilft die Deduplizierung auch bei der Aufbewahrung.

Ein weiterer Vorteil der Datendeduplizierung liegt darin, wie gut sie in Verbindung mit der Bereitstellung einer virtuellen Desktop-Infrastruktur (VDI) funktioniert, da die virtuellen Festplatten hinter den Remote-Desktops der VDI identisch funktionieren. Zu den beliebten Desktop-as-a-Service (DaaS)-Produkten gehören Azure Virtual Desktop von Microsoft und dessen Windows VDI. Diese Produkte erstellen Virtual Machines (VMs), die während des Servervirtualisierungsprozesses erstellt werden. Diese Virtual Machines wiederum unterstützen die VDI-Technologie.

Deduplizierungsmethodik

Die am häufigsten verwendete Form der Datendeduplizierung ist die Block-Deduplizierung. Bei dieser Methode werden mithilfe automatisierter Funktionen Duplikate in Datenblöcken identifiziert und anschließend entfernt. Durch die Arbeit auf dieser Blockebene können Teile einzigartiger Daten analysiert und als validierungs- und bewahrungswürdig eingestuft werden. Wenn die Deduplizierungssoftware dann eine Wiederholung desselben Datenblocks entdeckt, wird diese Wiederholung entfernt und stattdessen ein Verweis auf die ursprünglichen Daten eingefügt.

Das ist die Hauptform der Deduplizierung, aber bei Weitem nicht die einzige Methode. In anderen Anwendungsfällen wird eine alternative Methode der Datendeduplizierung auf Dateiebene eingesetzt. Bei der Speicherung von Daten in einer einzigen Instanz werden vollständige Kopien von Daten innerhalb des Dateiservers verglichen, jedoch keine Datenblöcke oder -segmente. Wie bei der anderen Methode hängt die Dateideduplizierung davon ab, dass die Originaldatei im Dateisystem verbleibt und zusätzliche Kopien entfernt werden.

Beachten Sie, dass Deduplizierungstechniken nicht ganz so wie Datenkomprimierungsalgorithmen (z. B. LZ77, LZ78) funktionieren, obwohl beide das gleiche allgemeine Ziel verfolgen, nämlich Datenredundanzen zu reduzieren. Deduplizierungstechniken erreichen dies in einem größeren, makroskopischen Maßstab als Kompressionsalgorithmen, bei denen es weniger darum geht, identische Dateien durch gemeinsame Kopien zu ersetzen, sondern vielmehr darum, Datenredundanzen effizienter zu kodieren.

Arten der Datendeduplizierung

Es gibt verschiedene Arten der Datendeduplizierung, je nachdem, wann der Deduplizierungsprozess stattfindet:

  • Inline-Deduplizierung: Diese Form der Datendeduplizierung erfolgt in dem Moment – in Echtzeit –, in dem die Daten im Speichersystem fließen. Das Inline-Deduplizierungssystem verursacht weniger Datenverkehr, da doppelte Daten weder übertragen noch gespeichert werden. Dies kann zu einer Reduzierung der gesamten Bandbreite führen, die vom Unternehmen benötigt wird.
  • Deduplizierung nach der Verarbeitung: Diese Art der Deduplizierung findet statt, nachdem die Daten geschrieben und auf einem Speichermedium abgelegt wurden.

Hier ist es sinnvoll zu erklären, dass beide Arten der Datendeduplizierung von den Hash-Berechnungen betroffen sind, die der Datendeduplizierung inhärent sind. Diese kryptographischen Berechnungen sind unerlässlich, um sich wiederholende Muster in Daten zu erkennen. Bei der Inline-Deduplizierung werden diese Berechnungen in dem Moment durchgeführt, in dem sie die Computerfunktionalität dominieren und vorübergehend überfordern können. Bei der Deduplizierung nach der Verarbeitung können die Hash-Berechnungen jederzeit nach dem Hinzufügen der Daten auf eine Weise und zu einem Zeitpunkt durchgeführt werden, die die Computerressourcen des Unternehmens nicht überlasten.

Die feinen Unterschiede zwischen den Deduplizierungsarten enden hier noch nicht. Eine weitere Möglichkeit, die Deduplizierungsarten zu klassifizieren, basiert darauf, wo solche Prozesse stattfinden.

  • Quellendeduplizierung: Diese Form der Deduplizierung findet in der Nähe des Ortes statt, an dem neue Daten tatsächlich generiert werden. Das System scannt diesen Bereich und erkennt neue Dateikopien, die dann entfernt werden.
  • Zieldeduplizierung: Eine andere Art der Deduplizierung ist wie eine Umkehrung der Quelldeduplizierung. Bei der Zieldeduplizierung dedupliziert das System alle Kopien, die sich in anderen Bereichen befinden als dort, wo die Originaldaten erstellt wurden.

Da es verschiedene Arten von Deduplizierung gibt, müssen zukunftsorientierte Unternehmen sorgfältige und wohlüberlegte Entscheidungen über die Art der Deduplizierung treffen und diese Methode mit den besonderen Bedürfnissen des Unternehmens abwägen.

In vielen Anwendungsfällen hängt die Deduplizierungsmethode eines Unternehmens sehr wahrscheinlich von einer Vielzahl interner Variablen ab, wie z. B. den folgenden:

  • Wie viele und welche Art von Datensätzen werden erstellt?
  • Welches primäre Speichersystem nutzt das Unternehmen?
  • Welche virtuellen Umgebungen werden verwendet?
  • Auf welche App setzt das Unternehmen?

Aktuelle Entwicklungen bei der Datendeduplizierung

Wie bei allen Computerausgaben wird die Datendeduplizierung im Zuge ihrer Weiterentwicklung zunehmend auf künstliche Intelligenz (KI) setzen. Die Deduplizierung wird immer ausgefeilter, da sie noch mehr Nuancen entwickelt, die sie bei der Suche nach Redundanzmustern unterstützen, wenn Datenblöcke gescannt werden.

Ein neuer Trend bei der Deduplizierung ist das verstärkende Lernen. Dabei wird ein System von Belohnungen und Strafen (wie beim Verstärkungstraining) verwendet und stattdessen eine optimale Richtlinie für die Trennung oder Zusammenführung von Datensätzen angewendet.

Ein weiterer Trend, den es zu beobachten gilt, ist der Einsatz von Ensemble-Methoden, bei denen verschiedene Modelle oder Algorithmen zusammen verwendet werden, um eine noch größere Genauigkeit innerhalb des Deduplizierungsprozesses zu gewährleisten.

Das andauernde Dilemma

Die IT-Welt beschäftigt sich zunehmend mit dem anhaltenden Problem der Datenflut und was dagegen zu tun ist. Viele Unternehmen befinden sich in der misslichen Lage, dass sie einerseits alle Daten, die sie mühsam zusammengetragen haben, aufbewahren wollen, andererseits aber auch ihre überquellenden neuen Daten in jedem möglichen Speicherbehälter unterbringen wollen, und sei es nur, um sie loszuwerden.

Solange dieses Dilemma besteht, wird der Schwerpunkt auf der Deduplizierung von Daten liegen, da Unternehmen die Deduplizierung als kostengünstigere Alternative zum Kauf von mehr Speicherplatz betrachten. Denn letztendlich wissen wir zwar intuitiv, dass Unternehmen Daten benötigen, aber wir wissen auch, dass Daten sehr oft dedupliziert werden müssen.

Autor

Phill Powell

Staff Writer