Die Datendeduplizierung ist ein Rationalisierungsprozess, bei dem redundante Daten reduziert werden, indem zusätzliche Kopien derselben Informationen entfernt werden. Das Ziel der Datendeduplizierung besteht darin, den laufenden Speicherbedarf eines Unternehmens zu verringern.
Unternehmen können Prozesse und Techniken zur Datendeduplizierung implementieren, um sicherzustellen, dass nur eine einzige, eindeutige Dateninstanz in ihrem Speichersystem vorhanden ist. Doppelte oder redundante Daten werden entfernt und die Benutzer werden auf eine einzige Instanz der Daten verwiesen.
Eine erfolgreiche Datendeduplizierung kann die allgemeine Speicherauslastung eines Unternehmens verbessern und zur Kostensenkung beitragen.
Warum sollte ein Unternehmen überhaupt doppelte Daten erstellen? Dafür kann es einen oder mehrere triftige Gründe geben, darunter die folgenden:
Ein weiterer wichtiger Grund für die Datenduplizierung liegt ganz einfach darin, dass dies in den meisten Unternehmen mit mehreren Abteilungen häufig vorkommt. Daten werden als akzeptierte und organische Funktion der Geschäftsabwicklung in einem modernen Kontext entweder regelmäßig erstellt oder neu erstellt. Das eigentliche Problem ist also nicht die Erstellung oder Replikation, sondern die übermäßige Verbreitung von Daten.
Gäbe es keine zusätzlichen finanziellen Belastungen, die damit verbunden sind, wäre die Verbreitung von Daten vielleicht weniger problematisch als sie ist. Ein Unternehmen könnte sich dafür entscheiden, Daten an verschiedenen Orten innerhalb seiner IT-Architektur zu speichern und sich nicht um diese Redundanzen zu kümmern.
Tatsache ist jedoch, dass ein Unternehmen durch die Beibehaltung einer großen Anzahl von Datenredundanzen finanzielle Einbußen in Form von zusätzlichen Speicherkosten tragen muss. Unternehmen, die nicht aufhören können, Datenredundanzen zu schaffen, müssen mehr Arbeit und Budget für die Implementierung neuer Speicherlösungen und die Datenverwaltung bereitstellen, sei es durch die Anschaffung neuer Hardware oder zusätzlichen Cloud-Speicher.
Der offensichtlichste Vorteil von Techniken zur Datendeduplizierung besteht darin, dass die Gesamtmenge der Daten, die ein Unternehmen speichern und verwalten muss, durch das Aussortieren überflüssiger Daten verringert wird. Dadurch wird die Speicherkapazität eines Unternehmens effektiv erhöht, da weniger Daten Speicherplatz belegen.
Neben reduzierten Speicherkosten bietet die Datendeduplizierung weitere wichtige Vorteile, wie die Förderung von Daten-Backup-Plänen und die Unterstützung von Notfallmaßnahmen zur der Notfallwiederherstellung.
Ein weiteres Plus ist die Auffrischung der Datenintegrität, indem „überflüssige Daten“ entfernt werden und sichergestellt wird, dass die verbleibenden Daten ordnungsgemäß bereinigt wurden. Es hat sich gezeigt, dass deduplizierte Daten sowohl besser ausgeführt werden als auch weniger Energie verbrauchen.
Ein weiterer Vorteil der Datendeduplizierung liegt darin, wie gut sie mit der Bereitstellung einer virtuellen Desktop-Infrastruktur (VDI) funktioniert, da die virtuellen Festplatten hinter den Remote-Desktops der VDI identisch funktionieren. Zu den beliebten Desktop-as-a-Service (DaaS)-Produkten gehören Azure Virtual Desktop von Microsoft und dessen Windows VDI. Diese Produkte erstellen Virtual Machines (VMs), die während des Servervirtualisierungsprozesses erstellt werden. Diese Virtual Machines wiederum unterstützen die VDI-Technologie.
Auf der grundlegendsten Ebene funktioniert die Datendeduplizierung durch automatisierte Funktionen zur Identifizierung von Duplikaten in Datenblöcken und zur anschließenden Entfernung dieser Duplikate. Durch die Arbeit auf dieser Blockebene können Teile einzigartiger Daten analysiert und als bewahrenswert eingestuft werden. Wenn die Deduplizierungssoftware dann eine Wiederholung desselben Datenblocks entdeckt, wird diese Wiederholung entfernt und stattdessen ein Verweis auf die ursprünglichen Daten eingefügt.
Eine alternative Methode der Datendeduplizierung arbeitet auf Dateiebene. Bei der Speicherung von Daten in einer einzigen Instanz werden vollständige Kopien von Daten innerhalb des Dateisystems verglichen, jedoch keine Datenblöcke oder -abschnitte. Wie bei der anderen Methode basiert die Dateideduplizierung darauf, die Originaldatei beizubehalten und zusätzliche Kopien zu entfernen.
Deduplizierungstechniken funktionieren nicht ganz so wie Datenkomprimierungsalgorithmen (z. B. LZ77, LZ78), obwohl beide das gleiche allgemeine Ziel verfolgen, nämlich Datenredundanzen zu reduzieren. Deduplizierungstechniken erreichen dies in einem größeren, makroskopischen Maßstab als Kompressionsalgorithmen, bei denen es weniger darum geht, identische Dateien durch gemeinsame Kopien zu ersetzen, sondern vielmehr darum, Datenredundanzen effizient zu kodieren.
Es gibt zwei grundlegende Arten der Datendeduplizierung, die davon abhängen, wann die Prozesse stattfinden.
Diese Form der Datendeduplizierung erfolgt in Echtzeit, während die Daten im System zirkulieren. Das System verursacht weniger Datenverkehr, da doppelte Daten weder übertragen noch gespeichert werden. Dies kann zu einer Reduzierung der gesamten Bandbreite führen, die vom Unternehmen benötigt wird.
Diese Art der Deduplizierung findet statt, nachdem die Daten geschrieben und auf einem Speichermedium abgelegt wurden.
Beide Arten der Datendeduplizierung sind von den Hash-Berechnungen betroffen, die mit der Datendeduplizierung einhergehen. Diese kryptographischen Berechnungen sind unerlässlich, um sich wiederholende Muster in Daten zu erkennen. Bei der Inline-Deduplizierung werden diese Berechnungen in dem Moment durchgeführt, in dem sie die Computerfunktionalität dominieren und vorübergehend überfordern können. Bei Deduplizierungen nach der Verarbeitung können die Hash-Berechnungen jederzeit nach dem Hinzufügen der Daten durchgeführt werden.
Aber bei den Deduplizierungsarten gibt es noch weitere Unterschiede. Eine zweite Möglichkeit, die Deduplizierungsarten zu klassifizieren, basiert darauf,wo solche Prozesse stattfinden.
Diese Form der Deduplizierung findet in der Nähe des Ortes statt, an dem neue Daten generiert werden. Das System scannt diesen Bereich und erkennt neue Dateikopien, die dann entfernt werden.
Die Zieldeduplizierung ist im Prinzip eine Umkehrung der Quelldeduplizierung. Bei der Zieldeduplizierung dedupliziert das System alle Kopien, die sich in anderen Bereichen befinden als dort, wo die Originaldaten erstellt wurden.
Da es verschiedene Arten von Deduplizierungsmethoden gibt, müssen zukunftsorientierte Unternehmen sorgfältige und wohlüberlegte Entscheidungen über die Art der Deduplizierung treffen, die sie wählen, und diese Methode mit den besonderen Anforderungen des Unternehmens abwägen.
In vielen Anwendungsfällen hängt die Wahl der Deduplizierungsmethode eines Unternehmens von verschiedenen internen Variablen ab, wie z. B. den folgenden:
IBM Storage DS8000 ist das schnellste, zuverlässigste und sicherste Speichersystem für IBM zSystems und IBM Power Server.
IBM Storage bezeichnet eine Produktfamilie aus Datenspeicher-Hardware, softwaredefiniertem Speicher und Speicherverwaltungssoftware.
IBM bietet proaktiven Support für Webserver und Rechenzentrumsinfrastruktur, um Ausfallzeiten zu reduzieren und die IT-Verfügbarkeit zu verbessern.