Was ist Datendeduplizierung?

Das Licht des Sonnenuntergangs beleuchtet das Stahlkabel der Brücke

Autoren

Phill Powell

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

Was ist Datendeduplizierung?

Die Datendeduplizierung ist ein Rationalisierungsprozess, bei dem redundante Daten reduziert werden, indem zusätzliche Kopien derselben Informationen entfernt werden. Das Ziel der Datendeduplizierung besteht darin, den laufenden Speicherbedarf eines Unternehmens zu verringern.

Unternehmen können Prozesse und Techniken zur Datendeduplizierung implementieren, um sicherzustellen, dass nur eine einzige, eindeutige Dateninstanz in ihrem Speichersystem vorhanden ist. Doppelte oder redundante Daten werden entfernt und die Benutzer werden auf eine einzige Instanz der Daten verwiesen.

Eine erfolgreiche Datendeduplizierung kann die allgemeine Speicherauslastung eines Unternehmens verbessern und zur Kostensenkung beitragen.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Warum ist Datendeduplizierung erforderlich?

Warum sollte ein Unternehmen überhaupt doppelte Daten erstellen? Dafür kann es einen oder mehrere triftige Gründe geben, darunter die folgenden: 

  • Es kann vorkommen, dass ein Unternehmen oder eine seiner Abteilungen die ursprünglichen Daten wiederverwenden möchte, sodass neue Datenkopien erstellt werden.
  • Ein Unternehmen möchte vielleicht Duplikate als Teil seines Backup-Systems für den Fall eines Datenverlusts aufbewahren.
  • Ein Unternehmen könnte feststellen, dass es mehrere Kopien derselben Daten aufbewahrt, diese jedoch in unterschiedlichen Formaten gespeichert hat.

Ein weiterer wichtiger Grund für die Datenduplizierung liegt ganz einfach darin, dass dies in den meisten Unternehmen mit mehreren Abteilungen häufig vorkommt. Daten werden als akzeptierte und organische Funktion der Geschäftsabwicklung in einem modernen Kontext entweder regelmäßig erstellt oder neu erstellt. Das eigentliche Problem ist also nicht die Erstellung oder Replikation, sondern die übermäßige Verbreitung von Daten.

Gäbe es keine zusätzlichen finanziellen Belastungen, die damit verbunden sind, wäre die Verbreitung von Daten vielleicht weniger problematisch als sie ist. Ein Unternehmen könnte sich dafür entscheiden, Daten an verschiedenen Orten innerhalb seiner IT-Architektur zu speichern und sich nicht um diese Redundanzen zu kümmern.

Tatsache ist jedoch, dass ein Unternehmen durch die Beibehaltung einer großen Anzahl von Datenredundanzen finanzielle Einbußen in Form von zusätzlichen Speicherkosten tragen muss. Unternehmen, die nicht aufhören können, Datenredundanzen zu schaffen, müssen mehr Arbeit und Budget für die Implementierung neuer Speicherlösungen und die Datenverwaltung bereitstellen, sei es durch die Anschaffung neuer Hardware oder zusätzlichen Cloud-Speicher.

IBM Storage FlashSystem

IBM Storage FlashSystem: Optimierung von VMware für Kosten, Einfachheit und Ausfallsicherheit

Erfahren Sie, wie IBM FlashSystem VMware-Umgebungen für Kosteneffizienz, Einfachheit und Ausfallsicherheit optimiert. In dieser Sitzung erfahren Sie, wie FlashSystem die Datensicherheit, den Zugriff und die Leistung von Daten verbessern kann, was es zu einer idealen Lösung für moderne IT-Infrastrukturen macht.

Vorteile der Datendeduplizierung

Der offensichtlichste Vorteil von Techniken zur Datendeduplizierung besteht darin, dass die Gesamtmenge der Daten, die ein Unternehmen speichern und verwalten muss, durch das Aussortieren überflüssiger Daten verringert wird. Dadurch wird die Speicherkapazität eines Unternehmens effektiv erhöht, da weniger Daten Speicherplatz belegen.

Neben reduzierten Speicherkosten bietet die Datendeduplizierung weitere wichtige Vorteile, wie die Förderung von Daten-Backup-Plänen und die Unterstützung von Notfallmaßnahmen zur der Notfallwiederherstellung.

Ein weiteres Plus ist die Auffrischung der Datenintegrität, indem „überflüssige Daten“ entfernt werden und sichergestellt wird, dass die verbleibenden Daten ordnungsgemäß bereinigt wurden. Es hat sich gezeigt, dass deduplizierte Daten sowohl besser ausgeführt werden als auch weniger Energie verbrauchen.

Ein weiterer Vorteil der Datendeduplizierung liegt darin, wie gut sie mit der Bereitstellung einer virtuellen Desktop-Infrastruktur (VDI) funktioniert, da die virtuellen Festplatten hinter den Remote-Desktops der VDI identisch funktionieren. Zu den beliebten Desktop-as-a-Service (DaaS)-Produkten gehören Azure Virtual Desktop von Microsoft und dessen Windows VDI. Diese Produkte erstellen Virtual Machines (VMs), die während des Servervirtualisierungsprozesses erstellt werden. Diese Virtual Machines wiederum unterstützen die VDI-Technologie.

Wie funktioniert die Datendeduplizierung?

Auf der grundlegendsten Ebene funktioniert die Datendeduplizierung durch automatisierte Funktionen zur Identifizierung von Duplikaten in Datenblöcken und zur anschließenden Entfernung dieser Duplikate. Durch die Arbeit auf dieser Blockebene können Teile einzigartiger Daten analysiert und als bewahrenswert eingestuft werden. Wenn die Deduplizierungssoftware dann eine Wiederholung desselben Datenblocks entdeckt, wird diese Wiederholung entfernt und stattdessen ein Verweis auf die ursprünglichen Daten eingefügt.

Eine alternative Methode der Datendeduplizierung arbeitet auf Dateiebene. Bei der Speicherung von Daten in einer einzigen Instanz werden vollständige Kopien von Daten innerhalb des Dateisystems verglichen, jedoch keine Datenblöcke oder -abschnitte. Wie bei der anderen Methode basiert die Dateideduplizierung darauf, die Originaldatei beizubehalten und zusätzliche Kopien zu entfernen.

Deduplizierungstechniken funktionieren nicht ganz so wie Datenkomprimierungsalgorithmen (z. B. LZ77, LZ78), obwohl beide das gleiche allgemeine Ziel verfolgen, nämlich Datenredundanzen zu reduzieren. Deduplizierungstechniken erreichen dies in einem größeren, makroskopischen Maßstab als Kompressionsalgorithmen, bei denen es weniger darum geht, identische Dateien durch gemeinsame Kopien zu ersetzen, sondern vielmehr darum, Datenredundanzen effizient zu kodieren.

Arten der Datendeduplizierung

Es gibt zwei grundlegende Arten der Datendeduplizierung, die davon abhängen, wann die Prozesse stattfinden.

Inline-Deduplizierung

Diese Form der Datendeduplizierung erfolgt in Echtzeit, während die Daten im System zirkulieren. Das System verursacht weniger Datenverkehr, da doppelte Daten weder übertragen noch gespeichert werden. Dies kann zu einer Reduzierung der gesamten Bandbreite führen, die vom Unternehmen benötigt wird.

Deduplizierung nach der Verarbeitung

Diese Art der Deduplizierung findet statt, nachdem die Daten geschrieben und auf einem Speichermedium abgelegt wurden.

Beide Arten der Datendeduplizierung sind von den Hash-Berechnungen betroffen, die mit der Datendeduplizierung einhergehen. Diese kryptographischen Berechnungen sind unerlässlich, um sich wiederholende Muster in Daten zu erkennen. Bei der Inline-Deduplizierung werden diese Berechnungen in dem Moment durchgeführt, in dem sie die Computerfunktionalität dominieren und vorübergehend überfordern können. Bei Deduplizierungen nach der Verarbeitung können die Hash-Berechnungen jederzeit nach dem Hinzufügen der Daten durchgeführt werden.

Aber bei den Deduplizierungsarten gibt es noch weitere Unterschiede. Eine zweite Möglichkeit, die Deduplizierungsarten zu klassifizieren, basiert darauf,wo solche Prozesse stattfinden.

Quelldeduplizierung

Diese Form der Deduplizierung findet in der Nähe des Ortes statt, an dem neue Daten generiert werden. Das System scannt diesen Bereich und erkennt neue Dateikopien, die dann entfernt werden.

Zieldeduplizierung

Die Zieldeduplizierung ist im Prinzip eine Umkehrung der Quelldeduplizierung. Bei der Zieldeduplizierung dedupliziert das System alle Kopien, die sich in anderen Bereichen befinden als dort, wo die Originaldaten erstellt wurden.

Da es verschiedene Arten von Deduplizierungsmethoden gibt, müssen zukunftsorientierte Unternehmen sorgfältige und wohlüberlegte Entscheidungen über die Art der Deduplizierung treffen, die sie wählen, und diese Methode mit den besonderen Anforderungen des Unternehmens abwägen.

In vielen Anwendungsfällen hängt die Wahl der Deduplizierungsmethode eines Unternehmens von verschiedenen internen Variablen ab, wie z. B. den folgenden:

  • Wie viele und welche Art von Datensätzen werden erstellt?
  • Welches primäre Speichersystem nutzt das Unternehmen?
  • Welche virtuellen Umgebungen werden verwendet?
  • Auf welche Apps setzt das Unternehmen?
Weiterführende Lösungen
IBM Storage DS8000

IBM Storage DS8000 ist das schnellste, zuverlässigste und sicherste Speichersystem für IBM zSystems und IBM Power Server.

Storage DS8000 erkunden
Unternehmenslösungen für die Datenspeicherung

IBM Storage bezeichnet eine Produktfamilie aus Datenspeicher-Hardware, softwaredefiniertem Speicher und Speicherverwaltungssoftware.

Datenspeicherlösungen erkunden
Hardware- und Software-Supportdienste  

IBM bietet proaktiven Support für Webserver und Rechenzentrumsinfrastruktur, um Ausfallzeiten zu reduzieren und die IT-Verfügbarkeit zu verbessern.

Webserver-Services
Machen Sie den nächsten Schritt

Egal, ob Sie Hybrid-Cloud-Umgebungen verwalten oder die Datenresilienz gewährleisten möchten: Mit den IBM Storage-Lösungen erschließen Sie neue Erkenntnisse anhand Ihrer Daten und sind gleichzeitig zuverlässig vor Bedrohungen geschützt.

Datenspeicherlösungen erkunden Produkttour starten