Was ist Datendeduplizierung?

Veröffentlicht: 3. Januar 2024
Mitwirkende: Phill Powell, Ian Smalley

Die Datendeduplizierung ist ein Rationalisierungsprozess, bei dem redundante Daten reduziert werden, indem zusätzliche Kopien derselben Informationen entfernt werden. Das Ziel der Datendeduplizierung besteht darin, den laufenden Speicherbedarf eines Unternehmens zu verringern.

Unternehmen können Prozesse und Techniken zur Datendeduplizierung implementieren, um sicherzustellen, dass nur eine einzige, eindeutige Dateninstanz in ihrem Speichersystem vorhanden ist. Doppelte oder redundante Daten werden entfernt und die Benutzer werden auf eine einzige Instanz der Daten verwiesen.

Eine erfolgreiche Datendeduplizierung kann die allgemeine Speicherauslastung eines Unternehmens verbessern und zur Kostensenkung beitragen.

Entmystifizierung von Daten mit KI auf IBM Z

Erfahren Sie, welche typischen Kundenprobleme durch KI gelöst werden können, welche Funktionen heute verfügbar sind und warum IBM Z die ideale KI-Plattform ist.

Ähnliche Inhalte

Registrieren Sie sich für das E-Book, um Ihre Apps schneller zu modernisieren

Warum ist Datendeduplizierung erforderlich?

Warum sollte ein Unternehmen überhaupt doppelte Daten erstellen? Dafür kann es einen oder mehrere triftige Gründe geben, darunter die folgenden:

Es kann vorkommen, dass ein Unternehmen oder eine seiner Abteilungen die ursprünglichen Daten wiederverwenden möchte, sodass neue Datenkopien erstellt werden.
Ein Unternehmen möchte vielleicht Duplikate als Teil seines Backup-Systems für den Fall eines Datenverlusts aufbewahren.
Ein Unternehmen könnte feststellen, dass es mehrere Kopien derselben Daten aufbewahrt, diese jedoch in unterschiedlichen Formaten gespeichert hat.

Ein weiterer wichtiger Grund für die Datenduplizierung liegt ganz einfach darin, dass dies in den meisten Unternehmen mit mehreren Abteilungen häufig vorkommt. Daten werden als akzeptierte und organische Funktion der Geschäftsabwicklung in einem modernen Kontext entweder regelmäßig erstellt oder neu erstellt. Das eigentliche Problem ist also nicht die Erstellung oder Replikation, sondern die übermäßige Vermehrung von Daten.

Gäbe es keine zusätzlichen finanziellen Belastungen, die damit verbunden sind, wäre die Verbreitung von Daten vielleicht weniger problematisch als sie ist. Ein Unternehmen könnte sich dafür entscheiden, Daten an verschiedenen Orten innerhalb seiner IT-Architektur zu speichern und sich nicht um diese Redundanzen zu kümmern.

Tatsache ist jedoch, dass ein Unternehmen durch die Aufrechterhaltung einer großen Anzahl von Datenredundanzen finanzielle Einbußen in Form von zusätzlichen Speicherkosten tragen muss. Unternehmen, die nicht aufhören können, Datenredundanzen zu schaffen, müssen mehr Arbeit und Budget für die Implementierung neuer Speicherlösungen und die Datenverwaltung bereitstellen, sei es durch die Anschaffung neuer Hardware oder zusätzlichen Cloud-Speicher.

Vorteile der Datendeduplizierung

Der offensichtlichste Vorteil von Techniken zur Datendeduplizierung besteht darin, dass die Gesamtmenge der Daten, die ein Unternehmen speichern und verwalten muss, durch das Aussortieren überflüssiger Daten verringert wird. Dadurch wird die Speicherkapazität eines Unternehmens effektiv erhöht, da weniger Daten den Speicherplatz belegen.

Neben reduzierten Speicherkosten bietet die Datendeduplizierung weitere wichtige Vorteile, wie die Förderung von Daten-Backup-Plänen und die Unterstützung von Notfallmaßnahmen zur Absicherung der Notfallwiederherstellung.

Ein weiteres Plus ist die Auffrischung der Datenintegrität, indem „überflüssige Daten“ entfernt und sichergestellt wird, dass die verbleibenden Daten ordnungsgemäß bereinigt wurden. Es hat sich gezeigt, dass deduplizierte Daten sowohl besser ausgeführt werden als auch weniger Energie verbrauchen.

Ein weiterer Vorteil der Datendeduplizierung liegt darin, wie gut sie mit der Bereitstellung einer virtuellen Desktop-Infrastruktur (VDI) funktioniert, da die virtuellen Festplatten hinter den Remote-Desktops der VDI identisch funktionieren. Zu den beliebten Desktop-as-a-Service (DaaS)-Produkten gehören Azure Virtual Desktop von Microsoft und dessen Windows VDI. Diese Produkte erstellen Virtual Machines (VMs), die während des Servervirtualisierungsprozesses erstellt werden. Diese Virtual Machines wiederum unterstützen die VDI-Technologie.

Wie funktioniert die Datendeduplizierung?

Auf der grundlegendsten Ebene funktioniert die Datendeduplizierung durch automatisierte Funktionen zur Identifizierung von Duplikaten in Datenblöcken und zur anschließenden Entfernung dieser Duplikate. Durch die Arbeit auf dieser Blockebene können Teile einzigartiger Daten analysiert und als bewahrenswert eingestuft werden. Wenn die Deduplizierungssoftware dann eine Wiederholung desselben Datenblocks entdeckt, wird diese Wiederholung entfernt und stattdessen ein Verweis auf die ursprünglichen Daten eingefügt.

Eine alternative Methode der Datendeduplizierung arbeitet auf Dateiebene. Bei der Speicherung von Daten in einer einzigen Instanz werden vollständige Kopien von Daten innerhalb des Dateisystems verglichen, jedoch keine Datenblöcke oder -abschnitte. Wie bei der alternativen Methode basiert die Dateideduplizierung darauf, die Originaldatei beizubehalten und zusätzliche Kopien zu entfernen.

Deduplizierungstechniken funktionieren nicht ganz so wie Datenkomprimierungsalgorithmen (z. B. LZ77, LZ78), obwohl beide das gleiche allgemeine Ziel verfolgen, nämlich Datenredundanzen zu reduzieren. Deduplizierungstechniken erreichen dies in einem größeren, makroskopischen Maßstab als Kompressionsalgorithmen, bei denen es weniger darum geht, identische Dateien durch gemeinsame Kopien zu ersetzen, sondern vielmehr darum, Datenredundanzen effizient zu kodieren.

Arten der Datendeduplizierung

Es gibt zwei grundlegende Arten der Datendeduplizierung, die davon abhängen, wann die Prozesse stattfinden.

Inline-Deduplizierung

Diese Form der Datendeduplizierung erfolgt in Echtzeit, während die Daten im System zirkulieren. Das System verursacht weniger Datenverkehr, da doppelte Daten weder übertragen noch gespeichert werden. Dies kann zu einer Reduzierung der gesamten Bandbreite führen, die vom Unternehmen benötigt wird.

Deduplizierung nach der Verarbeitung

Diese Art der Deduplizierung findet statt, nachdem die Daten geschrieben und auf einem Speichermedium abgelegt wurden.

Beide Arten der Datendeduplizierung sind von den Hash-Berechnungen betroffen, die mit der Datendeduplizierung einhergehen. Diese kryptographischen Berechnungen sind unerlässlich, um sich wiederholende Muster in Daten zu erkennen. Bei der Inline-Deduplizierung werden diese Berechnungen in dem Moment durchgeführt, in dem sie die Computerfunktionalität dominieren und vorübergehend überfordern können. Bei Deduplizierungen nach der Verarbeitung können die Hash-Berechnungen jederzeit nach dem Hinzufügen der Daten durchgeführt werden.

Die feinen Unterschiede zwischen den Deduplizierungsarten enden hier noch nicht. Eine zweite Möglichkeit, die Deduplizierungsarten zu klassifizieren, basiert darauf, wo solche Prozesse stattfinden.

Quelldeduplizierung

Diese Form der Deduplizierung findet in der Nähe des Ortes statt, an dem neue Daten generiert werden. Das System scannt diesen Bereich und erkennt neue Dateikopien, die dann entfernt werden.

Zieldeduplizierung

Die Zieldeduplizierung ist grundsätzlich eine Umkehrung der Quelldeduplizierung. Bei der Zieldeduplizierung dedupliziert das System alle Kopien, die sich in anderen Bereichen befinden als dort, wo die Originaldaten erstellt wurden.

Da es verschiedene Arten von Deduplizierungsmethoden gibt, müssen zukunftsorientierte Unternehmen sorgfältige und wohlüberlegte Entscheidungen über die Art der Deduplizierung treffen, die sie wählen, und diese Methode mit den besonderen Anforderungen des Unternehmens abwägen.

In vielen Anwendungsfällen hängt die Wahl der Deduplizierungsmethode eines Unternehmens von verschiedenen internen Variablen ab, wie z. B. den folgenden:

Wie viele und welche Art von Datensätzen werden erstellt?
Welches primäre Speichersystem nutzt das Unternehmen?
Welche virtuellen Umgebungen werden verwendet?
Auf welche App setzt das Unternehmen?

Weiterführende Lösungen

IBM® Storage FlashSystem

Minimieren Sie das Potenzial für Betriebsunterbrechungen und isolieren Sie Workloads vor Ransomware-Angriffen und anderen Cyber-Bedrohungen. Erhöhen Sie die Geschwindigkeit Ihrer Cyber-Resilienz, damit Ihr Unternehmen weniger Verluste erleidet und schneller zum normalen Betrieb zurückkehren kann.

IBM Storage FlashSystem entdecken

IBM Storage Protect

Bringen Sie mehr Leistung in die Datensicherung und -wiederherstellung mit IBM Storage Protect. Diese Software erhöht die Ausfallsicherheit von physischen Dateiservern und bietet zusätzliche Effizienz und eine skalierbare Lösung für die Verwaltung von Milliarden von Objekten pro Backup-Server.

IBM Storage Protect erkunden

IBM Storage as a Service

Senken Sie die Kosten für die Speicherinfrastruktur mit einer Lösung für die On-Premises-Datenspeicherung. Sie bringen die Daten mit – IBM liefert das Speichersystem. Das FlashSystem und die IBM DS8900F Hardware bieten Ihnen ein flexibles, verbrauchsbasiertes STaaS-Modell, das wie eine Cloud funktioniert.

Erkunden Sie IBM Storage als System

Ressourcen

Was ist Datenspeicher?

Erkunden Sie die Grundlagen der Datenspeicherung, einschließlich Speichergerätetypen und verschiedener Formate der Datenspeicherung.

Was ist Datenmigration?

Verschaffen Sie sich einen besseren Überblick darüber, wie Daten von einem Speichersystem oder einer Computerumgebung in eine andere fließen.

Was ist Datenarchitektur?

Erfahren Sie, warum eine erfolgreiche Datenverwaltung mit einer soliden Blaupause in Form einer Datenarchitektur beginnt.

Was ist Datensicherheit?

Es gibt kein dringlicheres Thema in der Computer- und Geschäftswelt. Informieren Sie sich über die Grundlagen des Datenschutzes.

Machen Sie den nächsten Schritt

Vereinfachen Sie das Daten- und Infrastrukturmanagement mit IBM Storage FlashSystem, einer hochleistungsfähigen All-Flash-Speicherlösung, die die Verwaltung und den Betrieb in On-Premises-, Hybrid Cloud-, virtualisierten und Container-Umgebungen optimiert.

FlashSystem-Speicher entdecken

Mehr erfahren