Qu’est-ce que la déduplication des données ?
Dédupliquer vos données avec les solutions IBM Abonnez-vous à la newsletter d’IBM
Points bleus abstraits

Publication : 3 janvier 2024
Contributeurs : Phill Powell, Ian Smalley

Qu’est-ce que la déduplication des données ?

La déduplication des données est un processus de rationalisation dans lequel le volume des données redondantes est réduit en éliminant les copies supplémentaires des mêmes informations. L’objectif de la déduplication des données est de réduire les besoins de stockage continus d’une organisation.

Les entreprises peuvent mettre en œuvre des processus et des techniques de déduplication des données pour s’assurer qu’il n’existe qu’une unique instance de données au sein de leur système de stockage. Les données dupliquées ou redondantes sont supprimées et les utilisateurs sont dirigés vers une unique instance des données.

Lorsque la déduplication des données est efficace, elle peut améliorer l’utilisation globale du stockage d’une organisation et aider à réduire les coûts.

Démystifier les données grâce à l’IA sur IBM Z

Découvrez les problèmes courants des clients qui peuvent être résolus par l’IA, les capacités disponibles dès aujourd’hui et pourquoi IBM Z est la plateforme d’IA idéale.

Contenu connexe

Obtenir l’eBook pour moderniser vos applications plus rapidement

Pourquoi la déduplication des données est-elle nécessaire ?

Pour commencer, pourquoi une entreprise créerait-elle des données dupliquées ? Il peut y avoir une ou plusieurs raisons valables, notamment les suivantes :

  • Une organisation ou l’un de ses services peut avoir besoin de réutiliser les données d’origine, de sorte que de nouvelles copies de données sont créées.
  • Une entreprise peut souhaiter conserver des copies dupliquées dans le cadre de son système de sauvegarde en cas de perte de données.
  • Une organisation peut constater qu’elle a conservé plusieurs copies des mêmes données, mais dans des formats différents.

La duplication des données s’explique tout simplement aussi par le fait qu’elle se produit souvent dans la plupart des organisations dotées de plusieurs services. La création ou recréation régulière de données est une fonction organique acceptée des méthodes de travail dans un contexte moderne. Par conséquent, la création ou la réplication des données n’est pas un problème en soi, mais la prolifération excessive des données en est un.

Si aucun surcoût n’y était associé, la prolifération des données pourrait sembler moins problématique qu’elle ne l’est. Une organisation peut choisir de stocker des données dans différents emplacements de son architecture informatique et ne pas se soucier de ces redondances.

Mais le fait est qu’une entreprise risque d’être financièrement pénalisée lorsqu’elle conserve un grand nombre de redondances de données en raison des surcoûts liés au stockage. Les organisations qui ne sont pas en mesure d’arrêter de créer des redondances de données doivent allouer plus de main-d’œuvre et de budget à la mise en œuvre de nouvelles solutions de stockage et de gestion des données, qu’elles soient basées sur l’achat de nouveaux matériels ou sur l’acquisition de stockage cloud supplémentaire.

Avantages de la déduplication des données

L’avantage le plus évident des techniques de déduplication des données est que l’élimination des données superflues réduit la quantité totale de données qu’une organisation doit stocker et gérer. Ainsi, sa capacité de stockage augmente efficacement, car libérée des données qui occupent l’espace de stockage.

Outre la réduction des coûts liés au stockage, la déduplication des données offre d’autres avantages clés, tels que l’amélioration des plans de sauvegarde des données et la prise en charge des mesures d’urgence pour protéger la reprise après incident.

Un autre avantage tient dans le fait de revitaliser l’intégrité des données en supprimant les données « encombrantes » et en s’assurant que les données restantes ont été correctement nettoyées. Il a été démontré que les données dédupliquées fonctionnent mieux et consomment moins d’énergie.

Un autre avantage de la déduplication des données réside dans son bon fonctionnement avec les déploiements d’infrastructure de bureau virtuel (VDI), car les disques durs virtuels derrière les postes de travail distants de la VDI fonctionnent de manière identique. Parmi les produits Desktop as a Service (DaaS) les plus populaires, citons Azure Virtual Desktop, de Microsoft et son VDI Windows. Ces produits proposent des machines virtuelles (VM) créées au cours du processus de virtualisation des serveurs. Ces machines virtuelles renforcent ensuite la technologie VDI.

Comment fonctionne la déduplication des données ?

À son niveau le plus élémentaire, la déduplication des données s’opère par le biais de fonctions automatisées permettant d’identifier les doublons dans les blocs de données, puis de supprimer ces doublons. En travaillant à ce niveau de bloc, des morceaux de données uniques peuvent être analysés et indiqués comme méritant d’être préservés. Ensuite, lorsque le logiciel de déduplication détecte une répétition du même bloc de données, cette répétition est supprimée et une référence aux données d’origine est incluse à sa place.

Une autre méthode de déduplication des données consiste à opérer au niveau du fichier. Le stockage de données à instance unique compare des copies complètes des données dans le système de fichiers, mais ni les morceaux ni les blocs de données. Tout comme la méthode au niveau du bloc, la déduplication de fichiers dépend de la conservation du fichier d’origine et de la suppression des copies supplémentaires.

Les techniques de déduplication ne fonctionnent pas tout à fait de la même manière que les algorithmes de compression de données (par exemple, LZ77, LZ78), même s’il est vrai que les deux visent le même objectif général de réduction des redondances de données. Les techniques de déduplication permettent d’atteindre cet objectif à plus grande échelle que les algorithmes de compression, dont le but est moins de remplacer des fichiers identiques par des copies partagées que d’encoder efficacement les redondances de données.

Types de déduplication des données

Il existe deux types de déduplication des données de base qui dépendent du moment où les processus se produisent.

Déduplication en ligne

Cette forme de déduplication des données se produit en temps réel à mesure que les données circulent dans le système. Le trafic de données est réduit dans le système, car celui-ci ne transfère ni ne stocke de données dupliquées. Cela peut permettre de réduire la quantité totale de bande passante nécessaire à cette organisation.

Déduplication post-traitement

Ce type de déduplication a lieu une fois que les données ont été écrites et placées sur un certain type de périphérique de stockage.

Les deux types de déduplication des données sont affectés par les calculs de hachage inhérents à la déduplication des données. Ces calculs cryptographiques font partie intégrante de l’identification de modèles répétés dans les données. Lors de la déduplication en ligne, ces calculs sont effectués sur le moment, ce qui peut accaparer et submerger temporairement les fonctionnalités de l’ordinateur. Dans les déduplications post-traitement, les calculs de hachage peuvent être effectués à tout moment après l’ajout des données.

Les différences subtiles entre les types de déduplication ne s’arrêtent pas là. La deuxième façon de classer les types de déduplication se base sur l’endroit où ces processus se produisent.

Déduplication source

Cette forme de déduplication a lieu à proximité de l’endroit où les nouvelles données sont générées. Le système analyse cette zone et détecte de nouvelles copies de fichiers, qui sont ensuite supprimées.

Déduplication cible

La déduplication cible est simplement une inversion de la déduplication source. Dans la déduplication cible, le système déduplique toutes les copies qui se trouvent dans des zones autres que celles où les données d’origine ont été créées.

Différents types de méthodes de déduplication étant pratiqués, les organisations qui se tournent vers l’avenir doivent prendre des décisions prudentes et réfléchies concernant le type de déduplication qu’elles choisissent, pour trouver l’équilibre entre cette méthode et les besoins propres à l’entreprise.

Dans de nombreux cas d’utilisation, la méthode de déduplication choisie par une organisation peut très bien se résumer à diverses variables internes, telles que :

  • Le volume et le type d’ensembles de données créés ;
  • Le système de stockage primaire de l’organisation ;
  • Les environnements virtuels utilisés ;
  • Les applications utilisées par l’entreprise.
Solutions connexes
IBM Storage FlashSystem

Réduisez le risque de perturbations opérationnelles et isolez les workloads pour les protéger des attaques de ransomware et d’autres cybermenaces. Accélérez votre posture de cyber-résilience pour permettre à votre entreprise de subir moins de pertes et de reprendre plus rapidement ses activités.

Découvrir IBM Storage FlashSystem

IBM Storage Protect

Décuplez la puissance de la sauvegarde et de la restauration des données avec IBM Storage Protect. Découvrez un logiciel qui améliore la résilience des données des serveurs de fichiers physiques, offrant une plus grande efficacité et une solution évolutive pour la gouvernance de milliards d’objets par serveur de sauvegarde.

Découvrir IBM Storage Protect

IBM Storage as a Service

Réduisez les coûts d’infrastructure de stockage grâce à une solution de stockage de données sur site. Vous fournissez les données, IBM fournit le système de stockage. Les serveurs FlashSystem et IBM DS8900F vous offrent un modèle STaaS plus flexible, basé sur la consommation, qui fonctionne comme un cloud.

Découvrir IBM Storage en tant que système
Ressources Qu'est-ce que le stockage de données ?

Découvrez le b.a.-ba du stockage des données, notamment les différents types de périphériques et de formats proposés.

Qu’est-ce que la migration des données ?

Découvrez comment les données circulent entre les différents systèmes de stockage et environnements informatiques.

Qu’est-ce qu’une architecture de données ?

Découvrez pourquoi une bonne gestion des données commence par un schéma directeur solide sous la forme d’une architecture de données.

Qu’est-ce que la sécurité des données ?

Il n’y a pas de sujet plus urgent dans l’informatique ou le monde professionnel. Découvrez les principes de base de la protection des données.

Passez à l’étape suivante

Simplifiez la gestion des données et de l’infrastructure avec IBM Storage FlashSystem, une solution de stockage 100 % flash hautes performances qui rationalise l’administration et la complexité opérationnelle dans les environnements sur site, cloud hybride, virtualisés et conteneurisés.

    Découvrir le stockage FlashSystem Visite guidée