Qu’est-ce que la déduplication des données ?

Le rayonnement du soleil couchant éclaire le câble en acier d’un pont

Auteurs

Phill Powell

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

Qu’est-ce que la déduplication des données ?

La déduplication des données est un processus de rationalisation dans lequel le volume des données redondantes est réduit en éliminant les copies supplémentaires des mêmes informations. L’objectif de la déduplication des données est de réduire les besoins de stockage continus d’une organisation.

Les entreprises peuvent mettre en œuvre des processus et des techniques de déduplication des données pour s’assurer qu’il n’existe qu’une unique instance de données au sein de leur système de stockage. Les données dupliquées ou redondantes sont supprimées et les utilisateurs sont dirigés vers une unique instance des données.

Lorsque la déduplication des données est efficace, elle peut améliorer l’utilisation globale du stockage d’une organisation et aider à réduire les coûts.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA  

La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Pourquoi la déduplication des données est-elle nécessaire ?

Pour commencer, pourquoi une entreprise créerait-elle des données dupliquées ? Il peut y avoir une ou plusieurs raisons valables, notamment les suivantes :

Une organisation ou l’un de ses services peut avoir besoin de réutiliser les données d’origine, de sorte que de nouvelles copies de données sont créées.
Une entreprise peut souhaiter conserver des copies dupliquées dans le cadre de son système de sauvegarde en cas de perte de données.
Une organisation peut constater qu’elle a conservé plusieurs copies des mêmes données, mais dans des formats différents.

La duplication des données s’explique tout simplement aussi par le fait qu’elle se produit souvent dans la plupart des organisations dotées de plusieurs services. La création ou recréation régulière de données est une fonction organique acceptée des méthodes de travail dans un contexte moderne. Par conséquent, la création ou la réplication des données n’est pas un problème en soi, mais la prolifération excessive des données en est un.

Si aucun surcoût n’y était associé, la prolifération des données pourrait sembler moins problématique qu’elle ne l’est. Une organisation peut choisir de stocker des données dans différents emplacements de son architecture informatique et ne pas se soucier de ces redondances.

Mais le fait est qu’une entreprise risque d’être financièrement pénalisée lorsqu’elle conserve un grand nombre de redondances de données en raison des surcoûts liés au stockage. Les organisations qui ne sont pas en mesure d’arrêter de créer des redondances de données doivent allouer plus de main-d’œuvre et de budget à la mise en œuvre de nouvelles solutions de stockage et de gestion des données, qu’elles soient basées sur l’achat de nouveaux matériels ou sur l’acquisition de stockage cloud supplémentaire.

IBM Storage FlashSystem

IBM Storage FlashSystem : optimiser VMware pour le coût, la simplicité et la résilience

Découvrez comment IBM FlashSystem optimise les environnements VMware en termes de rentabilité, de simplicité et de résilience. Cette session met en évidence la façon dont FlashSystem peut améliorer la sécurité, l’accessibilité et la performance des données, ce qui en fait une solution idéale pour les infrastructures informatiques modernes.

Découvrir IBM Storage FlashSystem

Avantages de la déduplication des données

L’avantage le plus évident des techniques de déduplication des données est que l’élimination des données superflues réduit la quantité totale de données qu’une organisation doit stocker et gérer. Ainsi, sa capacité de stockage augmente efficacement, car libérée des données qui occupent l’espace de stockage.

Outre la réduction des coûts liés au stockage, la déduplication des données offre d’autres avantages clés, tels que l’amélioration des plans de sauvegarde des données et la prise en charge des mesures d’urgence pour protéger la reprise après sinistre.

Un autre avantage tient dans le fait de revitaliser l’intégrité des données en supprimant les données « encombrantes » et en s’assurant que les données restantes ont été correctement nettoyées. Il a été démontré que les données dédupliquées fonctionnent mieux et consomment moins d’énergie.

Un autre avantage de la déduplication des données réside dans son bon fonctionnement avec les déploiements d’infrastructure de bureau virtuel (VDI), car les disques durs virtuels derrière les postes de travail distants de la VDI fonctionnent de manière identique. Parmi les produits Desktop as a Service (DaaS) les plus populaires, citons Azure Virtual Desktop, de Microsoft et son VDI Windows. Ces produits proposent des virtual machines (VM) créées au cours du processus de virtualisation des serveurs. Ces virtual machines renforcent ensuite la technologie VDI.

Comment fonctionne la déduplication des données ?

À son niveau le plus élémentaire, la déduplication des données s’opère par le biais de fonctions automatisées permettant d’identifier les doublons dans les blocs de données, puis de supprimer ces doublons. En travaillant à ce niveau de bloc, des morceaux de données uniques peuvent être analysés et indiqués comme méritant d’être préservés. Ensuite, lorsque le logiciel de déduplication détecte une répétition du même bloc de données, cette répétition est supprimée et une référence aux données d’origine est incluse à sa place.

Une autre méthode de déduplication des données consiste à opérer au niveau du fichier. Le stockage de données à instance unique compare des copies complètes des données dans le système de fichiers, mais ni les morceaux ni les blocs de données. Tout comme la méthode au niveau du bloc, la déduplication de fichiers dépend de la conservation du fichier d’origine et de la suppression des copies supplémentaires.

Les techniques de déduplication ne fonctionnent pas tout à fait de la même manière que les algorithmes de compression de données (par exemple, LZ77, LZ78), même s’il est vrai que les deux visent le même objectif général de réduction des redondances de données. Les techniques de déduplication permettent d’atteindre cet objectif à plus grande échelle que les algorithmes de compression, dont le but est moins de remplacer des fichiers identiques par des copies partagées que d’encoder efficacement les redondances de données.

Types de déduplication des données

Il existe deux types de déduplication des données de base qui dépendent du moment où les processus se produisent.

Déduplication en ligne

Cette forme de déduplication des données se produit en temps réel à mesure que les données circulent dans le système. Le trafic de données est réduit dans le système, car celui-ci ne transfère ni ne stocke de données dupliquées. Cela peut permettre de réduire la quantité totale de bande passante nécessaire à cette organisation.

Déduplication post-traitement

Ce type de déduplication a lieu une fois que les données ont été écrites et placées sur un certain type de périphérique de stockage.

Les deux types de déduplication des données sont affectés par les calculs de hachage inhérents à la déduplication des données. Ces calculs cryptographiques font partie intégrante de l’identification de modèles répétés dans les données. Lors de la déduplication en ligne, ces calculs sont effectués sur le moment, ce qui peut accaparer et submerger temporairement les fonctionnalités de l’ordinateur. Dans les déduplications post-traitement, les calculs de hachage peuvent être effectués à tout moment après l’ajout des données.

Les différences subtiles entre les types de déduplication ne s’arrêtent pas là. La deuxième façon de classer les types de déduplication se base sur l’endroit où ces processus se produisent.

Déduplication source

Cette forme de déduplication a lieu à proximité de l’endroit où les nouvelles données sont générées.Le système analyse cette zone et détecte de nouvelles copies de fichiers, qui sont ensuite supprimées.

Déduplication cible

La déduplication cible est simplement une inversion de la déduplication source. Dans la déduplication cible, le système déduplique toutes les copies qui se trouvent dans des zones autres que celles où les données d’origine ont été créées.

Différents types de méthodes de déduplication étant pratiqués, les organisations qui se tournent vers l’avenir doivent prendre des décisions prudentes et réfléchies concernant le type de déduplication qu’elles choisissent, pour trouver l’équilibre entre cette méthode et les besoins propres à l’entreprise.

Dans de nombreux cas d’utilisation, la méthode de déduplication choisie par une organisation peut très bien se résumer à diverses variables internes, telles que :

Le volume et le type de jeux de données créés
Le principal système de stockage de l’entreprise
Les environnements virtuels utilisés
Les applications utilisées par l’entreprise

Découvrez les risques cachés de votre stratégie de stockage et de sauvegarde

Bénéficiez d’une évaluation gratuite de votre cyber-résilience, réalisée par des experts, afin d’évaluer la préparation de votre infrastructure face aux pertes de données, aux ransomwares et aux incidents de récupération. Vous repartirez avec des informations exploitables et une feuille de route pour renforcer la continuité de vos activités.

Ressources

Gartner Magic Quadrant 2025 pour les plate-formes de stockage d’entreprise

IBM™ a été reconnue comme leader dans le Gartner Magic Quadrant 2025 pour les plate-formes de stockage d’entreprise. Nous pensons que cette reconnaissance souligne l’engagement d’IBM à fournir des solutions de stockage sécurisées, intelligentes et à haute performance qui permettent aux entreprises d’accélérer leur transformation numérique.

Découvrez IBM Storage FlashSystem en action avec Storage Insights

Découvrez IBM Storage Insights par vous-même. Essayez la démonstration en libre-service ou inscrivez-vous à un essai gratuit pour découvrir comment la surveillance prédictive optimise les performances de FlashSystem et permet de prendre des décisions permettant de réduire les coûts.

Maximisez les performances grâce à la technologie de stockage flash

Découvrez les différents types de mémoire flash et de stockage, et explorez la manière dont les entreprises utilisent la technologie flash pour améliorer l’efficacité, réduire la latence et pérenniser leur infrastructure de stockage de données.

Institut météorologique danois (DMI)

Le stockage intégré IBM permet à DMI de fournir gratuitement des données climatiques au monde entier. Grâce à un stockage unifié sur bande, sur disque et sur stockage flash, DMI réduit les coûts énergétiques, évolue efficacement et construit une base durable pour l'IA et l’apprentissage automatique.

Les leaders du stockage de fichiers et d’objets mis en lumière : découvrez qui est le plus performant

Gartner évalue les performances et l'évolutivité des plateformes de stockage les plus critiques pour les déploiements de clouds hybrides.

Renforcer la résilience cyber avec IBM FlashSystem

Découvrez comment IBM FlashSystem renforce la sécurité et la résilience des données, en assurant une protection contre les ransomwares et les cyberattaques grâce à des stratégies de performances et de récupération optimisées.

Groupe Mondi

Le groupe Mondi migre vers SAP S/4HANA sur les systèmes IBM Power et le stockage FlashSystem. Avec un temps de fonctionnement de 100 %, un support de croissance des données de 9 To/mois et des performances applicatives 20 % plus rapides, Mondi construit une base solide pour l'innovation axée sur la durabilité.

Optimiser les données et les workloads d’IA avec les solutions de stockage IBM

Découvrez comment relever vos défis en matière de données grâce au stockage de fichiers et d’objets hautes performances, conçu pour améliorer les processus d’IA, de machine learning et d’analyse, tout en garantissant la sécurité des données et l’évolutivité.

Solutions connexes

IBM FlashSystem

IBM FlashSystem est un portefeuille de solutions de stockage flash d’entreprise, conçu pour la performance, l’évolutivité et la protection des données.

Découvrir IBM FlashSystem

Solutions de stockage de données d’entreprise

IBM Storage est une famille de matériel de stockage de données, de stockage défini par logiciel et de logiciels de gestion du stockage.

Découvrir les solutions de stockage de données

Services de support matériel et logiciel

IBM fournit un support proactif pour les serveurs Web et l’infrastructure des centres de données afin de réduire les temps d’arrêt et d’améliorer la disponibilité informatique.

Découvrir les services de serveurs Web

Passez à l’étape suivante

De la gestion des environnements de cloud hybride au maintien de la résilience des données, les solutions de stockage IBM vous offrent un nouvel éclairage sur vos données tout en assurant une protection robuste contre les menaces.