Comment fonctionne la déduplication des données ?

29 janvier 2024

6 minutes de lecture

Ces dernières années ont été marquées par une prolifération explosive des unités de self-stockage. Ces grands entrepôts ont vu le jour à l'échelle nationale et constituent un secteur en plein essor pour une raison bien précise : l'individu moyen possède aujourd'hui plus de biens qu'il ne sait qu'en faire.

Le monde de l'informatique connaît une situation similaire : nous faisons face à une explosion de données. Même les objets du quotidien, apparemment simples, génèrent régulièrement des données grâce aux fonctionnalités de l'Internet des objets (IdO). Jamais dans l’histoire autant de données n’ont été créées, collectées et analysées, et jamais autant de gestionnaires n’ont été confrontés au défi de leur stockage. Et jamais autant de gestionnaires de données n'ont été confrontés au problème du stockage d'une telle quantité de données.

Une entreprise peut ne pas prendre la mesure de l'ampleur du problème au début, mais finira par devoir trouver des solutions de stockage supplémentaires. À mesure que l’entreprise grandit, elle peut se retrouver dépassée par son système de stockage, nécessitant ainsi de nouveaux investissements. Inévitablement, l’entreprise se lassera de cette course et cherchera une option plus économique et simplifiée, ce qui nous amène à la déduplication des données.

Bien que de nombreuses organisations aient recours à la déduplication dans le cadre de leur gestion des données, peu d'entre elles comprennent véritablement en quoi consiste ce processus et ce qu'il vise à accomplir. Démystifions donc la déduplication et voyons comment elle fonctionne. Démystifions donc la déduplication et expliquons le fonctionnement de la déduplication des données.

Que fait la déduplication ?

Pour commencer, clarifions ce terme. La déduplication des données est un processus permettant aux organisations de rationaliser leurs archives de données en éliminant les copies redondantes.

Il est important de noter que, lorsque nous parlons de données redondantes, nous faisons référence à la duplication au niveau des fichiers, qui entraîne une prolifération excessive de fichiers. Ainsi, lorsqu'il est question de déduplication, il s'agit en réalité d'un système de déduplication des fichiers.

Quel est l'objectif principal de la déduplication ?

Beaucoup de gens se trompent sur la nature des données, les considérant comme une ressource abondante qu'il suffit de collecter, comme des pommes dans un verger.

En réalité, chaque fichier de données a un coût. D'abord, il faut souvent dépenser de l'argent pour obtenir ces données (par exemple, via l'achat de listes de données), ou bien il faut investir de manière substantielle pour que l’organisation puisse elle-même collecter et analyser ses propres données, même si ces données sont produites en interne. Les ensembles de données sont donc un investissement, et comme tout investissement précieux, ils doivent être protégés avec soin.

Dans ce cas, il s'agit de protéger l’espace de stockage, que ce soit sous la forme de serveurs matériels sur site ou via un stockage cloud à travers un centre de données basé dans le cloud.

Les copies de données, résultant de la réplication, augmentent les coûts de stockage, en imposant des frais supplémentaires en plus des coûts liés au système de stockage principal et à son espace. En résumé, plus d'espace et de ressources de stockage doivent être consacrés à la fois aux nouvelles données et à celles déjà stockées. À un certain stade, ces données dupliquées peuvent devenir un véritable fardeau financier.

Ainsi, l'objectif principal de la déduplication est de permettre aux organisations de réaliser des économies en réduisant leurs dépenses liées au stockage.

Autres avantages de la déduplication

Au-delà de l'augmentation de la capacité de stockage, il existe d'autres raisons essentielles pour lesquelles les entreprises adoptent des solutions de déduplication des données, notamment la protection et l'amélioration des données qu'elles apportent. Les organisations affinent et optimisent les workloads des données dédupliquées, les rendant plus efficaces que celles contenant des fichiers dupliqués.

Un autre aspect clé de la déduplication est son rôle dans la rapidité et le succès des efforts de récupération après sinistre, tout en minimisant la perte de données souvent liée à ces événements. La déduplication permet également de mettre en place un système de sauvegarde robuste, garantissant que le système de sauvegarde d'une organisation est capable de gérer efficacement les données à sauvegarder. Outre l'amélioration des sauvegardes complètes, la déduplication contribue aussi à la rétention des données sur le long terme.

Un autre avantage de la déduplication des données réside dans son bon fonctionnement avec les déploiements d’infrastructure de bureau virtuel (VDI), car les disques durs virtuels derrière les postes de travail distants de la VDI fonctionnent de manière identique. Parmi les produits Desktop as a Service (DaaS) les plus populaires, citons Azure Virtual Desktop, de Microsoft et son VDI Windows. Ces produits proposent des machines virtuelles (VM) créées au cours du processus de virtualisation des serveurs. Ces machines virtuelles renforcent ensuite la technologie VDI.

Méthodologie de déduplication

La forme de déduplication des données la plus couramment utilisée est la déduplication par bloc. Cette méthode s'appuie sur des fonctions automatisées pour identifier et supprimer les doublons dans les blocs de données. En travaillant à ce niveau de bloc, des morceaux de données uniques peuvent être analysés et indiqués comme méritant d’être validés et préservés. Ensuite, lorsque le logiciel de déduplication détecte une répétition du même bloc de données, cette répétition est supprimée et une référence aux données d’origine est incluse à sa place.

Bien que ce soit la méthode principale, il existe d'autres formes de déduplication. Dans d'autres cas d'utilisation, une autre méthode consiste en la déduplication des données au niveau des fichiers. Le stockage à instance unique compare les copies complètes des fichiers au sein du serveur de fichiers, sans examiner les blocs de données. Tout comme la méthode au niveau du bloc, la déduplication de fichiers dépend de la conservation du fichier d’origine au sein du système de fichier et de la suppression des copies supplémentaires.

Il convient de noter que les techniques de déduplication ne fonctionnent pas tout à fait de la même manière que les algorithmes de compression de données (par exemple, LZ77, LZ78), même s’il est vrai que les deux visent le même objectif général de réduction des redondances de données. Les techniques de déduplication permettent d’atteindre cet objectif à plus grande échelle que les algorithmes de compression, dont le but est moins de remplacer des fichiers identiques par des copies partagées que d’encoder plus efficacement les redondances de données.

Types de déduplication des données

Il existe différents types de déduplication, en fonction du moment où le processus intervient :

  • Déduplication en ligne : cette forme de déduplication des données se produit en temps réel, au fur et à mesure que les données circulent dans le système de stockage. Le trafic de données est réduit dans le système de déduplication en ligne, car celui-ci ne transfère ni ne stocke de données dupliquées. Cela peut permettre de réduire la quantité totale de bande passante nécessaire à cette organisation.
  • Déduplication post-processus : ce type de déduplication a lieu une fois que les données ont été écrites et placées sur un certain type de périphérique de stockage.

Il convient de préciser que les deux types de déduplication des données sont affectés par les calculs de hachage inhérents à la déduplication des données. Ces calculs cryptographiques font partie intégrante de l’identification de modèles répétés dans les données. Lors de la déduplication en ligne, ces calculs sont effectués sur le moment, ce qui peut accaparer et submerger temporairement les fonctionnalités de l’ordinateur. Dans le cas de la déduplication post-traitement, les calculs de hachage peuvent être réalisés à tout moment après l’ajout des données, de manière à ne pas surcharger les ressources informatiques de l'organisation.

Les différences subtiles entre les types de déduplication ne s’arrêtent pas là. Une autre manière de classer les types de déduplication se base sur l’endroit où ces processus se produisent.

  • Déduplication à la source : cette forme de déduplication a lieu à proximité de l’endroit où les nouvelles données sont générées. Le système analyse cette zone et détecte de nouvelles copies de fichiers, qui sont ensuite supprimées.
  • Déduplication cible : cet autre type de déduplication est simplement une inversion de la déduplication source. Dans la déduplication cible, le système déduplique toutes les copies qui se trouvent dans des zones autres que celles où les données d’origine ont été créées.

Différents types de déduplication étant pratiqués, les organisations qui se tournent vers l’avenir doivent prendre des décisions prudentes et réfléchies concernant le type de déduplication qu’elles choisissent, pour trouver l’équilibre entre cette méthode et les besoins propres à l’entreprise.

Dans de nombreux cas d’utilisation, la méthode de déduplication choisie par une organisation peut très bien se résumer à diverses variables internes, telles que :

  • Le volume et le type d’ensembles de données créés ;
  • Le système de stockage primaire de l’organisation ;
  • Les environnements virtuels utilisés ;
  • Les applications utilisées par l’entreprise.

Développements récents en matière de déduplication des données

Comme pour de nombreux autres produits informatiques, la déduplication des données intègre de plus en plus l'intelligence artificielle (IA) à mesure qu'elle évolue. La déduplication deviendra de plus en plus sophistiquée en affinant ses capacités à identifier les modèles de redondance lors de l'analyse des blocs de données.

L'une des tendances émergentes dans ce domaine est l'apprentissage par renforcement, qui utilise un système de récompenses et de pénalités pour appliquer des politiques optimales, soit en séparant les enregistrements, soit en les fusionnant.

Une autre tendance à surveiller est l'utilisation des méthodes d'ensemble, où différents modèles ou algorithmes sont combinés pour garantir une précision encore plus grande dans le processus de déduplication.

Le dilemme permanent

Le monde de l'informatique est de plus en plus préoccupé par la prolifération des données et les solutions pour y faire face. De nombreuses entreprises se retrouvent dans une position délicate : elles souhaitent à la fois conserver toutes les données qu'elles ont accumulées, tout en cherchant des moyens de stocker leurs nouvelles données débordantes dans n'importe quel conteneur disponible, juste pour s'en débarrasser temporairement.

Tant que ce dilemme persistera, l'accent sera mis sur les efforts de déduplication des données, car cette solution est souvent perçue comme une alternative plus économique à l'achat de nouveaux espaces de stockage. En fin de compte, bien que nous comprenions intuitivement que les entreprises ont besoin de données, nous savons aussi que ces données nécessitent souvent un processus de déduplication.

Auteur

Phill Powell

Staff Writer