Qu’est-ce que la redondance des données ?

Image illustrant différentes formes sur un système de grille

Auteurs

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Qu’est-ce que la redondance des données ?

On parle de redondance des données lorsque plusieurs copies des mêmes données sont stockées dans des lieux, des formats ou des systèmes différents.

Si la redondance non intentionnelle des données peut entraîner des inefficacités telles que la hausse des frais de stockage et l’incohérence des données, la redondance intentionnelle est une composante essentielle de la gestion des données. Cet outil est particulièrement utile aujourd’hui, car les entreprises gèrent de grands jeux de données et des volumes croissants de données. Souvent au cœur de la conception et du schéma des bases de données, les copies redondantes permettent de garantir la haute disponibilité, l’intégrité et la cohérence des données.

La redondance intentionnelle des données joue également un rôle essentiel dans la reprise après sinistre. Par exemple, en 2024, le coût des violations de données pour les entreprises est estimé à 4,88 millions de dollars en moyenne. La redondance est cruciale dans les scénarios de corruption des données ou de défaillance matérielle, car elle offre une sauvegarde fiable. Cependant, alors que la redondance et la récupération des données visent toutes deux à prévenir la perte de données, la redondance met l’accent sur la disponibilité et la continuité des données, tandis que la récupération se concentre sur la restauration.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Redondance intentionnelle ou non intentionnelle des données

Dans la gestion des bases de données, il existe deux types de redondance : intentionnelle et non intentionnelle.

Redondance intentionnelle

Les organisations mettent délibérément en œuvre la redondance des données pour améliorer la disponibilité des systèmes et se protéger contre la perte de données. En veillant à ce que les systèmes continuent de fonctionner même en cas de défaillance matérielle, la redondance intentionnelle améliore la cohérence des données et répond aux exigences de haute disponibilité. Ces avantages la rendent particulièrement utile dans les systèmes de gestion de bases de données relationnelles (SGBDR) et les entrepôts de données.

Redondance non intentionnelle

On parle de redondance non intentionnelle des données lorsque les systèmes créent par inadvertance des données en double, ce qui entraîne des inefficacités. Chronophage, la conservation des copies redondantes et non nécessaires peut entraîner une hausse des frais de stockage, des discrépances dans l’analyse des données, ainsi qu’une baisse de performance.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Avantages de la redondance intentionnelle des données

La redondance intentionnelle des données offre plusieurs avantages clés qui améliorent la qualité, la sécurité et la disponibilité des données :

  • Intégrité des données : les copies redondantes permettent aux systèmes de se rétablir en cas d’erreurs, de défaillances matérielles ou d’incohérences. Si une partie des données est corrompue, les systèmes peuvent rapidement accéder à une version propre et non corrompue à partir d’une copie, ce qui améliore l’accès aux données et le temps de fonctionnement.

  • Cohérence des données : les copies synchronisées des données critiques permettent de maintenir les mises à jour entre les différentes copies, évitant ainsi les incohérences. Cela s’avère particulièrement important dans les environnements qui exigent des niveaux élevés de cohérence des données, tels que le stockage cloud ou les systèmes ERP.

  • Sécurité des données : les copies redondantes protègent contre les risques de corruption, de perte ou de violation de données. Stocker les données à différents emplacements ou dans différents systèmes de stockage permet de garantir que si un système est compromis, les données restent accessibles à partir d’une autre source sécurisée.

  • Efficacité opérationnelle : la redondance intentionnelle des données améliore l’efficacité opérationnelle en réduisant les temps d’arrêt. Les copies redondantes permettent aux entreprises de garantir l’accès aux données et d’assurer leur productivité même en cas de panne matérielle ou d’interruption.

 

Outils et techniques de la redondance intentionnelle des données

Afin de mettre en œuvre efficacement la redondance intentionnelle des données, les entreprises utilisent plusieurs outils et techniques, par exemple la réplication des données, les configurations RAID ou encore les systèmes de fichiers distribués :

Configurations RAID

La matrice redondante de disques indépendants (RAID) regroupe plusieurs disques durs en une seule et même unité. Cette technologie de stockage des données améliore la redondance des données et la tolérance aux pannes, à savoir la capacité d’un système à fonctionner malgré la défaillance d’un composant. 

Le RAID 1, par exemple, met en miroir deux disques ; si l’un tombe en panne, les données restent disponibles. Conciliant performance, capacité de stockage et parité, les configurations RAID sont parfaitement adaptées aux environnements comportant de grands jeux de données.

Systèmes de fichiers distribués

Les systèmes de fichiers distribués (DFS) stockent les données sur plusieurs machines ou nœuds, en répliquant automatiquement les données afin de garantir la redondance et la haute disponibilité. Cette architecture tolérante aux pannes signifie qu’en cas de défaillance d’un nœud ou d’un disque, les données restent accessibles de façon ininterrompue à partir d’autres nœuds.

Réplication des données

La réplication des données consiste à créer des copies des données à différents endroits afin d’en garantir la disponibilité. Elle peut se faire en temps réel (synchrone) ou en différé (asynchrone). Cette méthode est essentielle pour assurer un accès continu aux données, en particulier dans les cas de reprise après sinistre.

Risques liés à la redondance non intentionnelle des données

La redondance non intentionnelle des données présente plusieurs risques qui peuvent avoir une incidence sur la qualité, les performances et la sécurité des données :

  • Hausse des frais de stockage : conserver des copies de données redondantes dans plusieurs systèmes ou emplacements augmente les besoins en espace de stockage. Cela fait augmenter les frais de stockage, en particulier dans le cas des environnements cloud, dont la tarification est souvent basée sur le volume de stockage utilisé. 

  • Incohérence des données : des incohérences peuvent survenir lorsque les mises à jour ou les suppressions de données ne sont pas correctement synchronisées. Ces incohérences peuvent entraîner des erreurs dans la récupération d’informations et l’analyse des données, ce qui nuit à l’intégrité du système et conduit à des rapports ou à des prises de décision incorrects.

  • Corruption et perte de données : si elles ne sont pas correctement gérées, les copies redondantes peuvent augmenter le risque de corruption des données. Par exemple, si des données corrompues ne sont pas détectées et qu’elles sont répliquées sur toutes les copies, c’est alors l’ensemble des données qui est affecté. Des processus de réplication ou de sauvegarde inadéquats peuvent également conduire à la perte de données critiques.

  • Dégradation des performances : si la réplication contribue à garantir la cohérence des données, elle peut également introduire une latence lorsque les mises à jour sont effectuées sur plusieurs copies. La récupération des données peut s’en trouver ralentie, en particulier dans les systèmes qui traitent de grands jeux de données ou des volumes de transactions élevés.

  • Risques en matière de sécurité et de conformité : les données redondantes augmentent la vulnérabilité des systèmes et le risque de cyberattaque. Conserver plusieurs copies des données peut également s’avérer contraire au principe de minimisation des données énoncé par des réglementations telles que le Règlement général sur la protection des données (RGPD) et la loi CCPA (California Consumer Privacy Act).

Tactiques pour atténuer la redondance non intentionnelle des données

Pour remédier à la redondance non intentionnelle des données, les entreprises peuvent recourir à diverses stratégies d’atténuation :

Normalisation des bases de données

La normalisation des bases de données organise les données en champs distincts et connexes afin d’éliminer les doublons et de réduire la redondance. Ce processus veille à ce que chaque donnée ne soit stockée qu’une seule fois et améliore ainsi l’intégrité et la cohérence des données. Il suit une série de règles, souvent classées en première, deuxième, troisième et quatrième formes normales.

Déduplication des données

La déduplication permet d’identifier et de supprimer les données en double pour ne stocker qu’une seule instance de chaque entrée de données. Cette méthode est couramment utilisée dans les centres de données et les environnements de stockage cloud pour optimiser l’espace de stockage et réduire les problèmes de redondance.

Compression des données

La compression des données réduit la taille des jeux de données en éliminant les éléments répétitifs. Cette technique est largement utilisée dans les systèmes de sauvegarde, la transmission réseau et le stockage cloud afin d’optimiser l’espace de stockage et d’améliorer l’efficacité de la récupération des données.

Master Data Management

Le Master Data Management (MDM) regroupe les données essentielles de l’entreprise en une source unique, améliorant ainsi la cohérence des données entre les différents systèmes. Cela permet de créer un registre principal pour les entrées de données clés telles que les clients, les produits et les employés, et d’éliminer les données en double et de réduire la redondance.

Couplage des données

Le couplage des données utilise des clés étrangères dans les systèmes de gestion de base de données (SGBDR) en vue de créer des relations entre les champs de données et de réduire la redondance. Par exemple, il est possible de stocker les données d’un client dans une table « client », les commandes étant liées au client par l’intermédiaire de son numéro d’identification afin de garantir l’exactitude et la cohérence des données.

Redondance et récupération des données

Bien que la redondance et la récupération permettent toutes deux de remédier à la perte de données, elles répondent à des objectifs différents. La redondance des données est souvent utilisée de manière proactive. Elle permet d’assurer une haute disponibilité et de minimiser les temps d’arrêt en stockant des copies redondantes des données sur plusieurs sites.

En revanche, la récupération des données est un processus réactif. Elle permet de restaurer les données après des incidents tels que la corruption des données, la suppression accidentelle ou les cyberattaques. Plusieurs méthodes de récupération des données sont utilisées pour retrouver les données perdues et restaurer les systèmes dans un état antérieur :

  • Sauvegarde des données : les sauvegardes régulières permettent de stocker des copies des données en dehors du système principal, généralement dans un environnement de stockage externe ou cloud. Ces sauvegardes sont essentielles pour garantir la reprise après sinistre, puisqu’elles permettent d’assurer la restauration des données en cas de défaillance ou de corruption.

  • Instantanés : les instantanés créent des copies à un instant précis, capturant l’état exact des données au moment où elles sont enregistrées. Cette technique facilite la récupération rapide des données dans les environnements virtualisés et contribue à la reprise après sinistre sans nécessiter de sauvegardes complètes.

  • Protection continue des données : les systèmes de protection continue des données (CDP) suivent les modifications apportées aux blocs de données pour s’assurer que seuls les blocs modifiés sont mis à jour. Les systèmes CDP opèrent en temps réel pour préserver les données les plus récentes, et ils comprennent des fonctions de déduplication pour éliminer les copies inutiles et optimiser l’espace de stockage.
Solutions connexes
Logiciels et solutions de gestion des données

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Découvrir les solutions de gestion des données
IBM watsonx.data

Watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Découvrir les solutions de gestion des données Découvrir watsonx.data