Infrastructures

Enjeux de la sauvegarde des données face aux applications modernes

Share this post:

Les nouvelles architectures logicielles, notamment la virtualisation, et les nouveaux usages comme l’intelligence artificielle (IA) ou le Big Data imposent des solutions spécifiques de sauvegarde.

La sauvegarde classique de bases de données ou de progiciels fonctionnant sur des serveurs dédiés peut s’opérer sur bande, sur des disques à bas coût, dans des espaces de stockage Objet du client ou des espaces Cloud public/privé chez un CSP.

Il est aujourd’hui crucial d’être en mesure de compresser, dédupliquer et éventuellement chiffrer ces informations. L’émergence de nouveaux types et modes de stockage (Flash, disques et bandes magnétiques ultra denses, Cloud) associée à l’explosion des volumes rend d’autant plus pertinent (voire indispensable) la capacité à opérer des hiérarchies de stockage astucieuses et économiques : en fonction de son âge ou de sa fréquence d’utilisation, la donnée doit pouvoir être stockée sur un support rapide dans un premier temps, puis sur un disque plus lent, puis sur une bande ou dans le Cloud, afin de répondre à la fois aux exigences de temps de sauvegarde ou de récupération de la donnée et d’optimisation des coûts du stockage.

La sauvegarde d’environnements virtuels est assez spécifique. L’objectif est ici de réaliser une sauvegarde opérationnelle « générique », simple et rapide, pour un temps limité, qui garantit une restauration tout aussi simple et rapide à un état relativement récent. Les données sont très rapidement enregistrées grâce à un « snapshot » incrémental identifiant les fragments de données modifiés. La restauration consiste alors à reconstituer ce puzzle des différents fragments présents à la date souhaitée, en une seule opération.

Le média employé ne s’appuie pas sur de la bande magnétique – trop lent dans ce cas – mais sur des disques de grande capacité, peu chers et moyennement rapides. Classique pour sauvegarder l’enveloppe d’une machine virtuelle, ce mécanisme s’étend également aux bases de données et applicatifs, majeurs ou émergeants. Les modes de restauration sont alors contextualisés et proposent une granularité bien plus fine, pouvant aller jusqu’à une transaction spécifique.

 

Le besoin de réplication

Au même titre qu’un applicatif critique de l’entreprise, le service de protection des données se doit d’être disponible et résilient. Raison pour laquelle des mécanismes de haute disponibilité et de réplication distante des sauvegardes sont de plus en plus courants. Ici encore, il faut pouvoir faire appel aux différentes technologies de stockage disponibles : la bande magnétique, rempart contre d’éventuels « ransomwares[1] », le disque capacitif permettant de répliquer des sauvegardes dédupliquées, et toujours le Cloud pour des conservations longue durée ou en tant que solution de secours globale de l’entreprise. Au-delà de ces mécanismes de réplication, une nouvelle philosophie émerge avec les systèmes de stockage géo-dispersés s’appuyant sur des mécanismes « d’erasure coding[2] » garantissant l’accessibilité des données même en cas d’incident ou d’échecs multiples : un stockage des sauvegardes unique, sans réplication, réparti géographiquement et capable de survivre à une indisponibilité totale d’un des sites.

 

Les nouveaux usages du stockage

Les projets de transformation des entreprises qui font intervenir le Big Data et l’IA, nécessitent un volume de données considérable et souvent hétérogène, qu’il devient problématique de sauvegarder. Que doit-on vraiment sauvegarder ? Quelles sont les données vitales et celles pouvant être reconstruites ? Comment garantir la cohérence de l’ensemble de ces données aux origines diverses ? Comment optimiser compression et déduplication ? Quand réaliser la sauvegarde de ces données parfois constamment sollicitées par des traitements récurrents ? Comment accélérer le scan de millions (milliards) de fichiers afin de déterminer ceux devant être sauvegardés ?

Protéger un environnement Big Data impose une nouvelle réflexion sur la manière d’utiliser les outils actuels, ainsi que de considérer les nouvelles technologies capables d’accompagner la croissance des données. Trouver des moyens de réduire les volumes devant être protégés et faire évoluer l’environnement de sauvegarde sont des éléments clés pour garantir que les données critiques seront protégées contre les défaillances simples et catastrophiques du système.

Toutes ces technologies montent en puissance pour répondre à l’augmentation de l’usage des données – McKinsey Global Institute estime ainsi que le volume global de données double tous les trois ans. Une évolution qui poussera forcément l’entreprise à se poser une question plus radicale : « toutes mes données méritent-elles d’être stockées » ?

 

[1] Ou cryptolockers : logiciels de cryptage de données exploités par des pirates qui promettent une clé de déchiffrage moyennant une rançon.

[2] Ou “code d’effacement » : permet de sauvegarder les données en fragments. Lors de la reconstruction de ces données, les fragments absents peuvent être retrouvés par interpolation.

Pour en savoir plus :

Découvrez comment Cloud Temple gère efficacement plusieurs règles de sauvegarde simultanément dans différents environnements de serveurs virtuels ?

Les solutions Cloud Object Storage

Les solutions Stockage sur bande

 

Avant-vente Stockage

More Infrastructures stories
19 août 2022

Les technologies au service des pratiques durables

Comment passer des déclarations d’intention à la définition d’une feuille de route puis à l’action ? Voilà la grande question que se posent de nombreuses entreprises face à la nécessité de “verdir” leur activité. IBM propose des services et solutions pour les accompagner. D’après une récente étude de l’IBM Institute for Business Value, 44% des […]

Continue reading

21 juillet 2022

Quels critères pour une intelligence artificielle de confiance ?

L’intelligence artificielle est capable d’effectuer des traitements à large échelle, tout en s’affranchissant des biais cognitifs propres aux opérateurs humains. À condition toutefois qu’elle respecte certains principes de base qui vont en garantir l’éthique…  La Commission européenne travaille sur un cadre juridique autour de l’intelligence artificielle (IA). Un texte très attendu par les entreprises, qui […]

Continue reading

22 septembre 2021

La « data fabric » : La fin du « data hub » centralisé ?

Les données distribuées, en silos, continuent d’être le point de compression de l’exploitation et la gouvernance des données. L’intégration, la préparation de ces données, leur nettoyage, leur mise en qualité, leur exposition continuent d’être le défi de la création de valeur. Les « data hub » existants sont fortement sollicités pour accélérer, voire automatiser cette phase d’intégration […]

Continue reading