Infrastructures

Enjeux de la sauvegarde des données face aux applications modernes

Share this post:

Les nouvelles architectures logicielles, notamment la virtualisation, et les nouveaux usages comme l’intelligence artificielle (IA) ou le Big Data imposent des solutions spécifiques de sauvegarde.

La sauvegarde classique de bases de données ou de progiciels fonctionnant sur des serveurs dédiés peut s’opérer sur bande, sur des disques à bas coût, dans des espaces de stockage Objet du client ou des espaces Cloud public/privé chez un CSP.

Il est aujourd’hui crucial d’être en mesure de compresser, dédupliquer et éventuellement chiffrer ces informations. L’émergence de nouveaux types et modes de stockage (Flash, disques et bandes magnétiques ultra denses, Cloud) associée à l’explosion des volumes rend d’autant plus pertinent (voire indispensable) la capacité à opérer des hiérarchies de stockage astucieuses et économiques : en fonction de son âge ou de sa fréquence d’utilisation, la donnée doit pouvoir être stockée sur un support rapide dans un premier temps, puis sur un disque plus lent, puis sur une bande ou dans le Cloud, afin de répondre à la fois aux exigences de temps de sauvegarde ou de récupération de la donnée et d’optimisation des coûts du stockage.

La sauvegarde d’environnements virtuels est assez spécifique. L’objectif est ici de réaliser une sauvegarde opérationnelle « générique », simple et rapide, pour un temps limité, qui garantit une restauration tout aussi simple et rapide à un état relativement récent. Les données sont très rapidement enregistrées grâce à un « snapshot » incrémental identifiant les fragments de données modifiés. La restauration consiste alors à reconstituer ce puzzle des différents fragments présents à la date souhaitée, en une seule opération.

Le média employé ne s’appuie pas sur de la bande magnétique – trop lent dans ce cas – mais sur des disques de grande capacité, peu chers et moyennement rapides. Classique pour sauvegarder l’enveloppe d’une machine virtuelle, ce mécanisme s’étend également aux bases de données et applicatifs, majeurs ou émergeants. Les modes de restauration sont alors contextualisés et proposent une granularité bien plus fine, pouvant aller jusqu’à une transaction spécifique.

 

Le besoin de réplication

Au même titre qu’un applicatif critique de l’entreprise, le service de protection des données se doit d’être disponible et résilient. Raison pour laquelle des mécanismes de haute disponibilité et de réplication distante des sauvegardes sont de plus en plus courants. Ici encore, il faut pouvoir faire appel aux différentes technologies de stockage disponibles : la bande magnétique, rempart contre d’éventuels « ransomwares[1] », le disque capacitif permettant de répliquer des sauvegardes dédupliquées, et toujours le Cloud pour des conservations longue durée ou en tant que solution de secours globale de l’entreprise. Au-delà de ces mécanismes de réplication, une nouvelle philosophie émerge avec les systèmes de stockage géo-dispersés s’appuyant sur des mécanismes « d’erasure coding[2] » garantissant l’accessibilité des données même en cas d’incident ou d’échecs multiples : un stockage des sauvegardes unique, sans réplication, réparti géographiquement et capable de survivre à une indisponibilité totale d’un des sites.

 

Les nouveaux usages du stockage

Les projets de transformation des entreprises qui font intervenir le Big Data et l’IA, nécessitent un volume de données considérable et souvent hétérogène, qu’il devient problématique de sauvegarder. Que doit-on vraiment sauvegarder ? Quelles sont les données vitales et celles pouvant être reconstruites ? Comment garantir la cohérence de l’ensemble de ces données aux origines diverses ? Comment optimiser compression et déduplication ? Quand réaliser la sauvegarde de ces données parfois constamment sollicitées par des traitements récurrents ? Comment accélérer le scan de millions (milliards) de fichiers afin de déterminer ceux devant être sauvegardés ?

Protéger un environnement Big Data impose une nouvelle réflexion sur la manière d’utiliser les outils actuels, ainsi que de considérer les nouvelles technologies capables d’accompagner la croissance des données. Trouver des moyens de réduire les volumes devant être protégés et faire évoluer l’environnement de sauvegarde sont des éléments clés pour garantir que les données critiques seront protégées contre les défaillances simples et catastrophiques du système.

Toutes ces technologies montent en puissance pour répondre à l’augmentation de l’usage des données – McKinsey Global Institute estime ainsi que le volume global de données double tous les trois ans. Une évolution qui poussera forcément l’entreprise à se poser une question plus radicale : « toutes mes données méritent-elles d’être stockées » ?

 

[1] Ou cryptolockers : logiciels de cryptage de données exploités par des pirates qui promettent une clé de déchiffrage moyennant une rançon.

[2] Ou “code d’effacement » : permet de sauvegarder les données en fragments. Lors de la reconstruction de ces données, les fragments absents peuvent être retrouvés par interpolation.

Pour en savoir plus :

Découvrez comment Cloud Temple gère efficacement plusieurs règles de sauvegarde simultanément dans différents environnements de serveurs virtuels ?

Les solutions Cloud Object Storage

Les solutions Stockage sur bande

 

  David Le Garrec – Avant-vente Stockage

  david.legarrec@fr.ibm.com

  David Le Garrec

More Infrastructures stories
4 juin 2019

Prévoir les ressources nécessaires aux applications d’Intelligence Artificielle

Quelques exemples concrets reposant sur la solution IBM AC922 dotée de l’option gratuite Watson Machine Learning Community Edition. En matière d’intelligence artificielle (IA), nous observons un équilibre entre les projets déployés dans le cloud (off premise) ou sur site (on premise). Certaines entreprises préfèrent en effet que leur projet reste en interne. L’une des raisons […]

Continue reading

27 mai 2019

Une gestion réfléchie des données, indispensable à tout projet d’IA

Les coûts de stockage ne diminuent pas suffisamment pour compenser l’explosion du volume des données. C’est un fait : l’intelligence artificielle n’est rien sans une architecture de l’information adéquate. Pas d’IA sans AI ! Qu’il s’agisse de machine learning ou de deep learning, l’IA exige une quantité phénoménale de données. Or la data est multiple : non […]

Continue reading

20 mai 2019

L’IA permet de piloter des systèmes de vidéosurveillance à grande échelle

Entre l’augmentation du trafic et la multiplication des menaces, la sécurité des aéroports et des gares constitue un défi de taille. Les moyens humains pour prévenir et lutter contre les risques étant limités, les technologies offrent de véritables opportunités pour assurer la sécurité dans ces zones fréquentées par les voyageurs. L’intelligence artificielle permet déjà de […]

Continue reading