Infrastructures

Enjeux de la sauvegarde des données face aux applications modernes

Share this post:

Les nouvelles architectures logicielles, notamment la virtualisation, et les nouveaux usages comme l’intelligence artificielle (IA) ou le Big Data imposent des solutions spécifiques de sauvegarde.

La sauvegarde classique de bases de données ou de progiciels fonctionnant sur des serveurs dédiés peut s’opérer sur bande, sur des disques à bas coût, dans des espaces de stockage Objet du client ou des espaces Cloud public/privé chez un CSP.

Il est aujourd’hui crucial d’être en mesure de compresser, dédupliquer et éventuellement chiffrer ces informations. L’émergence de nouveaux types et modes de stockage (Flash, disques et bandes magnétiques ultra denses, Cloud) associée à l’explosion des volumes rend d’autant plus pertinent (voire indispensable) la capacité à opérer des hiérarchies de stockage astucieuses et économiques : en fonction de son âge ou de sa fréquence d’utilisation, la donnée doit pouvoir être stockée sur un support rapide dans un premier temps, puis sur un disque plus lent, puis sur une bande ou dans le Cloud, afin de répondre à la fois aux exigences de temps de sauvegarde ou de récupération de la donnée et d’optimisation des coûts du stockage.

La sauvegarde d’environnements virtuels est assez spécifique. L’objectif est ici de réaliser une sauvegarde opérationnelle « générique », simple et rapide, pour un temps limité, qui garantit une restauration tout aussi simple et rapide à un état relativement récent. Les données sont très rapidement enregistrées grâce à un « snapshot » incrémental identifiant les fragments de données modifiés. La restauration consiste alors à reconstituer ce puzzle des différents fragments présents à la date souhaitée, en une seule opération.

Le média employé ne s’appuie pas sur de la bande magnétique – trop lent dans ce cas – mais sur des disques de grande capacité, peu chers et moyennement rapides. Classique pour sauvegarder l’enveloppe d’une machine virtuelle, ce mécanisme s’étend également aux bases de données et applicatifs, majeurs ou émergeants. Les modes de restauration sont alors contextualisés et proposent une granularité bien plus fine, pouvant aller jusqu’à une transaction spécifique.

 

Le besoin de réplication

Au même titre qu’un applicatif critique de l’entreprise, le service de protection des données se doit d’être disponible et résilient. Raison pour laquelle des mécanismes de haute disponibilité et de réplication distante des sauvegardes sont de plus en plus courants. Ici encore, il faut pouvoir faire appel aux différentes technologies de stockage disponibles : la bande magnétique, rempart contre d’éventuels « ransomwares[1] », le disque capacitif permettant de répliquer des sauvegardes dédupliquées, et toujours le Cloud pour des conservations longue durée ou en tant que solution de secours globale de l’entreprise. Au-delà de ces mécanismes de réplication, une nouvelle philosophie émerge avec les systèmes de stockage géo-dispersés s’appuyant sur des mécanismes « d’erasure coding[2] » garantissant l’accessibilité des données même en cas d’incident ou d’échecs multiples : un stockage des sauvegardes unique, sans réplication, réparti géographiquement et capable de survivre à une indisponibilité totale d’un des sites.

 

Les nouveaux usages du stockage

Les projets de transformation des entreprises qui font intervenir le Big Data et l’IA, nécessitent un volume de données considérable et souvent hétérogène, qu’il devient problématique de sauvegarder. Que doit-on vraiment sauvegarder ? Quelles sont les données vitales et celles pouvant être reconstruites ? Comment garantir la cohérence de l’ensemble de ces données aux origines diverses ? Comment optimiser compression et déduplication ? Quand réaliser la sauvegarde de ces données parfois constamment sollicitées par des traitements récurrents ? Comment accélérer le scan de millions (milliards) de fichiers afin de déterminer ceux devant être sauvegardés ?

Protéger un environnement Big Data impose une nouvelle réflexion sur la manière d’utiliser les outils actuels, ainsi que de considérer les nouvelles technologies capables d’accompagner la croissance des données. Trouver des moyens de réduire les volumes devant être protégés et faire évoluer l’environnement de sauvegarde sont des éléments clés pour garantir que les données critiques seront protégées contre les défaillances simples et catastrophiques du système.

Toutes ces technologies montent en puissance pour répondre à l’augmentation de l’usage des données – McKinsey Global Institute estime ainsi que le volume global de données double tous les trois ans. Une évolution qui poussera forcément l’entreprise à se poser une question plus radicale : « toutes mes données méritent-elles d’être stockées » ?

 

[1] Ou cryptolockers : logiciels de cryptage de données exploités par des pirates qui promettent une clé de déchiffrage moyennant une rançon.

[2] Ou “code d’effacement » : permet de sauvegarder les données en fragments. Lors de la reconstruction de ces données, les fragments absents peuvent être retrouvés par interpolation.

Pour en savoir plus :

Découvrez comment Cloud Temple gère efficacement plusieurs règles de sauvegarde simultanément dans différents environnements de serveurs virtuels ?

Les solutions Cloud Object Storage

Les solutions Stockage sur bande

 

Avant-vente Stockage

More Infrastructures stories
17 septembre 2019

La gestion des flux entrants : un enjeu clé pour les assureurs !

Pour répondre aux sollicitations nombreuses et variées de clients devenus très exigeants, les assureurs ne peuvent augmenter leurs ressources en proportion de l’augmentation des interactions ! Ils doivent contenir leurs coûts tout en augmentant le niveau de service, sans quoi les clients, en consommateurs avertis, décideront de changer de compagnie d’assurance. L’un des enjeux clés de […]

Continue reading

9 septembre 2019

Utiliser les API Watson sur OpenShift

Avant de parler de l’utilisation des API Watson sur OpenShift, définissons rapidement ce qu’elles sont. Les API Watson sont un ensemble de services d’intelligence artificielle (IA) disponibles sur IBM Cloud dotés d’une API REST et de SDK (Software Develpment Kit) pour de nombreux langages actuels de programmation. Watson Assistant (development de chatbots) et Watson Discovery (utilisation intelligente de corpus de textes) font partie […]

Continue reading

28 août 2019

Une mémoire « computationnelle » pour assurer calcul et stockage

Le disque dur traditionnel est pris en étau entre le rouleau compresseur Flash et l’indétrônable bande qui commence à se faire une place sur les infrastructures de stockage des opérateurs de Cloud. Mais l’avenir devrait être plus disruptif, avec l’arrivée de la mémoire « computationnelle », qui rassemble calcul et stockage.   La mémoire Flash omniprésente Le […]

Continue reading