Introduction à la sauvegarde et à la reprise après incident

Qu'est ce que la sauvegarde et la reprise après incident ?

Apprenez les bases de la sauvegarde et de la reprise après incident afin de pouvoir formuler des plans efficaces réduisant la durée d'indisponibilité.

Identifier la différence entre la sauvegarde et la reprise après incident et comprendre les concepts clés essentiels pour développer des stratégies efficaces
Évaluer diverses options de déploiement cloud et sur site pour trouver la solution adaptée à votre organisation
Identifier les meilleures technologies pour atteindre vos objectifs de sauvegarde et de reprise après incident

Comprendre les bases de la sauvegarde et de la reprise après incident est essentiel pour réduire l'impact d'une durée d'indisponibilité non planifiée sur votre entreprise. Dans tous les domaines d'activité, les organisations reconnaissent que la durée d'indisponibilité peut rapidement aboutir à une perte de revenu. Malheureusement, les catastrophes naturelles, les erreurs humaines, les failles de sécurité et les attaques par ransomware peuvent toutes compromettre la disponibilité des ressources IT. Toute indisponibilité peut faire dérailler les interactions avec le client, nuire à la productivité des employés, détruire des données et mettre un frein au processus commercial.

Différencier la sauvegarde de la reprise après incident, définir des termes clés et évaluer les différentes options et technologies de déploiement peut vous aider à développer des stratégies efficaces pour éviter les conséquences d'une indisponibilité.

Sauvegarde et reprise après incident : définition

Il y a une différence importante entre sauvegarde et reprise après incident. La sauvegarde est le processus permettant de faire une copie supplémentaire (ou plusieurs copies) des données. Vous sauvegardez les données pour les protéger. Vous pouvez avoir besoin de restaurer les données de sauvegarde en cas de suppression accidentelle, de corruption de la base de données ou de problème de mise à niveau du logiciel.

La reprise après incident, quant à elle, se rapporte au plan et processus pour rétablir rapidement l'accès aux applications, données et ressources IT après une indisponibilité. Ce plan peut impliquer une commutation vers un ensemble redondant de serveurs et de systèmes de stockage jusqu'à ce que votre centre de données principal soit à nouveau fonctionnel.

Certaines organisations confondent sauvegarde et reprise après incident. Mais comme elles peuvent le découvrir après une grave indisponibilité, disposer simplement de copies des données ne signifie pas que vous pouvez maintenir votre entreprise en fonctionnement. Pour assurer la continuité des opérations, vous avez besoin d'une sécurité maximale, d'un plan de reprise après incident testé.

L'importance de la planification

Votre organisation ne peut pas se permettre de négliger la sauvegarde ou la reprise après incident. S'il faut des heures pour récupérer les données perdues après une suppression accidentelle, vos employés ou partenaires restent inoccupés, incapables de réaliser les processus critiques de l'entreprise qui dépendent de votre technologie. Et s'il faut plusieurs jours pour remettre votre entreprise en ligne après un sinistre, vous risquez de perdre définitivement des clients. Compte tenu du temps et de l'argent que vous pourriez perdre dans les deux cas, les investissements dans la sauvegarde et la reprise après incident sont tout à fait justifiés.

Termes clés

Comprendre quelques termes essentiels peut aider à façonner vos décisions stratégiques et vous permettre de mieux évaluer les solutions de sauvegarde et de reprise après incident.

L'objectif de temps de reprise (RTO) est le temps requis pour rétablir les opérations normales de l'entreprise après une indisponibilité. Lorsque vous cherchez à définir votre RTO, vous devez prendre en compte le temps que vous êtes prêt à perdre et l'impact de ce temps sur votre résultat. Le RTO peut varier considérablement d'un type d'entreprise à l'autre. Par exemple, si une bibliothèque publique perd son système de catalogue, elle peut probablement continuer à fonctionner manuellement pendant quelques jours pendant que les systèmes sont restaurés. Mais si une grande enseigne en ligne perd son système de gestion des stocks, ne serait-ce que 10 minutes, la perte de revenu associée serait inacceptable.

L'objectif de point de reprise (RPO) fait référence à la quantité de données que vous pouvez vous permettre de perdre dans un sinistre. Vous pouvez avoir besoin de copier des données dans un centre de données distant en continu afin qu'une indisponibilité n'entraîne aucune perte de données. Ou vous pouvez décider que la perte de cinq minutes ou d'une heure de données est acceptable.
Le basculement est le processus de reprise après incident consistant à décharger automatiquement des tâches sur des systèmes de sauvegarde de manière transparente pour les utilisateurs. Vous pouvez basculer votre centre de données principal vers un site secondaire, avec des systèmes redondants prêts à prendre le relais immédiatement.
La reprise par restauration est le processus de reprise après incident permettant de revenir aux systèmes d'origine. Une fois que le sinistre est passé et que votre centre de données principal est restauré et opérationnel, vous devriez également pouvoir effectuer une reprise par restauration en toute transparence.
La restauration est le processus de transfert des données de sauvegarde vers votre système ou centre de données principal. Le processus de restauration est généralement considéré comme faisant partie de la sauvegarde plutôt que de la reprise après incident.

Un dernier terme peut être utile lorsque vous envisagez des alternatives pour gérer vos processus et votre environnement de reprise après incident :

La reprise après incident sous forme de service (DRaaS) est une approche gérée de la reprise après incident. Une tierce partie héberge et gère l'infrastructure utilisée pour la reprise après incident. Certaines offres DRaaS peuvent fournir des outils pour gérer les processus de reprise après incident ou permettre aux organisations d'avoir ces processus gérés à leur place.

Prioriser les charges de travail

Une fois que vous avez compris les concepts clés, il est temps de les appliquer à vos charges de travail. De nombreuses organisations ont plusieurs RTO et RPO qui reflètent l'importance de chaque charge de travail pour leur activité.

Pour une grande banque, le système de banque en ligne peut être une charge de travail critique : la banque doit réduire les pertes de temps et de données. Cependant, l'application de suivi du temps des employés de la banque est moins importante. En cas de sinistre, la banque peut laisser cette application indisponible pendant plusieurs heures, voire un jour, sans impact négatif majeur sur l'activité. La définition des charges de travail en tant que niveau 1, niveau 2 ou niveau 3 peut aider à fournir un canevas pour votre plan de reprise après incident.

Évaluer les options de déploiement

L'étape suivante dans la conception d'un plan de reprise après incident consiste à évaluer les options de déploiement. Avez-vous besoin de conserver des fonctions de reprise après incident ou des données de sauvegarde en local ? Bénéficieriez-vous d'une approche de cloud public ou de cloud hybride ?

Cloud

Les solutions de sauvegarde et de reprise après incident basées sur le cloud deviennent de plus en plus populaires parmi les organisation de toutes tailles. De nombreuses solutions cloud fournissent l'infrastructure de stockage des données et, dans certains cas, les outils de gestion des processus de sauvegarde et de reprise après incident.

En sélectionnant une offre de sauvegarde ou de reprise après incident basée sur le cloud, vous pouvez éviter l'important investissement en capital pour l'infrastructure ainsi que les coûts de gestion de l'environnement. De plus, vous gagnez une extensibilité rapide ainsi que la distance géographique nécessaire pour garder les données en sécurité en cas de sinistre régional.

Les solutions de sauvegarde et de reprise après incident peuvent prendre en charge les environnements de production locaux et cloud. Vous pouvez décider, par exemple, de stocker uniquement des données sauvegardées ou répliquées dans le cloud tout en conservant votre environnement de production dans votre propre centre de données. Avec cette approche hybride, vous bénéficiez toujours des avantages de l'extensibilité et de la distance géographique sans avoir à déplacer votre environnement de production. Dans un modèle cloud à cloud, la production et la reprise après incident sont situées dans le cloud, bien que sur des sites différents afin de garantir une séparation physique suffisante.

Sur site

Dans certains cas, garder certains processus de sauvegarde ou de reprise après incident en local peut vous aider à récupérer les données et restaurer les services IT rapidement. Conserver certaines données sensibles en local peut également sembler intéressant si vous avez besoin de respecter strictement les règles de protection des renseignements personnels ou de souveraineté des données.

Pour la reprise après incident, un plan qui repose entièrement sur un environnement local serait un obstacle. Si une catastrophe naturelle ou une indisponibilité d'énergie survenait, l'ensemble de votre centre de données, avec les systèmes principal et secondaire, serait concerné. Voilà pourquoi la plupart des stratégies de reprise après incident utilisent un site secondaire qui est à une certaine distance du centre de données principal. Vous pouvez localiser cet autre site dans toute la ville, dans le pays ou dans le monde entier en fonction de la façon dont vous décidez d'équilibrer des facteurs tels que la performance, la conformité aux règlementations et l'accessibilité physique au site secondaire.

Technologies

Selon les options de déploiement sélectionnées, vous pouvez avoir plusieurs alternatives pour les types de technologies et de processus que vous utilisez pour la sauvegarde et la reprise après incident.

Bande magnétique traditionnelle

Bien qu'existant depuis des décennies, le stockage sur bande magnétique traditionnelle peut encore jouer un rôle dans votre plan de sauvegarde. Avec une solution de bande magnétique, vous pouvez stocker un grand nombre de données de manière fiable et rentable.

Bien que les bandes magnétiques puissent être efficaces pour la sauvegarde, elles ne sont généralement pas utilisées pour la reprise après incident, qui nécessite des temps d'accès plus rapides au stockage sur disque. De plus, si vous devez récupérer physiquement une bande magnétique dans un coffre hors site, vous risquez de perdre plusieurs heures, voire plusieurs jours, de disponibilité.

Réplication à base d'instantanés

Une sauvegarde à base d'instantanés enregistre l'état actuel d'une application ou d'un disque à un moment précis. En écrivant uniquement les données modifiées depuis le dernier instantané, cette méthode peut aider à protéger les données tout en préservant l'espace de stockage.

La réplication à base d'instantanés peut être utilisée pour la sauvegarde ou la reprise après incident. Bien entendu, vos données ne sont complètes que dans la mesure où elles correspondent à votre instantané le plus récent. Si vous prenez des instantanés toutes les heures, vous devez être prêt à perdre une heure de données.

Réplication continue

De nombreuses organisations s'orientent vers la réplication continue pour la reprise après incident ainsi que la sauvegarde. Avec cette méthode, la copie la plus récente d'un disque ou d'une application est répliquée en continu vers un autre emplacement ou le cloud, ce qui minimise la durée d'indisponibilité et fournit des points de récupération plus granulaires.

Solutions connexes

Solutions cloud de reprise après incident

Protégez vos données avec un plan de reprise après incident dans le cloud.

Explorer les solutions de reprise après incident dans le cloud

IBM Cloud® Object Storage - Sauvegarde et reprise

Découvrez comment IBM Cloud® Object Storage fournit une destination hautement durable, évolutive et très sécurisée pour la sauvegarde de vos données.

Explorer IBM Cloud Object Storage

Ressources

Formation et certification d'ingénieur/ingénieure de fiabilité de site (SRE) IBM Cloud Professional

Améliorez vos compétences pour travailler en tant que SRE avec une formation et une certification de niveau professionnel d'IBM. Obtenez des connaissances sur les environnements et les outils IBM Cloud et effectuez des exercices dans des laboratoires virtuels.

Qu'est-ce qu'un centre de données ?

Découvrez les centres de données, les installations physiques qui rendent possible le cloud computing pour l'entreprise.

Pour aller plus loin

Pour la plupart des entreprises, les stratégies de sauvegarde et de reprise après incident sont absolument essentielles pour maintenir l'intégrité de l'activité.Les solutions de reprise après incident IBM Cloud peuvent vous aider à évaluer et mettre à jour vos stratégies, ce qui peut vous aider à contrôler la complexité et les coûts.

En savoir plus sur les solutions de reprise après incident dans le cloud IBM