Comment fonctionne un plan de reprise après incident ?
Un plan de reprise après incident (DR) est un document officiel rédigé par une entreprise. Il contient des instructions détaillées sur les mesures à prendre pour répondre aux incidents imprévus tels que les catastrophes naturelles, les pannes de courant, les cyberattaques ou tout autre événement entraînant une interruption. Un tel plan contient des stratégies qui atténuent les effets d'un incident grave, permettant à l'entreprise de continuer à fonctionner, ou de reprendre rapidement ses opérations essentielles.
Les interruptions peuvent entraîner des pertes de revenus, porter atteinte à l'image de marque et provoquer le mécontentement des clients. Plus le temps de reprise est long, plus l'impact métier négatif sera important. Par conséquent, un bon plan de reprise après incident doit permettre une reprise rapide suite aux interruptions, quelle qu'en soit l'origine.
Accompagnez la continuité des opérations avec une reprise après incident dans le cloud, quelques minutes seulement après une panne, grâce à une solution DRaas (reprise après incident sous forme de service)
Un plan de reprise après incident est plus ciblé qu'un plan de continuité des opérations et n'englobe pas nécessairement toutes les éventualités liées aux processus métier, aux actifs, aux ressources humaines et aux partenaires commerciaux.
En règle générale, une solution de reprise après incident efficace traite tous les types d'interruption des opérations, et pas seulement des catastrophes naturelles majeures ou d'origine humaine qui mettent un site hors service. Ces interruptions peuvent être des pannes de courant, des pannes téléphoniques, une perte temporaire d'accès à une installation en raison de menaces d'attaque à la bombe, un "incendie potentiel" ou un incendie non destructif, une inondation ou un autre événement à faible impact. Un plan de reprise après incident doit être organisé selon le type de catastrophe et d'emplacement. Il doit comporter des scripts (instructions) qui peuvent être mis en œuvre par n'importe quelle personne.
Avant les années 1970, la seule précaution des entreprises consistait à effectuer des copies de leurs dossiers papier. La planification de la reprise après incident a pris de l'importance au cours des années 1970, lorsque les entreprises ont commencé à dépendre beaucoup plus de l'informatique. À cette époque, la plupart des systèmes étaient de grands systèmes (mainframes) traitant des tâches par lots. Un autre grand système hors site pouvait être chargé à partir de bandes de sauvegarde, en attendant la reprise du site principal.
En 1983, le gouvernement américain a demandé aux banques nationales de disposer d'un plan de sauvegarde vérifiable. De nombreuses autres secteurs ont suivi cet exemple, conscients des pertes financières importantes qu'entraînaient les pannes de longue durée.
Dans les années 2000, les entreprises sont devenues encore plus dépendantes des services numériques en ligne. Avec l'arrivée du big data, du cloud, de la mobilité et des médias sociaux, les entreprises ont dû faire face à l'enregistrement et au stockage de quantités massives de données qui croissaient à un rythme exponentiel. Les plans de reprise après incident sont nécessairement devenus beaucoup plus complexes, car il a fallu prévoir un stockage beaucoup plus important pour des données provenant d'une myriade d'appareils. L'avènement du cloud computing dans les années 2010 a contribué à atténuer la complexité de la reprise après incident, en permettant aux organisations d'externaliser leurs plans et leurs solutions de reprise après incident. C'est ce que l'on appelle des solutions DRaaS (reprise après incident sous forme de service).
Une autre tendance actuelle qui souligne l'importance d'un plan détaillé de reprise après incident est la sophistication croissante des cyberattaques. Les statistiques par secteur montrent que de nombreuses attaques passent inaperçues pendant plus de 200 jours. Avec autant de temps pour se dissimuler dans un réseau, les attaquants peuvent implanter des logiciels malveillants qui finissent par s'infiltrer dans les copies de sauvegarde, infectant même les données de récupération. Les attaques peuvent rester en sommeil pendant des semaines ou des mois, ce qui permet aux logiciels malveillants de se propager à tout le système. Même après la détection d'une attaque, il peut être extrêmement difficile de supprimer des logiciels malveillants qui sont devenus omniprésents dans toute l'entreprise.
Chaque seconde compte : Une reprise rapide chez un distributeur de colis
L'interruption des activités en raison d'une cyberattaque peut avoir un effet dévastateur sur une entreprise. Par exemple, une cyber-panne dans une entreprise de livraison de colis peut perturber les opérations dans toute la chaîne d'approvisionnement, avec pour conséquence des pertes financières et une atteinte à la réputation. Et dans le monde actuel, fortement dépendant des outils numériques, chaque seconde de perturbation compte.
Pourquoi un plan de reprise après incident est-il important ?
Le besoin impérieux de créer une expérience client optimale et d'obtenir d'excellents résultats métier alimente le succès croissant de l'adoption du multicloud hybride par les entreprises. Toutefois, le multicloud hybride crée une complexité sur le plan de l'infrastructure et génère des risques potentiels dont la gestion nécessite des compétences et des outils spécialisés. En raison de cette complexité, les entreprises subissent des indisponibilités et des pannes système fréquentes, associées à des cyberattaques, à une pénurie de compétences et à une défaillance des fournisseurs. L'impact métier des pannes ou du temps d'indisponibilité non planifiés est extrêmement élevé, plus particulièrement dans un environnement multicloud hybride. La résilience dans le multicloud hybride nécessite un plan de reprise après incident faisant appel à des compétences spécialisées, à une stratégie intégrée et à des technologies avancées, notamment à l'orchestration pour la protection et la récupération des données. Les entreprises doivent mettre en place une résilience complète, associée à une technologie d'orchestration qui les aide à atténuer les risques de continuité des opérations dans le multicloud hybride, et leur permette ainsi d'atteindre leurs objectifs de transformation numérique.
Les autres raisons majeures pour lesquelles une entreprise a besoin d'un plan de reprise après incident détaillé et dûment testé sont les suivantes :
- Réduire les interruptions des opérations normales.
- Limiter la portée des interruptions et des dommages.
- Atténuer l'impact économique de l'interruption.
- Établir à l'avance d'autres moyens garantissant la continuité de l'exploitation.
- Former le personnel aux procédures d'urgence.
- Assurer une restauration du service qui soit rapide et sans heurts.
Pour répondre aux attentes actuelles en matière de continuité des opérations, les entreprises doivent pouvoir restaurer les systèmes critiques en quelques minutes, voire quelques secondes après une interruption.
Comment les entreprises utilisent-elles un plan de reprise après incident ?
De nombreuses entreprises peinent à faire évoluer suffisamment vite leurs stratégies de plan de reprise après incident pour pouvoir prendre en charge les environnements IT hybrides et les opérations métier complexes d'aujourd'hui. Dans un monde toujours connecté 24h/24 et 7j/7, une entreprise peut acquérir un avantage concurrentiel, ou perdre des parts de marché, selon la rapidité avec laquelle elle peut effectuer une reprise suite à un incident et restaurer ses services de cœur de métier.
Certaines entreprises utilisent des services externes de conseil en reprise après incident et en continuité des opérations pour répondre aux besoins en matière d'évaluation, de planification et de conception, de mise en œuvre, de test et de gestion complète de programme de résilience.
Il existe des services proactifs, tels qu'IBM IT Infrastructure Recovery Services, qui aident les entreprises à surmonter les interruptions grâce à des solutions IT de reprise après incident flexibles et économiques.
Face à la prolifération des cyberattaques, les entreprises abandonnent progressivement l'approche de la reprise traditionnelle ou manuelle pour passer à une approche de résilience définie par logiciel. L'approche d'IBM Cyber Resilience Services fait appel à des technologies de pointe et aux meilleures pratiques pour évaluer les risques et prioriser et protéger les applications et les données stratégiques. Ces solutions de reprise après incident peuvent aider les entreprises à récupérer rapidement leur informatique pendant et après une cyberattaque.
D'autres sociétés se tournent vers des services de sauvegarde dans le cloud, tels qu'IBM Disaster Recovery as a Service (DRaaS), pour assurer la réplication continue des applications, des infrastructures, des données et des systèmes stratégiques, permettant une reprise rapide suite à une panne informatique. Il existe également des options de serveur virtuel, telles qu'IBM Cloud Virtualized Server Recovery, qui protègent les serveurs stratégiques en temps réel. Cette solution permet une récupération rapide de vos applications dans un centre IBM Resiliency Center, les entreprises pouvant ainsi rester opérationnelles pendant les périodes de maintenance ou d'indisponibilité imprévue.
Pour un nombre croissant d'entreprises, la solution passe par une orchestration de la résilience, approche basée sur le cloud qui utilise l'automatisation de la reprise après incident et une suite d'outils de gestion de la continuité conçus spécifiquement pour les environnements IT hybrides. Par exemple, IBM Resiliency Orchestration protège les dépendances de processus métier entre les applications, les données et les composants de l'infrastructure. Il augmente la disponibilité des applications métier, permettant aux entreprises d'accéder, depuis un tableau de bord centralisé, aux informations globales ou détaillées nécessaires quant à leur objectif de point de reprise (RPO), leur objectif de temps de reprise (RTO) et la santé globale de la continuité informatique.
Dans le monde toujours connecté d'aujourd'hui, votre entreprise ne peut pas se permettre un temps d'indisponibilité qui entraîne une perte de chiffre d'affaires, une atteinte à sa réputation ou des sanctions réglementaires. Découvrez comment IBM Cloud Resiliency Orchestration peut aider à transformer votre gestion de la reprise IT grâce à l'automatisation. Simplifiez le processus de reprise après incident, augmentez l'efficacité des flux de travaux et réduisez les risques, les coûts et le temps de test du système.
Comment un plan de reprise après incident est-il utilisé dans les différents secteurs d'activité ?
Hyundai Heavy Industries (HHI) a été confrontée à cette dure réalité lorsqu'un séisme de magnitude 5,8 a frappé en 2016. Comme son centre de données était situé près du siège de l'entreprise, à Ulsan City (Corée), le tremblement de terre a servi de sonnette d'alarme et HHI a décidé de contrôler ses systèmes de reprise après incident et d'évaluer son niveau de préparation à toute une série de perturbations potentielles.
En 2016, un tremblement de terre a montré qu'une catastrophe naturelle pouvait détruire l'infrastructure informatique stratégique de Hyundai. La direction informatique a réagi rapidement, en collaborant avec IBM Business Resiliency Services pour implémenter une solution robuste de reprise après incident associée à un centre de données distant.
Quelles sont les principales étapes d'un plan de reprise après incident ?
L'objectif d'un plan de reprise après incident (DR) est de s'assurer qu'une entreprise peut réagir à une catastrophe ou à une autre situation d'urgence qui impacte les systèmes informatiques, et réduire au minimum l'effet sur les opérations métier. IBM a créé un modèle qui permet de créer un plan de reprise après incident de base. Les étapes suggérées dans le modèle de reprise après incident sont les suivantes : Lorsque vous avez préparé les informations, il est recommandé de conserver le document dans un lieu sûr et accessible, extérieur au site.
Étape 1: Principaux objectifs La première étape consiste à définir sommairement les principaux objectifs du plan de reprise après incident.
Étape 2: Personnel Enregistrer les coordonnées du personnel en charge du traitement de données. Joignez une copie de l'organigramme à votre plan.
Étape 3 : Profil d'application Répertorier les applications en précisant si elles sont stratégiques et s'il s'agit d'un actif fixe.
Étape 4 : Profil d'inventaire Indiquer le fabricant, le modèle, le numéro de série, le coût, et préciser si chaque élément vous appartient ou s'il est loué.
Étape 5 : Procédures de sauvegarde des services d'information Inclure des informations telles que : "Les récepteurs de journal ont été modifiés le ________ et le ________. Et : "Les objets modifiés dans les bibliothèques et répertoires suivants ont été sauvegardés le ____.
Étape 6 : Procédures de reprise après incident Dans tout plan de reprise après incident, une solution doit permettre de gérer ces trois éléments :
- Procédures d'intervention d'urgence documentant la réaction d'urgence appropriée en cas d'incendie, de catastrophe naturelle ou de toute autre activité afin de protéger des vies et de limiter les dommages.
- Procédures d'opérations de sauvegarde garantissant que les tâches opérationnelles de traitement des données essentielles peuvent avoir lieu après l'interruption.
- Procédures d'actions de reprise permettant la restauration rapide d'un système de traitement de données suite à une catastrophe.
Étape 7 : Plan de reprise après incident pour un site mobile Le plan doit inclure un plan de configuration du site mobile, un plan des communications (y compris les diagrammes de câblage) et un diagramme de maintenance électrique.
Étape 8 : Plan de reprise après incident pour site de secours Un plan de rechange pour un site de secours doit prévoir un autre site (site de sauvegarde). Le site de substitution dispose d'un système de sauvegarde temporaire pendant que le site d'origine est en cours de rétablissement.
Étape 9 : Restauration de l'ensemble du système Pour restaurer le système à son état antérieur à l'incident, utilisez les procédures de reprise après une perte complète du système, décrites dans Gestion des systèmes : Sauvegarde et reprise.
Étape 10 : Reconstruction L'équipe de direction doit évaluer les dommages et commencer la construction d'un nouveau centre de données.
Étape 11 : Test de la reprise après incident et du plan de cyber-reprise Dans une planification d'urgence réussie, il est important de tester et d'évaluer régulièrement le plan de reprise après incident. Les opérations de traitement des données sont de nature volatile, ce qui entraîne des modifications fréquentes des équipements, des programmes et de la documentation. Ces mesures font qu'il est essentiel de considérer le plan comme un document en constante évolution.
Étape 12 : Reconstruction d'un site de reprise après incident Cette étape doit inclure un plan du centre de données, indiquer les besoins matériels actuels et les solutions alternatives possibles, ainsi que la superficie du centre de données, ses besoins en alimentation et les critères de sécurité.
Étape 13 : Enregistrement des modifications du plan Mettez régulièrement à jour votre plan de reprise après incident. Conservez les enregistrements des modifications apportées à votre configuration, à vos applications et à vos plannings et procédures de sauvegarde.