Le RTO (objectif de temps de reprise) expliqué

Par IBM Services

Qu'est-ce qu'un RTO (objectif de temps de reprise) ?

Le RTO représente le temps d'indisponibilité d'une application n'entraînant pas de dommages importants pour une entreprise, et le temps nécessaire au système pour réaliser la reprise suite à la perte de disponibilité. Ce processus de reprise inclut les mesures que la fonction IT doit prendre pour restaurer l'application et ses données à leur état antérieur à l'incident. Dans le cas d'applications à haute priorité, un RTO peut être exprimé en secondes sans dommages, à condition que la fonction IT ait investi dans des services de reprise en ligne. Pour déterminer les RTO, votre service IT doit au préalable trier les applications en fonction de leur priorité et du risque de perte d'activité métier. L'équipe IT affecte alors à ces applications la quantité appropriée des ressources de votre entreprise : temps, budget et infrastructure informatique.

Détermination d'un RTO

Les RTO sont utilisés pour mesurer le temps nécessaire au service IT pour récupérer les données après l'incident. Comme base d'évaluation, les RTO considèrent les besoins globaux de votre entreprise et déterminent combien de temps elle peut survivre sans son infrastructure et ses services IT. Votre équipe IT doit d'abord aligner les RTO sur ce qui est possible. Les administrateurs IT ont besoin de bien maîtriser les différents types de vitesse de restauration pour calculer un RTO adapté aux besoins de l'entreprise. Par exemple, un RTO d'une heure est impossible si le temps de restauration minimum possible est de deux heures.

Comme ce processus implique la restauration de toutes les opérations informatiques, les RTO sont souvent compliqués. Votre équipe IT peut rationaliser une partie du processus de reprise en l'automatisant autant que possible. Le RTO peut avoir des coûts plus élevés que ceux d'un RPO (objectif de point de reprise) granulaire. Un RTO exigeant implique l'ensemble de votre infrastructure et pas seulement les données. Le coût de l'obtention d'un RTO ou d'un RPO correspond à la priorisation des applications et des données réalisée par votre équipe IT. L'équipe IT définit les priorités des applications et des données en fonction de leurs revenus et de leurs risques. Si les données d'une application sont soumises à une réglementation, la perte de données de cette application peut entraîner de lourdes sanctions, quelle que soit la fréquence d'utilisation de l'application.

Obtention d'un RTO ou d'un RPO proche de zéro

Bien que les RTO et les RPO varient en ce qui concerne l'application et la priorité des données, il est incroyablement coûteux pour une entreprise de fournir un RTO ou RPO proche de zéro pour toutes ses applications. Un temps de disponibilité de 100 % pour un RTO et une perte nulle de données pour un RPO ne peuvent être atteints qu'en investissant dans la réplication continue des données et dans des environnements virtuels.

Exemple de RTO

La récupération d'éléments granulaires est un exemple de RTO. Dans cet exemple, un utilisateur d'une entreprise très active supprime un courrier électronique important et vide le dossier de la corbeille. Cette entreprise utilise Microsoft Exchange qui est pour elle une application stratégique. Son service informatique sauvegarde constamment les changements de niveau delta dans Exchange, et utilise également une application de sauvegarde permettant une sauvegarde et une reprise granulaires. Cette fonctionnalité permet au service IT de récupérer rapidement ce courrier électronique important, en cinq minutes environ, au lieu de devoir restaurer une machine virtuelle complète pour un seul e-mail.

Qu'est-ce qu'un objectif de temps de reprise (RTO) et comment affecte-t-il la reprise après incident de votre entreprise ?

Reprise après incident et RTO

Pannes de courant. Vols. Serveurs et unités de disque dur compromis. Cyberattaques et rançongiciels. Tornades, tremblements de terre et ouragans. Il existe de nombreux types de catastrophe qui peuvent faire des ravages dans votre entreprise si vous n'y êtes pas préparé. Parce que ces catastrophes sont souvent inévitables, il est essentiel de disposer d'une infrastructure informatique solide et d'établir des délais et des objectifs de reprise réguliers pour renforcer votre reprise. Votre équipe IT peut effectuer la reprise en ligne d'une application et répliquer vos données de façon à ce que la perte soit quasiment nulle, mais pour ce faire, elle a besoin de ressources considérables. Votre équipe IT doit établir un RTO en fonction de la priorité des applications, ainsi que du budget et des ressources dont elle dispose.

Qu'est-ce qu'un RPO et quelle est la différence avec les RTO ?

Les RTO coïncident avec les objectifs de point de reprise (RPO), une mesure du temps écoulé à compter d'une défaillance, d'un incident grave ou d'un événement similaire causant des pertes. Les RPO calculent l'heure et la date auxquelles vos données étaient utilisables pour la dernière fois. Il s'agit en général la dernière sauvegarde. Les RPO et les RTO sont des concepts cruciaux pour la continuité des opérations et constituent des métriques métier nécessaires pour déterminer la fréquence de planification des sauvegardes de données dans l'entreprise.

Orchestration de la résilience et reprise après incident

Une stratégie de reprise après incident se heurte à de nombreux défis, en particulier en cas de reprise après incident dans un environnement informatique hybride. Ces défis sont notamment les suivants, mais la liste n'est pas exhaustive :

  • Charges de travail déployées sur différents environnements
  • Interdépendances entre l'infrastructure IT et les applications
  • Rapprochement de tous les appareils, composants et applications du RPO et restauration des opérations complètes de l'entreprise
  • La restauration du système peut être retardée si les systèmes et applications sont restaurés dans le mauvais ordre

Que faire pour élaborer et mettre en œuvre une stratégie efficace de reprise après incident malgré tous les obstacles ? La récupération de plusieurs applications stratégiques en quelques heures est en général possible si votre équipe IT est compétente, mais elle nécessite une grande quantité de ressources précieuses. La tendance actuelle va vers des RTO et des RPO plus importants et une reprise du système caractérisée par la restauration rapide de nombreuses applications stratégiques. Il est désormais possible d'atténuer l'impact de l'interruption et d'effectuer une reprise en quelques minutes après une panne. L'automatisation est cruciale, car elle permet de mettre à l'échelle les programmes de reprise après incident en automatisant les flux de travaux entre différentes applications de manière rapide et fiable, lors de la transition vers des environnements hybrides.

La technologie actuelle d'orchestration de la résilience vous aide à mettre en œuvre votre stratégie de reprise après incident et à réduire les exigences en termes de temps d'indisponibilité de la production et d'exposition métier suite à des pannes. En termes de préparation, l'orchestration de la résilience aide les entreprises à réaliser des tests de reprise après incident avec des effectifs moindres. L'orchestration de la résilience aide également ces entreprises à réduire la préparation et la validation des exercices de reprise après incident. L'un des principaux avantages de la technologie d'orchestration de la résilience est sa capacité à fonctionner dans des environnements physiques, virtuels et cloud tout en continuant à détecter les applications. À l'heure où libre-service et accords de niveau de service modérés font de plus en plus partie des attentes des utilisateurs finaux des services cloud, les stratégies de résilience basées sur l'orchestration jouent un rôle de plus en plus crucial pour les entreprises modernes qui envisagent le passage à des environnements cloud.