La haute disponibilité (HA) désigne la capacité d’un système à rester accessible et fiable presque 100 % du temps.
Un système hautement disponible doit pouvoir résister à des interruptions, qu’il s’agisse de temps d'arrêt planifiés ou de sinistres à grande échelle. Un système HA répond généralement à deux critères clés :
Avec l’essor des initiatives de transformation numérique et la migration croissante vers le cloud, de nombreuses entreprises technologiques et fournisseurs de SaaS (logiciel en tant que service), notamment Microsoft, Amazon (AWS), IBM, Red Hat, entres autres.
La haute disponibilité des systèmes informatiques est particulièrement importante dans les secteurs où les applications critiques ne peuvent tolérer aucun temps d’arrêt ou presque, comme dans les hôpitaux ou les centres de données. Dans ces établissements, les utilisateurs comptent sur des solutions de haute disponibilité pour assurer de nombreuses fonctions quotidiennes essentielles. Si les utilisateurs ne peuvent pas accéder à un système, celui-ci est considéré comme indisponible. Le laps de temps pendant lequel un système est inaccessible est appelé temps d’arrêt.
La reprise après sinistre (DR) regroupe les technologies et bonnes pratiques d’infrastructure informatique conçues pour prévenir ou minimiser les pertes de données et les interruptions de continuité des activités en cas d’événements catastrophiques. La haute disponibilité (HA), quant à elle, concerne généralement des pannes ou défaillances plus limitées pouvant affecter la disponibilité des systèmes.
Bien qu’elles soient différentes, la DR et la HA ont en commun l’objectif de réduire au maximum les interruptions des systèmes informatiques. Elles s’appuient souvent sur des composants redondants et des systèmes en doublon dans le cadre d'une stratégie globale. De plus, la DR et la HA utilisent toutes deux des sauvegardes de données pour garantir l’accès aux informations en cas de problèmes, tels que des défaillances matérielles, des pannes logicielles ou des coupures de courant.
La tolérance aux pannes désigne la capacité d’un système à continuer de fonctionner même après la défaillance d’un ou de plusieurs de ses composants critiques. Tout comme la haute disponibilité, elle vise à maintenir l’accès au système pendant ou après un événement perturbateur.
Cependant, la différence principale réside dans la gestion des temps d’arrêt. La haute disponibilité cherche à réduire les interruptions au minimum, tandis que la tolérance aux pannes vise zéro interruption, ce qui nécessite une redondance totale – autrement dit, une copie de secours de chaque composant de l’infrastructure.
Avec la généralisation des services en ligne et des architectures cloud et cloud hybride pour les applications et les services critiques, la demande en infrastructure ne cesse de croître, faisant de la haute disponibilité une priorité stratégique. Voici quelques-uns des avantages les plus courants des systèmes hautement disponibles pour les organisations.
La transformation numérique étant un objectif majeur pour la plupart des entreprises, la haute disponibilité des systèmes est essentielle pour garantir un accès ininterrompu aux applications vitales, tant pour les collaborateurs que pour les clients1.
Des pannes systèmes entraînant des heures, voire simplement quelques minutes de temps d'arrêt peuvent provoquer de graves incidents de communication dans des secteurs comme le SaaS, l’aéronautique ou les technologies mobiles2. Une infrastructure à haute disponibilité garantit que la réputation d'une marque n'est pas compromise par une panne ou un temps d'arrêt imprévu.
Les MSP doivent assurer une disponibilité constante des réseaux pour respecter leurs accords de niveau de service (SLA). Les systèmes HA leur permettent de garantir des services fiables à leurs clients stratégiques, qu’il s’agisse de véhicules autonomes ou d’établissements de santé gérant des dossiers patients.
Qu’il s’agisse de viser zéro temps d'arrêt dans des secteurs comme la santé ou la finance, ou simplement de prévenir toute perte de réputation liée aux pannes, les entreprises qui cherchent à garantir une haute disponibilité suivent généralement un processus en quatre étapes :
De nombreux systèmes à haute disponibilité utilisent l'équilibrage de charge, un processus qui consiste à distribuer le trafic entre plusieurs serveurs afin d’optimiser la disponibilité des applications. Par exemple, dans le cas d’un site web ou d’un service cloud à fort trafic, le système peut recevoir des millions de requêtes par jour. L’équilibrage de charge permet de garantir que les applications peuvent transmettre le contenu des serveurs web aux utilisateurs de manière rapide et sans interruption.Utiliser plusieurs équilibreurs de charge en parallèle permet également d’éviter qu’un seul composant ne soit surchargé, ce qui pourrait entraîner un point de défaillance unique susceptible de provoquer une interruption de service ou une panne.
La redondance, c’est-à-dire la présence d’un composant secondaire ou de secours prêt à prendre le relais en cas de défaillance du composant principal, est un élément fondamental d’un système à haute disponibilité.Grâce à cette approche, les bases de données, par exemple, restent accessibles aux utilisateurs et aux applications même si un composant tombe en panne. Un composant non redondant constitue un point de défaillance unique, dont la perte peut potentiellement mettre tout le système hors service.
Les clusters à haute disponibilité – appelés aussi partitionnements haute disponibilité dans ce contexte – sont des ensembles de machines connectées fonctionnant comme un système unique. Si une machine du cluster tombe en panne, un logiciel de gestion de cluster transfère automatiquement ses workloads vers une autre machine. Dans ce type d’architecture, un espace de stockage partagé entre les nœuds (ou machines) garantit l’absence de perte de données, même si un nœud cesse de fonctionner.
La haute disponibilité se mesure par rapport à un objectif théorique de 100 % de fonctionnement sans aucune interruption. Même si aucun système ne peut garantir une disponibilité totale, se fixer cet objectif permet d’évaluer la performance réelle d’un système sur une période donnée. L'indicateur le plus courant pour les systèmes et les services à haute disponibilité est ce qu’on appelle la disponibilité cinq-neuf.
Une disponibilité cinq-neuf signifie qu’un système fonctionne et reste accessible 99,999 % du temps. Cette exigence s’applique généralement aux secteurs critiques comme la santé, les transports, la finance ou les services publics, où l’accès permanent aux services peut avoir un impact direct sur la vie des personnes, leur sécurité ou leur bien-être économique.
Les systèmes qui ne relèvent pas de secteurs aussi critiques n’ont généralement pas besoin d’un niveau de disponibilité aussi élevé et peuvent se contenter d’une disponibilité « trois-neuf » (99,9 %) ou « quatre-neuf » (99,99 %). On parle aussi, plus simplement, de « 99,9 % de disponibilité » ou de « 99,999 %de temps de fonctionnement ».
En complément de la disponibilité cinq-neuf, les responsables informatiques s’appuient sur plusieurs autres indicateurs pour évaluer la disponibilité effective de leurs systèmes :
À mesure que les entreprises de tous les secteurs mènent des initiatives de transformation numérique à grande échelle, les exigences en matière de disponibilité de leurs infrastructures augmentent. Le travail à distance et le déploiement des réseaux 5G ont conduit les utilisateurs à attendre un accès constant aux données et aux applications, où qu’ils se trouvent. Mais cela n’est possible que si les systèmes sous-jacents assurant le fonctionnement des applications et la gestion des accès sont disponibles. Voici quelques exemples de systèmes hautement disponibles qui soutiennent la performance des entreprises modernes :
Fini le temps où les médecins devaient fouiller dans des classeurs pour retrouver la date de votre dernier vaccin. Aujourd’hui, si vous vous présentez aux urgences ou chez un·e spécialiste, il est presque certain que votre dossier médical sera consulté en ligne. En raison du caractère critique et confidentiel de ces données, les DME constituent un exemple de système hautement disponible, capable de fournir des informations fiables et sécurisées en quelques secondes, avec un temps d’arrêt quasi nul.
Les voitures, drones et autres véhicules autonomes reposent sur des connexions internet rapides et puissantes pour que l’intelligence artificielle (IA) qui les pilote fonctionne correctement. Lorsqu’un véhicule autonome arrive à un feu rouge, des dizaines de milliers de données sont traitées quasi instantanément pour lui permettre de s’arrêter au bon endroit et de poursuivre sa route. La haute disponibilité est donc essentielle pour garantir la sécurité de tous les types de véhicules autonomes.
L’Internet des objets (IdO) désigne un réseau d’appareils physiques (véhicules, équipements électroménagers, infrastructures, etc.) dotés de capteurs connectés à Internet qui leur permettent de collecter et de partager des données. À mesure que l’IdO se déploie dans les routes, les foyers, les systèmes de surveillance météorologique ou encore les voies navigables, des millions de dispositifs dépendent de réseaux stables. La haute disponibilité garantit le bon fonctionnement de ces réseaux, sans interruption.
Avec la croissance exponentielle des volumes de données générées par les entreprises, la haute disponibilité est devenue incontournable pour assurer un traitement rapide et efficace. Les centres de données et les plateformes d’analyse avancée doivent fonctionner en continu pour permettre des analyses en temps réel. La moindre interruption peut retarder des projets de plusieurs mois. Les solutions de haute disponibilité offrent aux entreprises un accès ininterrompu (24/7/365) à leurs données les plus stratégiques.
IBM Cloud Infrastructure Center est une plateforme logicielle compatible avec OpenStack pour gérer l’infrastructure de clouds privés sur IBM zSystems et IBM LinuxONE.
Découvrez des serveurs, des solutions de stockage et des logiciels conçus pour votre stratégie d’entreprise en matière de cloud hybride et d’IA.
Trouvez la solution d’infrastructure cloud adaptée aux besoins de votre entreprise et ajustez les ressources en fonction de la demande.
1. « Gartner says 89% of Board Directors Say Digital is Embedded in All Business Growth Strategies » , Gartner, 19 octobre 2022
2. « The Global IT Outage Provides Several Crisis Management Lessons », Forbes, 19 juillet 2024