Qu'est-ce que la haute disponibilité ?

Scène aérienne de Hong Kong la nuit, avec routes et circulation

Auteurs

Mesh Flinders

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

Qu'est-ce que la haute disponibilité ?

La haute disponibilité (HA) désigne la capacité d’un système à rester accessible et fiable presque 100 % du temps.

Un système hautement disponible doit pouvoir résister à des interruptions, qu’il s’agisse de temps d'arrêt planifiés ou de sinistres à grande échelle. Un système HA répond généralement à deux critères clés :

  • Il doit rester disponible quasiment en permanence.
  • Il doit satisfaire un ensemble d’attentes prédéfinies de la part des utilisateurs. 

Avec l’essor des initiatives de transformation numérique et la migration croissante vers le cloud, de nombreuses entreprises technologiques et fournisseurs de SaaS (logiciel en tant que service), notamment Microsoft, Amazon (AWS), IBM, Red Hat, entres autres.

La haute disponibilité des systèmes informatiques est particulièrement importante dans les secteurs où les applications critiques ne peuvent tolérer aucun temps d’arrêt ou presque, comme dans les hôpitaux ou les centres de données. Dans ces établissements, les utilisateurs comptent sur des solutions de haute disponibilité pour assurer de nombreuses fonctions quotidiennes essentielles. Si les utilisateurs ne peuvent pas accéder à un système, celui-ci est considéré comme indisponible. Le laps de temps pendant lequel un système est inaccessible est appelé temps d’arrêt.

HA et reprise après sinistre (DR)

La reprise après sinistre (DR) regroupe les technologies et bonnes pratiques d’infrastructure informatique conçues pour prévenir ou minimiser les pertes de données et les interruptions de continuité des activités en cas d’événements catastrophiques. La haute disponibilité (HA), quant à elle, concerne généralement des pannes ou défaillances plus limitées pouvant affecter la disponibilité des systèmes.

Bien qu’elles soient différentes, la DR et la HA ont en commun l’objectif de réduire au maximum les interruptions des systèmes informatiques. Elles s’appuient souvent sur des composants redondants et des systèmes en doublon dans le cadre d'une stratégie globale. De plus, la DR et la HA utilisent toutes deux des sauvegardes de données pour garantir l’accès aux informations en cas de problèmes, tels que des défaillances matérielles, des pannes logicielles ou des coupures de courant.

HA et tolérance aux pannes

La tolérance aux pannes désigne la capacité d’un système à continuer de fonctionner même après la défaillance d’un ou de plusieurs de ses composants critiques. Tout comme la haute disponibilité, elle vise à maintenir l’accès au système pendant ou après un événement perturbateur.

Cependant, la différence principale réside dans la gestion des temps d’arrêt. La haute disponibilité cherche à réduire les interruptions au minimum, tandis que la tolérance aux pannes vise zéro interruption, ce qui nécessite une redondance totale – autrement dit, une copie de secours de chaque composant de l’infrastructure.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Les avantages de la haute disponibilité

Avec la généralisation des services en ligne et des architectures cloud et cloud hybride pour les applications et les services critiques, la demande en infrastructure ne cesse de croître, faisant de la haute disponibilité une priorité stratégique. Voici quelques-uns des avantages les plus courants des systèmes hautement disponibles pour les organisations.

Amélioration de la flexibilité

La transformation numérique étant un objectif majeur pour la plupart des entreprises, la haute disponibilité des systèmes est essentielle pour garantir un accès ininterrompu aux applications vitales, tant pour les collaborateurs que pour les clients1.

Sécuriser les données
Une architecture HA garantit que les données les plus sensibles restent disponibles, accessibles et protégées contre les violations non autorisées.
Réputation de la marque préservée

Des pannes systèmes entraînant des heures, voire simplement quelques minutes de temps d'arrêt peuvent provoquer de graves incidents de communication dans des secteurs comme le SaaS, l’aéronautique ou les technologies mobiles2. Une infrastructure à haute disponibilité garantit que la réputation d'une marque n'est pas compromise par une panne ou un temps d'arrêt imprévu.

Meilleur service client

Les MSP doivent assurer une disponibilité constante des réseaux pour respecter leurs accords de niveau de service (SLA). Les systèmes HA leur permettent de garantir des services fiables à leurs clients stratégiques, qu’il s’agisse de véhicules autonomes ou d’établissements de santé gérant des dossiers patients.

AI Academy

Se préparer à l’IA avec le cloud hybride

Dirigé par des leaders d’opinion IBM, le programme a pour but d’aider les chefs d’entreprise à acquérir les connaissances nécessaires qui leur permettront d’orienter leurs investissements IA vers les opportunités les plus prometteuses.

Comment atteindre une haute disponibilité

Qu’il s’agisse de viser zéro temps d'arrêt dans des secteurs comme la santé ou la finance, ou simplement de prévenir toute perte de réputation liée aux pannes, les entreprises qui cherchent à garantir une haute disponibilité suivent généralement un processus en quatre étapes :

  1. Éliminer les points de défaillance unique  : un point de défaillance unique est un composant dont la panne entraînerait l’interruption de l’ensemble du système. Par exemple, si plusieurs serveurs dépendent d’un seul commutateur réseau, la défaillance de ce dernier mettra tous les serveurs hors service. Une stratégie courante pour atténuer ce risque est l'équilibrage de charge, qui consiste à distribuer la charge de travail sur plusieurs ressources du système pour éviter toute dépendance critique.

  2. Mettre en place un basculement fiable : le basculement permet de transférer automatiquement les workloads d’un système principal vers un système secondaire en cas de défaillance. Lorsqu’il est bien conçu, ce processus garantit la continuité des opérations sans perte de données ni baisse de performance significative.

  3. Détecter instantanément les défaillances : la haute disponibilité repose sur la capacité à détecter les pannes dès leur apparition. De nombreux systèmes modernes intègrent des mécanismes de détection automatisés. Certains vont même plus loin en enclenchant immédiatement des actions correctives, comme le déclenchement d’un basculement.

  4. Mettre en œuvre une stratégie solide de sauvegarde et de restauration : en cas de défaillance partielle du système, la perte de données peut être évitée grâce à des procédures efficaces de sauvegarde et de restauration. Les technologies de protection des données réalisent des copies régulières des fichiers et applications sur des supports secondaires, assurant une reprise rapide des services si nécessaire.

Équilibrage de charge

De nombreux systèmes à haute disponibilité utilisent l'équilibrage de charge, un processus qui consiste à distribuer le trafic entre plusieurs serveurs afin d’optimiser la disponibilité des applications. Par exemple, dans le cas d’un site web ou d’un service cloud à fort trafic, le système peut recevoir des millions de requêtes par jour. L’équilibrage de charge permet de garantir que les applications peuvent transmettre le contenu des serveurs web aux utilisateurs de manière rapide et sans interruption.Utiliser plusieurs équilibreurs de charge en parallèle permet également d’éviter qu’un seul composant ne soit surchargé, ce qui pourrait entraîner un point de défaillance unique susceptible de provoquer une interruption de service ou une panne.

Redondance

La redondance, c’est-à-dire la présence d’un composant secondaire ou de secours prêt à prendre le relais en cas de défaillance du composant principal, est un élément fondamental d’un système à haute disponibilité.Grâce à cette approche, les bases de données, par exemple, restent accessibles aux utilisateurs et aux applications même si un composant tombe en panne. Un composant non redondant constitue un point de défaillance unique, dont la perte peut potentiellement mettre tout le système hors service.

Clusters à haute disponibilité

Les clusters à haute disponibilité – appelés aussi partitionnements haute disponibilité dans ce contexte – sont des ensembles de machines connectées fonctionnant comme un système unique. Si une machine du cluster tombe en panne, un logiciel de gestion de cluster transfère automatiquement ses workloads vers une autre machine. Dans ce type d’architecture, un espace de stockage partagé entre les nœuds (ou machines) garantit l’absence de perte de données, même si un nœud cesse de fonctionner.

Comment mesurer la haute disponibilité ?

La haute disponibilité se mesure par rapport à un objectif théorique de 100 % de fonctionnement sans aucune interruption. Même si aucun système ne peut garantir une disponibilité totale, se fixer cet objectif permet d’évaluer la performance réelle d’un système sur une période donnée. L'indicateur le plus courant pour les systèmes et les services à haute disponibilité est ce qu’on appelle la disponibilité cinq-neuf.

Disponibilité « cinq-neuf »

Une disponibilité cinq-neuf signifie qu’un système fonctionne et reste accessible 99,999 % du temps. Cette exigence s’applique généralement aux secteurs critiques comme la santé, les transports, la finance ou les services publics, où l’accès permanent aux services peut avoir un impact direct sur la vie des personnes, leur sécurité ou leur bien-être économique.

Les systèmes qui ne relèvent pas de secteurs aussi critiques n’ont généralement pas besoin d’un niveau de disponibilité aussi élevé et peuvent se contenter d’une disponibilité « trois-neuf » (99,9 %) ou « quatre-neuf » (99,99 %). On parle aussi, plus simplement, de « 99,9 % de disponibilité » ou de « 99,999 %de temps de fonctionnement ».

Autres indicateurs clés : temps moyen et de réparation

En complément de la disponibilité cinq-neuf, les responsables informatiques s’appuient sur plusieurs autres indicateurs pour évaluer la disponibilité effective de leurs systèmes :

  • Intervalle moyen entre les défaillances (MTBF) : l’intervalle moyen entre les défaillances (MTBF) est une mesure de la fiabilité d’un système ou d’un composant. Il s'agit d'un élément essentiel de la gestion de la maintenance, représentant le temps moyen pendant lequel un système ou un composant fonctionne avant de tomber en panne. La formule MTBF est souvent utilisée dans le contexte de la facilité de maintenance des systèmes industriels ou électroniques, où la défaillance d’un composant peut entraîner des temps d’arrêt importants, voire des risques pour la sécurité. Le MTBF est toutefois utilisé dans de nombreux types de systèmes réparables et dans divers secteurs.

  • Temps moyen de réparation (MTTR) : le temps moyen de réparation (MTTR), parfois appelé temps moyen de remise en route, est un indicateur utilisé pour mesurer le temps moyen nécessaire à la réparation d’un système ou d’un équipement en cas de défaillance. Le MTTR inclut le temps écoulé entre le moment où la défaillance se produit et le moment où le système ou l’équipement est à nouveau pleinement fonctionnel, ce qui inclut le temps nécessaire pour détecter la panne, diagnostiquer le problème et le résoudre. Le MTTR est un indicateur important à surveiller, car il évalue la disponibilité et la fiabilité des systèmes et équipements.

  • L’objectif de temps de reprise (RTO) : l’objectif de temps de reprise (RTO) est la durée nécessaire pour se remettre d’une interruption (planifiée, non planifiée ou liée à un sinistre) et reprendre le fonctionnement normal d’un système, d’une application ou d’un ensemble d’applications. Le RTO peut varier selon qu’il s’agisse d’une interruption planifiée, non planifiée ou d’un scénario de reprise après sinistre.

  • Objectif de point de reprise (RPO) : l’objectif de point de reprise (RPO) désigne le point dans le temps, par rapport à l’incident, auquel les données doivent être restaurées. Les modifications effectuées avant ce point sont préservées lors du processus de reprise. Une valeur de zéro est possible, ce qui équivaut à une exigence de « zéro perte de données ».

Exemples de haute disponibilité

À mesure que les entreprises de tous les secteurs mènent des initiatives de transformation numérique à grande échelle, les exigences en matière de disponibilité de leurs infrastructures augmentent. Le travail à distance et le déploiement des réseaux 5G ont conduit les utilisateurs à attendre un accès constant aux données et aux applications, où qu’ils se trouvent. Mais cela n’est possible que si les systèmes sous-jacents assurant le fonctionnement des applications et la gestion des accès sont disponibles. Voici quelques exemples de systèmes hautement disponibles qui soutiennent la performance des entreprises modernes :

Dossiers médicaux électroniques (DME)

Fini le temps où les médecins devaient fouiller dans des classeurs pour retrouver la date de votre dernier vaccin. Aujourd’hui, si vous vous présentez aux urgences ou chez un·e spécialiste, il est presque certain que votre dossier médical sera consulté en ligne. En raison du caractère critique et confidentiel de ces données, les DME constituent un exemple de système hautement disponible, capable de fournir des informations fiables et sécurisées en quelques secondes, avec un temps d’arrêt quasi nul.

Véhicules autonomes

Les voitures, drones et autres véhicules autonomes reposent sur des connexions internet rapides et puissantes pour que l’intelligence artificielle (IA) qui les pilote fonctionne correctement. Lorsqu’un véhicule autonome arrive à un feu rouge, des dizaines de milliers de données sont traitées quasi instantanément pour lui permettre de s’arrêter au bon endroit et de poursuivre sa route. La haute disponibilité est donc essentielle pour garantir la sécurité de tous les types de véhicules autonomes.

Internet des objets (IdO)

L’Internet des objets (IdO) désigne un réseau d’appareils physiques (véhicules, équipements électroménagers, infrastructures, etc.) dotés de capteurs connectés à Internet qui leur permettent de collecter et de partager des données. À mesure que l’IdO se déploie dans les routes, les foyers, les systèmes de surveillance météorologique ou encore les voies navigables, des millions de dispositifs dépendent de réseaux stables. La haute disponibilité garantit le bon fonctionnement de ces réseaux, sans interruption.

Big Data

Avec la croissance exponentielle des volumes de données générées par les entreprises, la haute disponibilité est devenue incontournable pour assurer un traitement rapide et efficace. Les centres de données et les plateformes d’analyse avancée doivent fonctionner en continu pour permettre des analyses en temps réel. La moindre interruption peut retarder des projets de plusieurs mois. Les solutions de haute disponibilité offrent aux entreprises un accès ininterrompu (24/7/365) à leurs données les plus stratégiques.

Solutions connexes
IBM Cloud Infrastructure Center 

IBM Cloud Infrastructure Center est une plateforme logicielle compatible avec OpenStack pour gérer l’infrastructure de clouds privés sur IBM zSystems et IBM LinuxONE.

Découvrir Cloud Infrastructure Center
Solutions d’infrastructure informatique

Découvrez des serveurs, des solutions de stockage et des logiciels conçus pour votre stratégie d’entreprise en matière de cloud hybride et d’IA.

Découvrir les solutions d’infrastructure informatique
Solutions d’infrastructure cloud

Trouvez la solution d’infrastructure cloud adaptée aux besoins de votre entreprise et ajustez les ressources en fonction de la demande.

Solutions cloud
Passez à l’étape suivante

Transformez l’infrastructure de votre entreprise grâce aux solutions de cloud hybride IBM prêtes pour l’IA. Découvrez des serveurs, des solutions de stockage et des logiciels conçus pour sécuriser, faire évoluer et moderniser votre entreprise, ou accédez à des informations d’experts pour améliorer votre stratégie d’IA générative.

Découvrir les solutions d’infrastructure informatique Télécharger l’eBook