Qu'est-ce que la haute disponibilité ?

Scène aérienne de Hong Kong la nuit, avec routes et circulation

Auteurs

Mesh Flinders

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

Qu'est-ce que la haute disponibilité ?

La haute disponibilité (HA) désigne la capacité d’un système à rester accessible et fiable presque 100 % du temps.

Un système hautement disponible doit pouvoir résister à des interruptions, qu’il s’agisse de temps d'arrêt planifiés ou de sinistres à grande échelle. Un système HA répond généralement à deux critères clés :

Il doit rester disponible quasiment en permanence.
Il doit satisfaire un ensemble d’attentes prédéfinies de la part des utilisateurs.

Avec l’essor des initiatives de transformation numérique et la migration croissante vers le cloud, de nombreuses entreprises technologiques et fournisseurs de SaaS (logiciel en tant que service), notamment Microsoft, Amazon (AWS), IBM, Red Hat, entres autres.

La haute disponibilité des systèmes informatiques est particulièrement importante dans les secteurs où les applications critiques ne peuvent tolérer aucun temps d’arrêt ou presque, comme dans les hôpitaux ou les centres de données. Dans ces établissements, les utilisateurs comptent sur des solutions de haute disponibilité pour assurer de nombreuses fonctions quotidiennes essentielles. Si les utilisateurs ne peuvent pas accéder à un système, celui-ci est considéré comme indisponible. Le laps de temps pendant lequel un système est inaccessible est appelé temps d’arrêt.

HA et reprise après sinistre (DR)

La reprise après sinistre (DR) regroupe les technologies et bonnes pratiques d’infrastructure informatique conçues pour prévenir ou minimiser les pertes de données et les interruptions de continuité des activités en cas d’événements catastrophiques. La haute disponibilité (HA), quant à elle, concerne généralement des pannes ou défaillances plus limitées pouvant affecter la disponibilité des systèmes.

Bien qu’elles soient différentes, la DR et la HA ont en commun l’objectif de réduire au maximum les interruptions des systèmes informatiques. Elles s’appuient souvent sur des composants redondants et des systèmes en doublon dans le cadre d'une stratégie globale. De plus, la DR et la HA utilisent toutes deux des sauvegardes de données pour garantir l’accès aux informations en cas de problèmes, tels que des défaillances matérielles, des pannes logicielles ou des coupures de courant.

HA et tolérance aux pannes

La tolérance aux pannes désigne la capacité d’un système à continuer de fonctionner même après la défaillance d’un ou de plusieurs de ses composants critiques. Tout comme la haute disponibilité, elle vise à maintenir l’accès au système pendant ou après un événement perturbateur.

Cependant, la différence principale réside dans la gestion des temps d’arrêt. La haute disponibilité cherche à réduire les interruptions au minimum, tandis que la tolérance aux pannes vise zéro interruption, ce qui nécessite une redondance totale – autrement dit, une copie de secours de chaque composant de l’infrastructure.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA  

La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Les avantages de la haute disponibilité

Avec la généralisation des services en ligne et des architectures cloud et cloud hybride pour les applications et les services critiques, la demande en infrastructure ne cesse de croître, faisant de la haute disponibilité une priorité stratégique. Voici quelques-uns des avantages les plus courants des systèmes hautement disponibles pour les organisations.

Amélioration de la flexibilité

La transformation numérique étant un objectif majeur pour la plupart des entreprises, la haute disponibilité des systèmes est essentielle pour garantir un accès ininterrompu aux applications vitales, tant pour les collaborateurs que pour les clients¹.

Sécuriser les données

Une architecture HA garantit que les données les plus sensibles restent disponibles, accessibles et protégées contre les violations non autorisées.

Réputation de la marque préservée

Des pannes systèmes entraînant des heures, voire simplement quelques minutes de temps d'arrêt peuvent provoquer de graves incidents de communication dans des secteurs comme le SaaS, l’aéronautique ou les technologies mobiles². Une infrastructure à haute disponibilité garantit que la réputation d'une marque n'est pas compromise par une panne ou un temps d'arrêt imprévu.

Meilleur service client

Les MSP doivent assurer une disponibilité constante des réseaux pour respecter leurs accords de niveau de service (SLA). Les systèmes HA leur permettent de garantir des services fiables à leurs clients stratégiques, qu’il s’agisse de véhicules autonomes ou d’établissements de santé gérant des dossiers patients.

AI Academy

Se préparer à l’IA avec le cloud hybride

Dirigé par des leaders d’opinion IBM, le programme a pour but d’aider les chefs d’entreprise à acquérir les connaissances nécessaires qui leur permettront d’orienter leurs investissements IA vers les opportunités les plus prometteuses.

Accéder à l’épisode

Comment atteindre une haute disponibilité

Qu’il s’agisse de viser zéro temps d'arrêt dans des secteurs comme la santé ou la finance, ou simplement de prévenir toute perte de réputation liée aux pannes, les entreprises qui cherchent à garantir une haute disponibilité suivent généralement un processus en quatre étapes :

Éliminer les points de défaillance unique : un point de défaillance unique est un composant dont la panne entraînerait l’interruption de l’ensemble du système. Par exemple, si plusieurs serveurs dépendent d’un seul commutateur réseau, la défaillance de ce dernier mettra tous les serveurs hors service. Une stratégie courante pour atténuer ce risque est l'équilibrage de charge, qui consiste à distribuer la charge de travail sur plusieurs ressources du système pour éviter toute dépendance critique.
Mettre en place un basculement fiable : le basculement permet de transférer automatiquement les workloads d’un système principal vers un système secondaire en cas de défaillance. Lorsqu’il est bien conçu, ce processus garantit la continuité des opérations sans perte de données ni baisse de performance significative.
Détecter instantanément les défaillances : la haute disponibilité repose sur la capacité à détecter les pannes dès leur apparition. De nombreux systèmes modernes intègrent des mécanismes de détection automatisés. Certains vont même plus loin en enclenchant immédiatement des actions correctives, comme le déclenchement d’un basculement.
Mettre en œuvre une stratégie solide de sauvegarde et de restauration : en cas de défaillance partielle du système, la perte de données peut être évitée grâce à des procédures efficaces de sauvegarde et de restauration. Les technologies de protection des données réalisent des copies régulières des fichiers et applications sur des supports secondaires, assurant une reprise rapide des services si nécessaire.

Équilibrage de charge

De nombreux systèmes à haute disponibilité utilisent l'équilibrage de charge, un processus qui consiste à distribuer le trafic entre plusieurs serveurs afin d’optimiser la disponibilité des applications. Par exemple, dans le cas d’un site web ou d’un service cloud à fort trafic, le système peut recevoir des millions de requêtes par jour. L’équilibrage de charge permet de garantir que les applications peuvent transmettre le contenu des serveurs web aux utilisateurs de manière rapide et sans interruption.Utiliser plusieurs équilibreurs de charge en parallèle permet également d’éviter qu’un seul composant ne soit surchargé, ce qui pourrait entraîner un point de défaillance unique susceptible de provoquer une interruption de service ou une panne.

Redondance

La redondance, c’est-à-dire la présence d’un composant secondaire ou de secours prêt à prendre le relais en cas de défaillance du composant principal, est un élément fondamental d’un système à haute disponibilité.Grâce à cette approche, les bases de données, par exemple, restent accessibles aux utilisateurs et aux applications même si un composant tombe en panne. Un composant non redondant constitue un point de défaillance unique, dont la perte peut potentiellement mettre tout le système hors service.

Clusters à haute disponibilité

Les clusters à haute disponibilité – appelés aussi partitionnements haute disponibilité dans ce contexte – sont des ensembles de machines connectées fonctionnant comme un système unique. Si une machine du cluster tombe en panne, un logiciel de gestion de cluster transfère automatiquement ses workloads vers une autre machine. Dans ce type d’architecture, un espace de stockage partagé entre les nœuds (ou machines) garantit l’absence de perte de données, même si un nœud cesse de fonctionner.

Comment mesurer la haute disponibilité ?

La haute disponibilité se mesure par rapport à un objectif théorique de 100 % de fonctionnement sans aucune interruption. Même si aucun système ne peut garantir une disponibilité totale, se fixer cet objectif permet d’évaluer la performance réelle d’un système sur une période donnée. L'indicateur le plus courant pour les systèmes et les services à haute disponibilité est ce qu’on appelle la disponibilité cinq-neuf.

Disponibilité « cinq-neuf »

Une disponibilité cinq-neuf signifie qu’un système fonctionne et reste accessible 99,999 % du temps. Cette exigence s’applique généralement aux secteurs critiques comme la santé, les transports, la finance ou les services publics, où l’accès permanent aux services peut avoir un impact direct sur la vie des personnes, leur sécurité ou leur bien-être économique.

Les systèmes qui ne relèvent pas de secteurs aussi critiques n’ont généralement pas besoin d’un niveau de disponibilité aussi élevé et peuvent se contenter d’une disponibilité « trois-neuf » (99,9 %) ou « quatre-neuf » (99,99 %). On parle aussi, plus simplement, de « 99,9 % de disponibilité » ou de « 99,999 %de temps de fonctionnement ».

Autres indicateurs clés : temps moyen et de réparation

En complément de la disponibilité cinq-neuf, les responsables informatiques s’appuient sur plusieurs autres indicateurs pour évaluer la disponibilité effective de leurs systèmes :

Intervalle moyen entre les défaillances (MTBF) : l’intervalle moyen entre les défaillances (MTBF) est une mesure de la fiabilité d’un système ou d’un composant. Il s'agit d'un élément essentiel de la gestion de la maintenance, représentant le temps moyen pendant lequel un système ou un composant fonctionne avant de tomber en panne. La formule MTBF est souvent utilisée dans le contexte de la facilité de maintenance des systèmes industriels ou électroniques, où la défaillance d’un composant peut entraîner des temps d’arrêt importants, voire des risques pour la sécurité. Le MTBF est toutefois utilisé dans de nombreux types de systèmes réparables et dans divers secteurs.
Temps moyen de réparation (MTTR) : le temps moyen de réparation (MTTR), parfois appelé temps moyen de remise en route, est un indicateur utilisé pour mesurer le temps moyen nécessaire à la réparation d’un système ou d’un équipement en cas de défaillance. Le MTTR inclut le temps écoulé entre le moment où la défaillance se produit et le moment où le système ou l’équipement est à nouveau pleinement fonctionnel, ce qui inclut le temps nécessaire pour détecter la panne, diagnostiquer le problème et le résoudre. Le MTTR est un indicateur important à surveiller, car il évalue la disponibilité et la fiabilité des systèmes et équipements.
L’objectif de temps de reprise (RTO) : l’objectif de temps de reprise (RTO) est la durée nécessaire pour se remettre d’une interruption (planifiée, non planifiée ou liée à un sinistre) et reprendre le fonctionnement normal d’un système, d’une application ou d’un ensemble d’applications. Le RTO peut varier selon qu’il s’agisse d’une interruption planifiée, non planifiée ou d’un scénario de reprise après sinistre.
Objectif de point de reprise (RPO) : l’objectif de point de reprise (RPO) désigne le point dans le temps, par rapport à l’incident, auquel les données doivent être restaurées. Les modifications effectuées avant ce point sont préservées lors du processus de reprise. Une valeur de zéro est possible, ce qui équivaut à une exigence de « zéro perte de données ».

Exemples de haute disponibilité

À mesure que les entreprises de tous les secteurs mènent des initiatives de transformation numérique à grande échelle, les exigences en matière de disponibilité de leurs infrastructures augmentent. Le travail à distance et le déploiement des réseaux 5G ont conduit les utilisateurs à attendre un accès constant aux données et aux applications, où qu’ils se trouvent. Mais cela n’est possible que si les systèmes sous-jacents assurant le fonctionnement des applications et la gestion des accès sont disponibles. Voici quelques exemples de systèmes hautement disponibles qui soutiennent la performance des entreprises modernes :

Dossiers médicaux électroniques (DME)

Fini le temps où les médecins devaient fouiller dans des classeurs pour retrouver la date de votre dernier vaccin. Aujourd’hui, si vous vous présentez aux urgences ou chez un·e spécialiste, il est presque certain que votre dossier médical sera consulté en ligne. En raison du caractère critique et confidentiel de ces données, les DME constituent un exemple de système hautement disponible, capable de fournir des informations fiables et sécurisées en quelques secondes, avec un temps d’arrêt quasi nul.

Véhicules autonomes

Les voitures, drones et autres véhicules autonomes reposent sur des connexions internet rapides et puissantes pour que l’intelligence artificielle (IA) qui les pilote fonctionne correctement. Lorsqu’un véhicule autonome arrive à un feu rouge, des dizaines de milliers de données sont traitées quasi instantanément pour lui permettre de s’arrêter au bon endroit et de poursuivre sa route. La haute disponibilité est donc essentielle pour garantir la sécurité de tous les types de véhicules autonomes.

Internet des objets (IdO)

L’Internet des objets (IdO) désigne un réseau d’appareils physiques (véhicules, équipements électroménagers, infrastructures, etc.) dotés de capteurs connectés à Internet qui leur permettent de collecter et de partager des données. À mesure que l’IdO se déploie dans les routes, les foyers, les systèmes de surveillance météorologique ou encore les voies navigables, des millions de dispositifs dépendent de réseaux stables. La haute disponibilité garantit le bon fonctionnement de ces réseaux, sans interruption.

Big Data

Avec la croissance exponentielle des volumes de données générées par les entreprises, la haute disponibilité est devenue incontournable pour assurer un traitement rapide et efficace. Les centres de données et les plateformes d’analyse avancée doivent fonctionner en continu pour permettre des analyses en temps réel. La moindre interruption peut retarder des projets de plusieurs mois. Les solutions de haute disponibilité offrent aux entreprises un accès ininterrompu (24/7/365) à leurs données les plus stratégiques.

Modernisez votre infrastructure IT pour exploiter tout le potentiel du cloud hybride et de l’IA

Découvrez comment les entreprises modernisent leur infrastructure IT avec des serveurs, du stockage et des capacités de cloud hybride de dernière génération pour soutenir l’IA, les machines virtuelles et les applications modernes. Ce guide montre comment la technologie, les équipes et les processus doivent évoluer ensemble afin d’instaurer une culture du changement qui accélère la modernisation et génère des résultats métier mesurables.

Ressources

L’IA devient la plus grande workload d’entreprise. Votre infrastructure est-elle prête ?

Selon l’enquête AI View 2026 d’IDC, l’IA est en train de dépasser rapidement toutes les autres workloads. Pourtant, de nombreuses entreprises ne disposent pas de la stratégie nécessaire pour la dimensionner avec succès. Découvrez pourquoi les plateformes d’IA intégrées en pile complète sont devenues essentielles pour accélérer le déploiement, améliorer le ROI et opérationnaliser l’IA à travers l’entreprise.

Une infrastructure d’IA pour l’avenir du secteur bancaire

Découvrez comment les banques de premier rang mettent en place les bases d’une infrastructure d’IA pour évoluer de manière sûre et efficace. Ce document met en avant 10 cas d’utilisation d’IA à fort impact et une feuille de route pragmatique, montrant comment le cloud hybride, IBM Z et les architectures de données modernes permettent de mettre en place une IA sécurisée, en temps réel et conforme à l’échelle.

Une infrastructure informatique moderne pour les entreprises axées sur l’IA

Découvrez comment l’intégration du cloud hybride, de l’automatisation et des capacités d’IA transforme l’infrastructure informatique traditionnelle en une plateforme évolutive, sécurisée et intelligente. Cette démonstration interactive montre comment les entreprises peuvent optimiser leurs performances, réduire la complexité et prendre en charge leurs workloads en temps réel.

Accélérer l’innovation grâce à une base cloud hybride sécurisée

Un cadre pour simplifier les opérations de cloud hybride, avec une sécurité et une gouvernance cohérentes.

Comment Harvard a fait évoluer la recherche sur la sécurité de l’IA grâce à une infrastructure cloud haute performance

La disponibilité limitée des GPU ralentissait la recherche de pointe sur la sécurité de l’IA au Calmon Lab de Harvard. En tirant parti d’IBM Cloud avec une infrastructure basée sur NVIDIA H100, l’équipe a éliminé les goulots d’étranglement informatiques, atteint des vitesses d’inférence dépassant les 2 000 tokens par seconde et considérablement accéléré l’expérimentation des LLM et la recherche sur l’alignement des modèles.

Accélérez l’innovation à l’échelle avec une plateforme cloud unifiée

Découvrez comment les équipes d’ingénierie de plateforme font évoluer l’infrastructure grâce à des workflows automatisés et un pilotage centralisé.

L’entreprise en 2030 : conçue pour l’innovation perpétuelle

Découvrez nos cinq prédictions sur ce qui définira les entreprises les plus performantes en 2030 et les étapes que les dirigeants peuvent suivre pour obtenir un avantage axé sur l’IA.

Comprendre les coûts réels de l’IA générative

Découvrez les coûts cachés de la mise à l’échelle de l’IA générative et apprenez auprès d’experts comment rendre vos investissements en IA plus efficaces et déterminants.

Solutions connexes

IBM Cloud Infrastructure Center

IBM Cloud Infrastructure Center est une plateforme logicielle compatible OpenStack, conçue pour gérer des infrastructures de cloud privé exécutées sur IBM zSystems et IBM LinuxONE.

Découvrir Cloud Infrastructure Center

Infrastructure informatique

Fournissez une infrastructure sécurisée et compatible avec l’IA dans des environnements de cloud hybride

Découvrir les solutions d’infrastructure informatique

Services d’infrastructure

Accélérez, sécurisez et optimisez votre infrastructure hybride et d’entreprise grâce à l’expertise des IBM Technology Expert Labs.

Découvrir les services d’infrastructure

Passez à l’étape suivante

Transformez l’infrastructure de votre entreprise grâce aux solutions de cloud hybride IBM prêtes pour l’IA. Découvrez des serveurs, des solutions de stockage et des logiciels conçus pour protéger, faire évoluer et moderniser votre entreprise, ou accédez à des informations d’experts pour renforcer votre stratégie d’IA générative.

Notes de bas de page

1. « Gartner says 89% of Board Directors Say Digital is Embedded in All Business Growth Strategies » , Gartner, 19 octobre 2022

2. « The Global IT Outage Provides Several Crisis Management Lessons », Forbes, 19 juillet 2024