La alta disponibilidad (HA) es un término que se refiere a la capacidad de un sistema de ser accesible y fiable cerca del 100 % del tiempo.
Los sistemas de alta disponibilidad deben poder soportar interrupciones, incluidos tiempos de inactividad programados y desastres en todo el sitio. Normalmente, los sistemas HA cumplen dos características:
Con el crecimiento de las iniciativas de transformación digital y el posterior traslado de muchos servicios a la nube, muchas empresas tecnológicas y software como servicio (SaaS), incluidas Microsoft, Amazon (AWS), IBM, Red Hat, entre otras, ofrecen soluciones de alta disponibilidad.
La alta disponibilidad de los sistemas de TI es particularmente importante en los sectores en los que las aplicaciones críticas dependen de tener poco o ningún tiempo de inactividad del sistema. Por ejemplo, en los hospitales y centros de datos, los usuarios dependen de las soluciones de alta disponibilidad para realizar muchas funciones rutinarias y diarias. Si los usuarios no pueden acceder a un sistema por algún motivo, se considera que no está disponible. El período de tiempo en el que un sistema no está disponible para los usuarios se conoce como tiempo de inactividad.
La recuperación ante desastres (DR) consiste en tecnologías de infraestructura de TI y buenas prácticas diseñadas para prevenir o minimizar la pérdida de datos y la interrupción de la continuidad del negocio resultante de eventos catastróficos. La alta disponibilidad (HA), por su parte, suele referirse a pequeños fallos o averías que pueden afectar a la disponibilidad de un sistema.
Aunque son diferentes, DR y HA comparten el objetivo de minimizar la interrupción de los sistemas de TI, y ambos suelen emplear componentes redundantes y sistemas redundantes como parte de una estrategia general. Además, tanto la DR como la HA utilizan copias de seguridad de datos para que estén disponibles en caso de una amplia gama de problemas, como fallos de hardware, fallos de software y cortes de energía.
La tolerancia a fallos es la capacidad de un sistema para funcionar de forma continua después de que uno o más de sus componentes críticos fallen. Al igual que la alta disponibilidad, la tolerancia a fallos puede ayudar a que un sistema esté disponible durante o después de un evento disruptivo.
Sin embargo, donde difieren la tolerancia a fallos y la HA es en la forma en que tratan el tiempo de inactividad. Mientras que la HA busca tener el menor tiempo de inactividad posible, el objetivo de la tolerancia a fallos es el tiempo de inactividad cero, una meta que solo puede alcanzar mediante la redundancia, es decir, teniendo una copia de seguridad o secundaria de cada uno de los componentes de la infraestructura.
Dado que las empresas dependen más que nunca de los servicios en línea y de las arquitecturas de nube y de nube híbrida para ofrecer aplicaciones y servicios críticos, las demandas de infraestructura están aumentando, lo que hace que la alta disponibilidad sea una prioridad. Estas son algunas de los beneficios más comunes de los sistemas de alta disponibilidad.
Dado que la transformación digital es un objetivo clave para la mayoría de las empresas, la alta disponibilidad de los sistemas es fundamental para que los empleados y los clientes tengan acceso ilimitado a las aplicaciones críticas1.
Los fallos del sistema que provocan horas o incluso minutos de tiempo de inactividad pueden provocar pesadillas de relaciones públicas para empresas de una amplia gama de sectores, incluidos SaaS, aviación y tecnología móvil2. La infraestructura de alta disponibilidad garantiza que la reputación de una marca no se vea afectada por una interrupción o un tiempo de inactividad inesperado.
Los proveedores de servicios gestionados (MSP) deben ofrecer una alta disponibilidad de las redes o correr el riesgo de no cumplir con sus acuerdos de nivel de servicio (SLA). Los sistemas HA ayudan a los MSP a ofrecer redes en las que sus clientes más valiosos pueden confiar, como una que ayuda a los vehículos autónomos a conducir de forma segura o una instalación a gestionar los registros de los pacientes.
Tanto si se trata de lograr un tiempo de inactividad cero en un sector como la sanidad o las finanzas, como si simplemente se buscan formas de evitar los daños a la reputación derivados de las interrupciones, las empresas que buscan una alta disponibilidad suelen seguir un proceso de cuatro pasos.
Muchos sistemas de alta disponibilidad utilizan el equilibrio de carga, el proceso de distribución del tráfico entre varios servidores para optimizar la disponibilidad de las aplicaciones. Por ejemplo, con un sitio web o un servicio en la nube de alto tráfico, un sistema recibe millones de solicitudes de usuarios todos los días. El equilibrio de carga garantiza que las aplicaciones puedan entregar el contenido de los servidores web a los usuarios rápidamente y sin interrupciones.. El equilibrio de la carga, especialmente el uso de muchos equilibradores de carga a la vez, puede ayudar a garantizar que ningún componente de un sistema se vea desbordado, lo que provocaría un único punto de fallo que podría causar un tiempo de inactividad o una interrupción del servicio.
La redundancia, es decir, tener un componente secundario o de copia de seguridad disponible para tomar el relevo cuando falla uno principal, es una parte importante de un sistema de alta disponibilidad. La redundancia permite que las bases de datos permanezcan disponibles para los usuarios y las aplicaciones incluso cuando un componente no funciona. Si un componente de un sistema no es redundante, ese componente se consideraría un único punto de fallo, ya que perderlo podría impedir el funcionamiento de todo el sistema.
Los clústeres de alta disponibilidad, también conocidos como clústeres de alta disponibilidad, son grupos de máquinas conectadas que funcionan juntas como un único sistema. Cuando una máquina de un clúster falla, el software de gestión de clústeres transfiere sus cargas de trabajo a otra máquina. Dentro de un clúster de alta disponibilidad, el almacenamiento compartido entre cada nodo (ordenador) garantiza una pérdida de datos cero si un solo nodo deja de funcionar.
La alta disponibilidad se mide en relación con un sistema que está 100 % operativo o que nunca tiene una sola interrupción. Aunque ningún sistema puede estar 100 % operativo, establecerlo como objetivo ayuda a medir la disponibilidad de un sistema durante un período. La métrica más común para los sistemas y servicios de alta disponibilidad es algo llamado disponibilidad de cinco nueves.
La disponibilidad de cinco nueves significa que un sistema puede funcionar y rendir el 99,999 % del tiempo. Normalmente, solo los sistemas de sectores muy críticos, como la sanidad, el transporte, las finanzas o el gobierno, requieren una disponibilidad de cinco nueves. Estos sistemas son importantes para la vida de las personas, el acceso a los alimentos y la vivienda y el bienestar económico.
Los sistemas que no operan en estos sectores tan críticos no suelen requerir tanta disponibilidad operativa y pueden arreglárselas con una disponibilidad de "tres o cuatro nueves" (99,9 % o 99,99 %). Otra forma e de describirlo es decir que un sistema de alta disponibilidad tiene un "tiempo de actividad del 99,9/99,999 %".
Además de la disponibilidad de los cinco nueves, los gestores de sistemas de TI utilizan otras métricas clave para medir la disponibilidad de sus sistemas:
A medida que las organizaciones de muchos sectores emprenden amplias iniciativas de transformación digital, aumentan las demandas de disponibilidad de sus infraestructuras. El teletrabajo y la difusión de las redes 5G han hecho que sea normal que los usuarios esperen poder acceder a datos y aplicaciones desde cualquier lugar y en cualquier momento. Pero solo si los sistemas subyacentes que alimentan las aplicaciones y regulan el acceso a los datos están disponibles. Estos son algunos ejemplos de sistemas de alta disponibilidad que ayudan a las empresas modernas a prosperar:
Atrás quedaron los días en los que un médico hojeaba archivos en un armario para encontrar la fecha de su última vacunación. Hoy, si acude a urgencias o a la consulta de un especialista, es casi seguro que su médico accederá a su historial por Internet. Debido a la naturaleza crítica y privada de este tipo de información, los EHR son un ejemplo de un sistema de alta disponibilidad que puede proporcionar información precisa de forma segura en cuestión de segundos con un tiempo de inactividad casi nulo.
Los vehículos sin conductor o autónomos, como coches, drones y otros, dependen de conexiones a Internet rápidas y potentes para que la inteligencia artificial (IA) que los controla pueda funcionar. Cuando un vehículo autónomo se detiene en un semáforo, por ejemplo, se procesan decenas de miles de datos casi en tiempo real para que se detenga en el semáforo donde se supone que debe hacerlo y continúe hasta su destino. La alta disponibilidad es crucial para el funcionamiento seguro de vehículos autónomos de todo tipo.
El Internet de las cosas (IoT) es una red de dispositivos físicos, vehículos, electrodomésticos y otros objetos que están integrados con sensores conectados a Internet que les permiten recopilar y compartir datos. A medida que el ecosistema IoT se expande a carreteras, vías fluviales, electrodomésticos, monitorización meteorológica y más, millones y millones de dispositivos dependen de las redes. La alta disponibilidad ayuda a garantizar que las redes que admiten dispositivos IoT funcionen sin problemas y sin interrupciones.
A medida que las empresas encuentran más formas de utilizar las enormes cantidades de datos que generan en la era digital, la alta disponibilidad es esencial para un procesamiento de datos eficiente y eficaz. Los centros de datos y las plataformas de análisis complejas realizan proceso de datos continuo y análisis en tiempo real, y el tiempo de inactividad puede retrasar los proyectos durante meses. Las soluciones HA ayudan a las empresas a tener acceso 24/7/365 a sus datos más importantes.
IBM Cloud Infrastructure Center es una plataforma de software compatible con OpenStack para gestionar la infraestructura de las nubes privadas en IBM zSystems e IBM LinuxONE.
Descubra servidores, almacenamiento y software diseñados para su estrategia empresarial de nube híbrida e IA.
Encuentre la solución de infraestructura en la nube adecuada para las necesidades de su empresa y escale los recursos según la demanda.
1. "Gartner says 89% of Board Directors Say Digital is Embedded in All Business Growth Strategies . Gartner. 19 de octubre de 2022.
2. "The Global IT Outage Provides Several Crisis Management Lessons . Forbes. 19 de julio de 2024.