Alta disponibilidad (HA) es un término que se refiere a la capacidad de un sistema para ser accesible y fiable cerca del 100% del tiempo.
Los sistemas de alta disponibilidad deben ser capaces de resistir interrupciones, incluidos los tiempos de inactividad programados y los desastres en todo el sitio. Por lo general, los sistemas de alta disponibilidad cumplen dos características:
Con el crecimiento de las iniciativas de transformación digital y el posterior traslado de muchos servicios a la nube, muchas empresas de tecnología y software como servicio (SaaS) ofrecen soluciones de alta disponibilidad, incluyendo Microsoft, Amazon (AWS), IBM, Red Hat y más.
La alta disponibilidad de los sistemas de TI es particularmente importante en las industrias donde las aplicaciones críticas dependen de tener poco o ningún tiempo de inactividad del sistema. Por ejemplo, en hospitales y centros de datos, los usuarios dependen de soluciones de alta disponibilidad para realizar muchas funciones rutinarias diarias. Si los usuarios no pueden acceder a un sistema por cualquier motivo, se considera "no disponible". El período de tiempo que un sistema no está disponible para los usuarios se conoce como tiempo de inactividad.
La recuperación ante desastres (DR) consiste en tecnologías de infraestructura de TI y mejores prácticas diseñadas para prevenir o minimizar la pérdida de datos y la interrupción de la continuidad del negocio como resultado de eventos catastróficos. La alta disponibilidad (HA), por otro lado, generalmente se refiere a fallas o fallas más pequeñas que pueden afectar la disponibilidad de un sistema.
Aunque son diferentes, DR y HA comparten el objetivo de minimizar la interrupción de los sistemas de TI, y ambos suelen emplear componentes redundantes y sistemas redundantes como parte de una estrategia general. Además, tanto DR como HA utilizan copias de seguridad para que los datos estén disponibles en caso de una amplia gama de problemas, incluidas fallas de hardware, fallas de software y cortes de energía.
La tolerancia a fallas es la capacidad de un sistema para operar continuamente después de que uno o más de sus componentes críticos fallan. Al igual que la alta disponibilidad, la tolerancia a fallas puede ayudar a que un sistema esté disponible durante o después de un evento disruptivo.
Sin embargo, donde la tolerancia a fallas y la alta disponibilidad difieren es en la forma en que tratan el tiempo de inactividad. Si bien la HA busca tener el menor tiempo de inactividad posible, el objetivo de la tolerancia a fallas es cero tiempo de inactividad, un objetivo que solo puede lograr a través de la redundancia, tener una copia de seguridad o copia secundaria de cada componente de la infraestructura.
Dado que las empresas dependen más que nunca de los servicios en línea y de las arquitecturas de nube y nube híbrida para ofrecer aplicaciones y servicios críticos, las demandas de infraestructura están aumentando, lo que hace que la alta disponibilidad sea una prioridad. A continuación se presentan algunos de los beneficios empresariales más comunes de los sistemas de alta disponibilidad.
Dado que la transformación digital es un objetivo clave para la mayoría de las empresas, la alta disponibilidad de los sistemas es fundamental para brindar a los empleados y clientes acceso ilimitado a las aplicaciones críticas1.
Las fallas del sistema que causan horas o incluso minutos de tiempo de inactividad pueden causar pesadillas de relaciones públicas para las empresas en una amplia gama de industrias, incluyendo SaaS, aviación y tecnología móvil2. La infraestructura de alta disponibilidad garantiza que la reputación de una marca no se vea afectada por una interrupción o un tiempo de inactividad inesperado.
Los Proveedores de servicios gestionados (MSP) deben ofrecer una alta disponibilidad de redes o corren el riesgo de no cumplir con sus acuerdos de nivel de servicio (SLA). Los sistemas de HA ayudan a los proveedores de servicios gestionados (MSP) a ofrecer redes de las que pueden depender sus clientes más valiosos, como las que ayudan a los vehículos autónomos a circular con seguridad o una Facilidad a gestionar los historiales de los pacientes.
Ya sea que busquen lograr cero tiempo de inactividad en una industria como la atención médica o las finanzas, o simplemente busquen formas de evitar daños a la reputación por interrupciones, las empresas que buscan alta disponibilidad suelen seguir un proceso de 4 pasos.
Muchos sistemas de alta disponibilidad utilizan el equilibrio de carga, el proceso de distribución del tráfico entre varios servidores para optimizar la disponibilidad de las aplicaciones. Por ejemplo, con un sitio web o servicio en la nube de alto tráfico, un sistema recibe millones de solicitudes de usuarios todos los días. El equilibrio de la carga garantiza que las aplicaciones puedan entregar el contenido de los servidores sitio web a los usuarios rápidamente y sin interrupciones. El equilibrio de la carga, especialmente el uso de varios equilibradores de carga a la vez, puede ayudar a garantizar que ningún componente de un sistema se vea sobrecargado, lo que provocaría un único punto de fallo que podría causar un tiempo de inactividad o una interrupción.
La redundancia (tener un componente secundario o de respaldo disponible para asumir el control cuando falla uno principal) es una parte importante de un sistema de alta disponibilidad. La redundancia permite que las bases de datos permanezcan disponibles para los usuarios y las aplicaciones incluso cuando un componente no está funcionando. Si un componente de un sistema no es redundante, ese componente se consideraría un único punto de falla, ya que perderlo podría impedir que todo el sistema funcione.
Los clústeres de alta disponibilidad, también conocidos como clústeres de alta disponibilidad, son grupos de máquinas conectadas que trabajan juntas como un solo sistema. Cuando falla una máquina en un clúster, el software de administración de clúster transfiere sus cargas de trabajo a otra máquina. Dentro de un clúster de alta disponibilidad, el almacenamiento compartido entre cada nodo garantiza cero pérdida de datos si un solo nodo deja de funcionar.
La alta disponibilidad se mide en relación con un sistema que está 100 % operativo o que nunca tiene una sola interrupción. Aunque ningún sistema puede estar 100 % operativo, establecerlo como objetivo ayuda a medir la disponibilidad de un sistema durante un período. La métrica más común para los sistemas y servicios de alta disponibilidad es algo llamado disponibilidad de cinco nueves.
La disponibilidad de cinco nueves significa que un sistema puede funcionar y rendir el 99.999 % del tiempo. Normalmente, solo los sistemas de industrias muy críticas, como la atención médica, el transporte, las finanzas o el gobierno, requieren una disponibilidad de cinco nueves. Estos sistemas son importantes para la vida de las personas, el acceso a los alimentos y la vivienda y el bienestar económico.
Los sistemas que no operan en estas industrias tan críticas no suelen requerir tanta disponibilidad operativa y pueden arreglárselas con una disponibilidad de "tres o cuatro nueves" (99.9 % o 99.99 %). Otra forma e de describirlo es decir que un sistema de alta disponibilidad tiene un "tiempo de actividad del 99.9/99.999 %".
Además de la disponibilidad de los cinco nueves, los System Manager utilizan otras métricas clave para medir la disponibilidad de sus sistemas:
A medida que las organizaciones de muchas industrias emprenden amplias iniciativas de transformación digital, las demandas de disponibilidad de su infraestructura están aumentando. El trabajo remoto y la expansión de las redes 5G hicieron que sea normal que los usuarios esperen poder acceder a datos y aplicaciones desde cualquier lugar y en cualquier momento. Pero solo si los sistemas subyacentes que impulsan las aplicaciones y regulan el acceso a los datos están disponibles. A continuación se presentan algunos ejemplos de sistemas de alta disponibilidad que ayudan a las compañías modernas a prosperar:
Atrás quedaron los días en que un médico hojeaba archivos en un gabinete para encontrar la fecha de su última vacunación. Hoy en día, si se presenta en la sala de emergencias o en el consultorio de un especialista, es casi seguro que su médico accederá a sus registros en línea. Debido a la naturaleza crítica y privada de este tipo de información, los EHR son un ejemplo de un sistema de alta disponibilidad que puede entregar información precisa de forma segura en segundos con prácticamente cero tiempo de inactividad.
Los vehículos sin conductor o autónomos, como autos, drones y otros, dependen de conexiones a Internet rápidas y poderosas para que la inteligencia artificial (IA) que los controla pueda funcionar. Cuando un vehículo autónomo se detiene en un semáforo, por ejemplo, decenas de miles de datos se procesan casi en tiempo real para que se detenga en el semáforo donde debe y siga hacia su destino. La alta disponibilidad es crucial para el funcionamiento seguro de todo tipo de vehículos autónomos
El Internet de las cosas (IoT) es una red de dispositivos físicos, vehículos, electrodomésticos y otros objetos que están incrustados con sensores conectados a internet que les permiten recopilar y compartir datos. A medida que el ecosistema de IoT se expande a carreteras, vías fluviales, electrodomésticos, monitoreo del clima y más, millones y millones de dispositivos dependen de las redes. El alta disponibilidad ayuda a garantizar que las redes que admiten dispositivos IoT funcionen sin problemas y sin interrupciones.
A medida que las compañías encuentran más formas de emplear las enormes cantidades de datos que generan en la era digital, el alta disponibilidad es esencial para un procesamiento de datos eficiente y eficaz. Los centros de datos y las plataformas de analytics complejas realizan procesamiento de datos y análisis en tiempo real, y el tiempo de inactividad puede retrasar los proyectos durante meses. Las soluciones de alta disponibilidad ayudan a las compañías a tener acceso las 24 horas del día, los 7 días de la semana, los 365 días del año a sus datos más importantes.
IBM Cloud Infrastructure Center es una plataforma de software compatible con OpenStack para gestionar la infraestructura de nubes privadas en IBM zSystems e IBM LinuxONE.
Descubra los servidores, el almacenamiento y el software diseñados para la nube híbrida y su estrategia de IA.
Encuentre una solución de infraestructura en la nube que sea adecuada para las necesidades de su negocio y escale los recursos bajo demanda.
1. "Gartner says 89% of Board Directors Say Digital is Embedded in All Business Growth Strategies , Gartner, 19 de octubre de 2022
2. "The Global IT Outage Provides Several Crisis Management Lessons , Forbes, 19 de julio de 2024