¿Qué es la alta disponibilidad?

29 de julio de 2024

Autores

Mesh Flinders

Author, IBM Think

Ian Smalley

Senior Editorial Strategist

¿Qué es la alta disponibilidad?

La alta disponibilidad (HA) es un término que se refiere a la capacidad de un sistema de ser accesible y fiable cerca del 100 % del tiempo. 

Los sistemas de alta disponibilidad deben poder soportar interrupciones, incluidos tiempos de inactividad programados y desastres en todo el sitio. Normalmente, los sistemas HA cumplen dos características:

  • Deben estar disponibles para su uso cerca del 100 % del tiempo.
  • Deben ser capaces de cumplir un determinado conjunto de expectativas predeterminadas de los usuarios. 

Con el crecimiento de las iniciativas de transformación digital y el posterior traslado de muchos servicios a la nube, muchas empresas tecnológicas y software como servicio (SaaS), incluidas Microsoft, Amazon (AWS), IBM, Red Hat, entre otras, ofrecen soluciones de alta disponibilidad.

La alta disponibilidad de los sistemas de TI es particularmente importante en los sectores en los que las aplicaciones críticas dependen de tener poco o ningún tiempo de inactividad del sistema. Por ejemplo, en los hospitales y centros de datos, los usuarios dependen de las soluciones de alta disponibilidad para realizar muchas funciones rutinarias y diarias. Si los usuarios no pueden acceder a un sistema por algún motivo, se considera que no está disponible. El período de tiempo en el que un sistema no está disponible para los usuarios se conoce como tiempo de inactividad.

HA vs. recuperación ante desastres (DR)

La recuperación ante desastres (DR) consiste en tecnologías de infraestructura de TI y buenas prácticas diseñadas para prevenir o minimizar la pérdida de datos y la interrupción de la continuidad del negocio resultante de eventos catastróficos. La alta disponibilidad (HA), por su parte, suele referirse a pequeños fallos o averías que pueden afectar a la disponibilidad de un sistema.

Aunque son diferentes, DR y HA comparten el objetivo de minimizar la interrupción de los sistemas de TI, y ambos suelen emplear componentes redundantes y sistemas redundantes como parte de una estrategia general. Además, tanto la DR como la HA utilizan copias de seguridad de datos para que estén disponibles en caso de una amplia gama de problemas, como  fallos de hardware, fallos de software y cortes de energía.

HA vs. tolerancia a errores

La tolerancia a fallos es la capacidad de un sistema para funcionar de forma continua después de que uno o más de sus componentes críticos fallen. Al igual que la alta disponibilidad, la tolerancia a fallos puede ayudar a que un sistema esté disponible durante o después de un evento disruptivo.

Sin embargo, donde difieren la tolerancia a fallos y la HA es en la forma en que tratan el tiempo de inactividad. Mientras que la HA busca tener el menor tiempo de inactividad posible, el objetivo de la tolerancia a fallos es el tiempo de inactividad cero, una meta que solo puede alcanzar mediante la redundancia, es decir, teniendo una copia de seguridad o secundaria de cada uno de los componentes de la infraestructura.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Beneficios de la alta disponibilidad

Dado que las empresas dependen más que nunca de los servicios en línea y de las arquitecturas de nube y de nube híbrida para ofrecer aplicaciones y servicios críticos, las demandas de infraestructura están aumentando, lo que hace que la alta disponibilidad sea una prioridad. Estas son algunas de los beneficios más comunes de los sistemas de alta disponibilidad.

Aumenta la flexibilidad

Dado que la transformación digital es un objetivo clave para la mayoría de las empresas, la alta disponibilidad de los sistemas es fundamental para que los empleados y los clientes tengan acceso ilimitado a las aplicaciones críticas1.

Datos seguros
Con una arquitectura de alta disponibilidad, los datos más importantes de las organizaciones están siempre disponibles, accesibles y protegidos contra infracciones no autorizadas.
Reputación de la marca mejorada

Los fallos del sistema que provocan horas o incluso minutos de tiempo de inactividad pueden provocar pesadillas de relaciones públicas para empresas de una amplia gama de sectores, incluidos SaaS, aviación y tecnología móvil2. La infraestructura de alta disponibilidad garantiza que la reputación de una marca no se vea afectada por una interrupción o un tiempo de inactividad inesperado.

Mejor servicio de atención al cliente

Los proveedores de servicios gestionados (MSP) deben ofrecer una alta disponibilidad de las redes o correr el riesgo de no cumplir con sus acuerdos de nivel de servicio (SLA). Los sistemas HA ayudan a los MSP a ofrecer redes en las que sus clientes más valiosos pueden confiar, como una que ayuda a los vehículos autónomos a conducir de forma segura o una instalación a gestionar los registros de los pacientes.

AI Academy

Cómo prepararse para la IA con la nube híbrida

El plan de estudios, dirigido por los principales líderes de pensamiento de IBM, está diseñado para ayudar a los líderes empresariales a adquirir los conocimientos necesarios para priorizar las inversiones en IA que pueden impulsar el crecimiento.

Cómo lograr alta disponibilidad

Tanto si se trata de lograr un tiempo de inactividad cero en un sector como la sanidad o las finanzas, como si simplemente se buscan formas de evitar los daños a la reputación derivados de las interrupciones, las empresas que buscan una alta disponibilidad suelen seguir un proceso de cuatro pasos.

  1. Eliminar puntos únicos de error: los puntos únicos de error son componentes que harían que todo un sistema dejara de funcionar si fallara. Por ejemplo, si una matriz de servidores está funcionando en un único conmutador de red y ese conmutador falla, todos los servidores de la red fallarán. Una táctica llamada equilibrio de carga, en la que el trabajo se distribuye entre las capacidades de un sistema, se utiliza a menudo para reducir e incluso eliminar los puntos únicos de error.

  2. Crear una conmutación por error fiable: la conmutación por error es la transferencia de cargas de trabajo de un sistema primario a un sistema secundario en caso de fallo en el sistema primario. Cuando las empresas crean una conmutación por error fiable, las cargas de trabajo se pueden transferir fácilmente sin tiempos de inactividad significativos, pérdida de datos o caída del rendimiento operativo.

  3. Detectar los fallos al instante: La alta disponibilidad depende de que existan procesos para detectar fallos o averías en un sistema en el instante en que se producen. Muchos sistemas modernos tienen incorporada la detección automática de fallos. Algunos pueden incluso detectar un fallo y elegir el siguiente curso de acción, como implementar un proceso de conmutación por error.

  4. Crear capacidades sólidas de copia de seguridad y restauración de datos: cuando fallan partes individuales de un sistema, los datos pueden perderse si no se aplican los procedimientos adecuados de copia de seguridad y restauración. Las tecnologías y prácticas de protección de datos realizan copias periódicas de los datos y las aplicaciones en un dispositivo secundario independiente para que los datos y las aplicaciones se puedan recuperar rápidamente.

Equilibrio de carga

Muchos sistemas de alta disponibilidad utilizan el equilibrio de carga, el proceso de distribución del tráfico entre varios servidores para optimizar la disponibilidad de las aplicaciones. Por ejemplo, con un sitio web o un servicio en la nube de alto tráfico, un sistema recibe millones de solicitudes de usuarios todos los días. El equilibrio de carga garantiza que las aplicaciones puedan entregar el contenido de los servidores web a los usuarios rápidamente y sin interrupciones.. El equilibrio de la carga, especialmente el uso de muchos equilibradores de carga a la vez, puede ayudar a garantizar que ningún componente de un sistema se vea desbordado, lo que provocaría un único punto de fallo que podría causar un tiempo de inactividad o una interrupción del servicio.

Redundancia

La redundancia, es decir, tener un componente secundario o de copia de seguridad disponible para tomar el relevo cuando falla uno principal, es una parte importante de un sistema de alta disponibilidad. La redundancia permite que las bases de datos permanezcan disponibles para los usuarios y las aplicaciones incluso cuando un componente no funciona. Si un componente de un sistema no es redundante, ese componente se consideraría un único punto de fallo, ya que perderlo podría impedir el funcionamiento de todo el sistema.

Clústeres de alta disponibilidad

Los clústeres de alta disponibilidad, también conocidos como clústeres de alta disponibilidad, son grupos de máquinas conectadas que funcionan juntas como un único sistema. Cuando una máquina de un clúster falla, el software de gestión de clústeres transfiere sus cargas de trabajo a otra máquina. Dentro de un clúster de alta disponibilidad, el almacenamiento compartido entre cada nodo (ordenador) garantiza una pérdida de datos cero si un solo nodo deja de funcionar.

¿Cómo se mide la alta disponibilidad?

La alta disponibilidad se mide en relación con un sistema que está 100 % operativo o que nunca tiene una sola interrupción. Aunque ningún sistema puede estar 100 % operativo, establecerlo como objetivo ayuda a medir la disponibilidad de un sistema durante un período. La métrica más común para los sistemas y servicios de alta disponibilidad es algo llamado disponibilidad de cinco nueves.

Disponibilidad de cinco nueves

La disponibilidad de cinco nueves significa que un sistema puede funcionar y rendir el 99,999 % del tiempo. Normalmente, solo los sistemas de sectores muy críticos, como la sanidad, el transporte, las finanzas o el gobierno, requieren una disponibilidad de cinco nueves. Estos sistemas son importantes para la vida de las personas, el acceso a los alimentos y la vivienda y el bienestar económico.

Los sistemas que no operan en estos sectores tan críticos no suelen requerir tanta disponibilidad operativa y pueden arreglárselas con una disponibilidad de "tres o cuatro nueves" (99,9 % o 99,99 %). Otra forma e de describirlo es decir que un sistema de alta disponibilidad tiene un "tiempo de actividad del 99,9/99,999 %".

Otras métricas importantes: la media y los tiempos de recuperación

Además de la disponibilidad de los cinco nueves, los gestores de sistemas de TI utilizan otras métricas clave para medir la disponibilidad de sus sistemas:

  • Tiempo medio entre fallos (MTBF): el tiempo medio entre fallos (MTBF) es una medida de la fiabilidad de un sistema o componente. Es un elemento crucial de la gestión del mantenimiento, que representa el tiempo promedio que un sistema o componente funcionará antes de que falle. La fórmula MTBF se utiliza a menudo en el contexto del mantenimiento de sistemas industriales o electrónicos, donde el fallo de un componente puede provocar tiempos de inactividad significativos o incluso riesgos para la seguridad, pero MTBF se utiliza en muchos tipos de sistemas reparables y diversos sectores.

  • Tiempo medio de reparación (MTTR): el tiempo medio de reparación (MTTR), a veces denominado tiempo medio de recuperación, es una métrica que se utiliza para medir el tiempo medio que se tarda en reparar un sistema o equipo después de que haya fallado. El MTTR incluye el tiempo desde que se produce el fallo hasta que el sistema o el equipo vuelven a funcionar a pleno rendimiento. Esto incluye el tiempo necesario para detectar el fallo, diagnosticar el problema y solucionarlo. El MTTR es una métrica importante de supervisar porque evalúa la disponibilidad y la fiabilidad de los sistemas y equipos.

  • Objetivo de tiempo de recuperación (RTO): el objetivo de tiempo de recuperación (RTO) es el tiempo que se tarda en recuperarse de una interrupción (programada, no programada o desastre) y reanudar las operaciones normales de un sistema, aplicación o conjunto de aplicaciones. El RTO puede ser diferente para las interrupciones programadas, no programadas y de recuperación ante desastres.

  • Objetivo de punto de recuperación (RPO): el objetivo de punto de recuperación (RPO) es el punto en el tiempo relativo al fallo en el que necesita conservar los datos. Los cambios en los datos anteriores al fallo o desastre en al menos este período de tiempo se conservan mediante el proceso de recuperación. Cero es un valor válido y equivale a un requisito de "pérdida de datos cero".

Ejemplos de alta disponibilidad

A medida que las organizaciones de muchos sectores emprenden amplias iniciativas de transformación digital, aumentan las demandas de disponibilidad de sus infraestructuras. El teletrabajo y la difusión de las redes 5G han hecho que sea normal que los usuarios esperen poder acceder a datos y aplicaciones desde cualquier lugar y en cualquier momento. Pero solo si los sistemas subyacentes que alimentan las aplicaciones y regulan el acceso a los datos están disponibles. Estos son algunos ejemplos de sistemas de alta disponibilidad que ayudan a las empresas modernas a prosperar:

Historias clínicas electrónicas (EHR)

Atrás quedaron los días en los que un médico hojeaba archivos en un armario para encontrar la fecha de su última vacunación. Hoy, si acude a urgencias o a la consulta de un especialista, es casi seguro que su médico accederá a su historial por Internet. Debido a la naturaleza crítica y privada de este tipo de información, los EHR son un ejemplo de un sistema de alta disponibilidad que puede proporcionar información precisa de forma segura en cuestión de segundos con un tiempo de inactividad casi nulo.

Vehículos autónomos

Los vehículos sin conductor o autónomos, como coches, drones y otros, dependen de conexiones a Internet rápidas y potentes para que la inteligencia artificial (IA) que los controla pueda funcionar. Cuando un vehículo autónomo se detiene en un semáforo, por ejemplo, se procesan decenas de miles de datos casi en tiempo real para que se detenga en el semáforo donde se supone que debe hacerlo y continúe hasta su destino. La alta disponibilidad es crucial para el funcionamiento seguro de vehículos autónomos de todo tipo.

Internet de las cosas (IoT)

El Internet de las cosas (IoT) es una red de dispositivos físicos, vehículos, electrodomésticos y otros objetos que están integrados con sensores conectados a Internet que les permiten recopilar y compartir datos. A medida que el ecosistema IoT se expande a carreteras, vías fluviales, electrodomésticos, monitorización meteorológica y más, millones y millones de dispositivos dependen de las redes. La alta disponibilidad ayuda a garantizar que las redes que admiten dispositivos IoT funcionen sin problemas y sin interrupciones.

Big data

A medida que las empresas encuentran más formas de utilizar las enormes cantidades de datos que generan en la era digital, la alta disponibilidad es esencial para un procesamiento de datos eficiente y eficaz. Los centros de datos y las plataformas de análisis complejas realizan proceso de datos continuo y análisis en tiempo real, y el tiempo de inactividad puede retrasar los proyectos durante meses. Las soluciones HA ayudan a las empresas a tener acceso 24/7/365 a sus datos más importantes.

Soluciones relacionadas
IBM Cloud Infrastructure Center 

IBM Cloud Infrastructure Center es una plataforma de software compatible con OpenStack para gestionar la infraestructura de las nubes privadas en IBM zSystems e IBM LinuxONE.

Explorar Cloud Infrastructure Center
Soluciones de infraestructura de TI

Descubra servidores, almacenamiento y software diseñados para su estrategia empresarial de nube híbrida e IA.

Explore las soluciones de infraestructura de TI
Soluciones de infraestructura en la nube

Encuentre la solución de infraestructura en la nube adecuada para las necesidades de su empresa y escale los recursos según la demanda.

Soluciones en la nube
Dé el siguiente paso

Transforme la infraestructura de su empresa con las soluciones de nube híbrida y preparadas para la IA de IBM. Descubra servidores, almacenamiento y software diseñados para asegurar, escalar y modernizar su empresa o acceda a conocimientos de expertos para mejorar su estrategia de IA generativa.

Explore las soluciones de infraestructura de TI Descargue el libro