¿Qué es la alta disponibilidad?

Vista aérea nocturna de Hong Kong, con carretera y tráfico.

Autores

Mesh Flinders

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

¿Qué es la alta disponibilidad?

Alta disponibilidad (HA) es un término que se refiere a la capacidad de un sistema para ser accesible y fiable cerca del 100% del tiempo.

Los sistemas de alta disponibilidad deben ser capaces de resistir interrupciones, incluidos los tiempos de inactividad programados y los desastres en todo el sitio. Por lo general, los sistemas de alta disponibilidad cumplen dos características:

Deben estar disponibles para su uso cerca del 100 % del tiempo.
Deben poder cumplir con un determinado conjunto de expectativas predeterminadas del usuario.

Con el crecimiento de las iniciativas de transformación digital y el posterior traslado de muchos servicios a la nube, muchas empresas de tecnología y software como servicio (SaaS) ofrecen soluciones de alta disponibilidad, incluyendo Microsoft, Amazon (AWS), IBM, Red Hat y más.

La alta disponibilidad de los sistemas de TI es particularmente importante en las industrias donde las aplicaciones críticas dependen de tener poco o ningún tiempo de inactividad del sistema. Por ejemplo, en hospitales y centros de datos, los usuarios dependen de soluciones de alta disponibilidad para realizar muchas funciones rutinarias diarias. Si los usuarios no pueden acceder a un sistema por cualquier motivo, se considera "no disponible". El período de tiempo que un sistema no está disponible para los usuarios se conoce como tiempo de inactividad.

HA frente a recuperación ante desastres (DR)

La recuperación ante desastres (DR) consiste en tecnologías de infraestructura de TI y mejores prácticas diseñadas para prevenir o minimizar la pérdida de datos y la interrupción de la continuidad del negocio como resultado de eventos catastróficos. La alta disponibilidad (HA), por otro lado, generalmente se refiere a fallas o fallas más pequeñas que pueden afectar la disponibilidad de un sistema.

Aunque son diferentes, DR y HA comparten el objetivo de minimizar la interrupción de los sistemas de TI, y ambos suelen emplear componentes redundantes y sistemas redundantes como parte de una estrategia general. Además, tanto DR como HA utilizan copias de seguridad para que los datos estén disponibles en caso de una amplia gama de problemas, incluidas fallas de hardware, fallas de software y cortes de energía.

HA frente a tolerancia a fallos

La tolerancia a fallas es la capacidad de un sistema para operar continuamente después de que uno o más de sus componentes críticos fallan. Al igual que la alta disponibilidad, la tolerancia a fallas puede ayudar a que un sistema esté disponible durante o después de un evento disruptivo.

Sin embargo, donde la tolerancia a fallas y la alta disponibilidad difieren es en la forma en que tratan el tiempo de inactividad. Si bien la HA busca tener el menor tiempo de inactividad posible, el objetivo de la tolerancia a fallas es cero tiempo de inactividad, un objetivo que solo puede lograr a través de la redundancia, tener una copia de seguridad o copia secundaria de cada componente de la infraestructura.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think.

Beneficios de la alta disponibilidad

Dado que las empresas dependen más que nunca de los servicios en línea y de las arquitecturas de nube y nube híbrida para ofrecer aplicaciones y servicios críticos, las demandas de infraestructura están aumentando, lo que hace que la alta disponibilidad sea una prioridad. A continuación se presentan algunos de los beneficios empresariales más comunes de los sistemas de alta disponibilidad.

Mayor flexibilidad

Dado que la transformación digital es un objetivo clave para la mayoría de las empresas, la alta disponibilidad de los sistemas es fundamental para brindar a los empleados y clientes acceso ilimitado a las aplicaciones críticas¹.

Datos más seguros

Con una arquitectura de alta disponibilidad, los datos más importantes de las organizaciones siempre están disponibles, accesibles y protegidos contra infracciones no autorizadas.

Mejora de la reputación de la marca

Las fallas del sistema que causan horas o incluso minutos de tiempo de inactividad pueden causar pesadillas de relaciones públicas para las empresas en una amplia gama de industrias, incluyendo SaaS, aviación y tecnología móvil². La infraestructura de alta disponibilidad garantiza que la reputación de una marca no se vea afectada por una interrupción o un tiempo de inactividad inesperado.

Mejor servicio al cliente

Los Proveedores de servicios gestionados (MSP) deben ofrecer una alta disponibilidad de redes o corren el riesgo de no cumplir con sus acuerdos de nivel de servicio (SLA). Los sistemas de HA ayudan a los proveedores de servicios gestionados (MSP) a ofrecer redes de las que pueden depender sus clientes más valiosos, como las que ayudan a los vehículos autónomos a circular con seguridad o una Facilidad a gestionar los historiales de los pacientes.

Academia de IA

Cómo lograr la preparación para la IA con la nube híbrida

Dirigida por los principales líderes de opinión de IBM, el plan de estudios está diseñado para ayudar a los líderes empresariales a obtener los conocimientos necesarios para priorizar las inversiones en IA que pueden impulsar el crecimiento.

Ir al episodio

Cómo lograr una alta disponibilidad

Ya sea que busquen lograr cero tiempo de inactividad en una industria como la atención médica o las finanzas, o simplemente busquen formas de evitar daños a la reputación por interrupciones, las empresas que buscan alta disponibilidad suelen seguir un proceso de 4 pasos.

Eliminar puntos únicos de falla: los puntos únicos de falla son componentes que harían que un sistema completo dejara de funcionar si fallara. Por ejemplo, si una matriz de servidores está funcionando en un único conmutador de red y ese conmutador falla, todos los servidores de la red fallarán. Una táctica llamada equilibrio de carga, en la que el trabajo se distribuye entre las capacidades de un sistema, se utiliza a menudo para reducir e incluso eliminar los puntos únicos de falla.
Cree una conmutación por error confiable: la conmutación por error es la transferencia de cargas de trabajo de un sistema primario a un sistema secundario en caso de falla en el sistema primario. Cuando las empresas crean una conmutación por error confiable, las cargas de trabajo se pueden transferir fácilmente sin tiempo de inactividad significativo, pérdida de datos o caída en el rendimiento operativo.
Detecte fallas al instante: la alta disponibilidad depende de contar con procesos para detectar fallas o fallas en un sistema en el instante en que ocurren. Muchos sistemas modernos han incorporado detección automatizada de fallas. Algunos incluso pueden detectar una falla y elegir el siguiente curso de acción, como implementar un proceso de conmutación por error.
Desarrolle capacidades sólidas de copia de seguridad y restauración de datos: cuando fallan partes individuales de un sistema, los datos pueden perderse si no se implementan los procedimientos adecuados de copiade seguridad y restauración. Las tecnologías y prácticas de protección de datos realizan copias periódicas de los datos y las aplicaciones en un dispositivo secundario independiente para poder recuperarlos rápidamente.

Equilibrio de carga

Muchos sistemas de alta disponibilidad utilizan el equilibrio de carga, el proceso de distribución del tráfico entre varios servidores para optimizar la disponibilidad de las aplicaciones. Por ejemplo, con un sitio web o servicio en la nube de alto tráfico, un sistema recibe millones de solicitudes de usuarios todos los días. El equilibrio de la carga garantiza que las aplicaciones puedan entregar el contenido de los servidores sitio web a los usuarios rápidamente y sin interrupciones. El equilibrio de la carga, especialmente el uso de varios equilibradores de carga a la vez, puede ayudar a garantizar que ningún componente de un sistema se vea sobrecargado, lo que provocaría un único punto de fallo que podría causar un tiempo de inactividad o una interrupción.

Redundancia

La redundancia (tener un componente secundario o de respaldo disponible para asumir el control cuando falla uno principal) es una parte importante de un sistema de alta disponibilidad. La redundancia permite que las bases de datos permanezcan disponibles para los usuarios y las aplicaciones incluso cuando un componente no está funcionando. Si un componente de un sistema no es redundante, ese componente se consideraría un único punto de falla, ya que perderlo podría impedir que todo el sistema funcione.

Clústeres de alta disponibilidad

Los clústeres de alta disponibilidad, también conocidos como clústeres de alta disponibilidad, son grupos de máquinas conectadas que trabajan juntas como un solo sistema. Cuando falla una máquina en un clúster, el software de administración de clúster transfiere sus cargas de trabajo a otra máquina. Dentro de un clúster de alta disponibilidad, el almacenamiento compartido entre cada nodo garantiza cero pérdida de datos si un solo nodo deja de funcionar.

¿Cómo se mide la alta disponibilidad?

La alta disponibilidad se mide en relación con un sistema que está 100 % operativo o que nunca tiene una sola interrupción. Aunque ningún sistema puede estar 100 % operativo, establecerlo como objetivo ayuda a medir la disponibilidad de un sistema durante un período. La métrica más común para los sistemas y servicios de alta disponibilidad es algo llamado disponibilidad de cinco nueves.

Disponibilidad de cinco nueves

La disponibilidad de cinco nueves significa que un sistema puede funcionar y rendir el 99.999 % del tiempo. Normalmente, solo los sistemas de industrias muy críticas, como la atención médica, el transporte, las finanzas o el gobierno, requieren una disponibilidad de cinco nueves. Estos sistemas son importantes para la vida de las personas, el acceso a los alimentos y la vivienda y el bienestar económico.

Los sistemas que no operan en estas industrias tan críticas no suelen requerir tanta disponibilidad operativa y pueden arreglárselas con una disponibilidad de "tres o cuatro nueves" (99.9 % o 99.99 %). Otra forma e de describirlo es decir que un sistema de alta disponibilidad tiene un "tiempo de actividad del 99.9/99.999 %".

Otras métricas importantes: tiempos medios y de recuperación

Además de la disponibilidad de los cinco nueves, los System Manager utilizan otras métricas clave para medir la disponibilidad de sus sistemas:

Tiempo medio entre fallas (MTBF): el tiempo medio entre fallas (MTBF) es una medida de la confiabilidad de un sistema o componente. Es un elemento crucial de la gestión del mantenimiento, ya que representa el tiempo promedio que un sistema o componente funcionará antes de fallar. La fórmula MTBF se utiliza con frecuencia en el contexto de la mantenibilidad de sistemas industriales o electrónicos, donde el fracaso de un componente puede dar lugar a un tiempo de inactividad significativo o incluso a riesgos para la seguridad, pero el MTBF se utiliza en muchos tipos de sistemas reparables y en diversas industrias.
Tiempo medio de reparación (MTTR): Tiempo medio de reparación (MTTR), a veces denominado tiempo medio de recuperación, es una métrica que se utiliza para medir el tiempo promedio que se tarda en reparar un sistema o equipamiento después de que haya fallado . El MTTR incluye el tiempo que transcurre desde que se produce el fallo hasta que el sistema o el equipamiento vuelven a ser plenamente funcionales. Esto incluye el tiempo que se tarda en detectar el error, diagnosticar el problema y arreglarlo. El MTTR es una métrica importante para monitorear porque evalúa la disponibilidad y confiabilidad de los sistemas y el equipamiento.
Objetivo de tiempo de recuperación (RTO): el objetivo de tiempo de recuperación (RTO) es el tiempo que lleva recuperarse de una interrupción (programada, no programada o desastre) y reanudar las operaciones normales de un sistema, aplicación o conjunto de aplicaciones. El RTO puede ser diferente para las interrupciones programadas, no programadas y de recuperación ante desastres.
Objetivo de punto de recuperación (RPO): el objetivo de punto de recuperación (RPO) es el punto en el tiempo relativo a la falla en la que necesita conservar los datos. Los cambios de datos anteriores a la falla o desastre por al menos este período de tiempo se conservan mediante el procesamiento de recuperación. Cero es un valor válido y equivale a un requisito de "pérdida de datos cero".

Ejemplos de alta disponibilidad

A medida que las organizaciones de muchas industrias emprenden amplias iniciativas de transformación digital, las demandas de disponibilidad de su infraestructura están aumentando. El trabajo remoto y la expansión de las redes 5G hicieron que sea normal que los usuarios esperen poder acceder a datos y aplicaciones desde cualquier lugar y en cualquier momento. Pero solo si los sistemas subyacentes que impulsan las aplicaciones y regulan el acceso a los datos están disponibles. A continuación se presentan algunos ejemplos de sistemas de alta disponibilidad que ayudan a las compañías modernas a prosperar:

Historias clínicas electrónicas (EHR)

Atrás quedaron los días en que un médico hojeaba archivos en un gabinete para encontrar la fecha de su última vacunación. Hoy en día, si se presenta en la sala de emergencias o en el consultorio de un especialista, es casi seguro que su médico accederá a sus registros en línea. Debido a la naturaleza crítica y privada de este tipo de información, los EHR son un ejemplo de un sistema de alta disponibilidad que puede entregar información precisa de forma segura en segundos con prácticamente cero tiempo de inactividad.

Vehículos autónomos

Los vehículos sin conductor o autónomos, como autos, drones y otros, dependen de conexiones a Internet rápidas y poderosas para que la inteligencia artificial (IA) que los controla pueda funcionar. Cuando un vehículo autónomo se detiene en un semáforo, por ejemplo, decenas de miles de datos se procesan casi en tiempo real para que se detenga en el semáforo donde debe y siga hacia su destino. La alta disponibilidad es crucial para el funcionamiento seguro de todo tipo de vehículos autónomos

Internet de las cosas (IoT)

El Internet de las cosas (IoT) es una red de dispositivos físicos, vehículos, electrodomésticos y otros objetos que están incrustados con sensores conectados a internet que les permiten recopilar y compartir datos. A medida que el ecosistema de IoT se expande a carreteras, vías fluviales, electrodomésticos, monitoreo del clima y más, millones y millones de dispositivos dependen de las redes. El alta disponibilidad ayuda a garantizar que las redes que admiten dispositivos IoT funcionen sin problemas y sin interrupciones.

Big Data

A medida que las compañías encuentran más formas de emplear las enormes cantidades de datos que generan en la era digital, el alta disponibilidad es esencial para un procesamiento de datos eficiente y eficaz. Los centros de datos y las plataformas de analytics complejas realizan procesamiento de datos y análisis en tiempo real, y el tiempo de inactividad puede retrasar los proyectos durante meses. Las soluciones de alta disponibilidad ayudan a las compañías a tener acceso las 24 horas del día, los 7 días de la semana, los 365 días del año a sus datos más importantes.

Modernice la infraestructura de TI para desbloquear la nube híbrida y los resultados de la IA

Descubra cómo las organizaciones están modernizando su infraestructura de TI con la última generación de servidores, almacenamiento y capacidades de nube híbrida para dar soporte a la IA, las máquinas virtuales y las aplicaciones modernas. Esta guía explora cómo la tecnología, las personas y los procesos deben evolucionar juntos para construir una cultura de cambio que acelere la modernización e impulse resultados comerciales medibles.

Recursos

La IA se está convirtiendo en la mayor carga de trabajo empresarial. ¿Su infraestructura está lista?

Según la encuesta AI View 2026 de IDC, la IA está superando rápidamente a todas las demás cargas de trabajo, pero muchas organizaciones carecen de la estrategia de infraestructura necesaria para escalar con éxito. Descubra por qué las plataformas de IA integradas y de lote completo se están volviendo esenciales para acelerar el despliegue, mejorar el retorno de la inversión (ROI) y poner en funcionamiento la IA en toda la empresa.

Infraestructura de la IA para el futuro de la banca

Explore cómo los bancos de nivel 1 están construyendo la base de la infraestructura de IA para escalar de forma segura y eficaz. Este documento destaca 10 casos de uso de IA de alto impacto y una hoja de ruta pragmática, que muestra cómo la nube híbrida, IBM Z y las arquitecturas de datos modernas permiten una IA segura, en tiempo real y compatible a escala.

Infraestructura de TI moderna para empresas impulsadas por IA

Descubra cómo las capacidades integradas de nube híbrida, automatización e IA transforman la infraestructura de TI tradicional en una plataforma escalable, segura e inteligente. Esta demostración interactiva muestra cómo las empresas pueden optimizar el rendimiento, reducir la complejidad y gestionar cargas de trabajo en tiempo real.

Acelera la innovación con una base segura de nube híbrida

Un marco para simplificar las operaciones de nube híbrida con seguridad y gobernanza coherentes.

Cómo Harvard escaló la investigación de seguridad de IA con infraestructura de nube de alto rendimiento

La disponibilidad limitada de GPU estaba ralentizando la investigación de seguridad de IA de vanguardia en el Calmon Lab de Harvard. Al aprovechar IBM® Cloud con la infraestructura basada en NVIDIA H100, el equipo eliminó los cuellos de botella informáticos, logró velocidades de inferencia superiores a 2000 tokens por segundo y aceleró drásticamente la experimentación de LLM y la investigación de alineación de modelos.

Acelere la innovación a escala con una plataforma en la nube unificada

Descubra cómo los equipos de ingeniería de plataformas amplían la infraestructura mediante flujos de trabajo automatizados y un control centralizado.

La empresa en 2030: diseñada para la innovación perpetua

Descubra nuestras cinco predicciones sobre lo que definirá a las empresas más exitosas en 2030 y los pasos que los líderes pueden tomar para obtener una ventaja de IA-first.

Conozca los verdaderos costos de la IA generativa

Descubra los costos ocultos del escalamiento de la IA generativa y aprenda de los expertos cómo hacer que sus inversiones en IA sean más eficientes y tengan un mayor impacto.

Soluciones relacionadas

IBM Cloud Infrastructure Center

IBM Cloud Infrastructure Center es una plataforma de software compatible con OpenStack diseñada para gestionar la infraestructura de nube privada que se ejecuta en IBM zSystems e IBM LinuxONE.

Explore Cloud Infrastructure Center

Infraestructura de TI

Ofrezca una infraestructura segura y preparada para IA en entornos de nube híbrida

Explore las soluciones de infraestructura de TI

Servicios de infraestructura

Acelere, proteja y optimice su infraestructura empresarial y de nube híbrida con la orientación de expertos de IBM Technology Expert Labs.

Conozca los servicios de infraestructura

Dé el siguiente paso

Transforme la infraestructura de su empresa con las soluciones de nube híbrida y preparadas para la IA de IBM. Explore los servidores, el almacenamiento y el software diseñados para proteger, escalar y modernizar su negocio o acceder a insights de expertos para mejorar su estrategia de IA generativa.

Notas de pie de página

1. "Gartner says 89% of Board Directors Say Digital is Embedded in All Business Growth Strategies , Gartner, 19 de octubre de 2022

2. "The Global IT Outage Provides Several Crisis Management Lessons , Forbes, 19 de julio de 2024