Alta disponibilidade (HA) é um termo que se refere à capacidade de um sistema de ser acessível e confiável perto de 100% do tempo.
Sistemas altamente disponíveis devem ser capazes de resistir a interrupções, incluindo downtime programado e desastres em todo o local. Normalmente, os sistemas HA atendem a duas características:
Com o crescimento das iniciativas de transformação digital e a subsequente migração de muitos serviços para a nuvem , soluções de alta disponibilidade agora são oferecidas por muitas empresas de tecnologia e software como serviço (SaaS) companies, incluindo Microsoft, Amazon (AWS), IBM®, Red Hat® e outras.
A alta disponibilidade de sistemas de TI é particularmente importante em setores onde aplicações críticas dependem de ter pouco ou nenhum downtime. Por exemplo, em hospitais e data centers, os usuários dependem de soluções de alta disponibilidade para realizar muitas funções diárias de rotina. Se os usuários não puderem acessar um sistema por qualquer motivo, ele será considerado "indisponível". O período de tempo em que um sistema está indisponível para os usuários é conhecido como downtime.
A recuperação de desastres (DR) consiste em tecnologias de infraestrutura de TI e melhores práticas projetadas para evitar ou minimizar a perda de dados e a interrupção da continuidade de negócios resultantes de eventos catastróficos. A alta disponibilidade (HA), por outro lado, geralmente diz respeito a falhas ou problemas menores que podem afetar a disponibilidade de um sistema.
Embora sejam diferentes, DR e HA compartilham o objetivo de minimizar a interrupção dos sistemas de TI, e ambas normalmente empregam componentes e sistemas redundantes como parte de uma estratégia geral. Além disso, tanto a DR quanto a HA usam backups de dados para disponibilizar os dados em caso de uma ampla gama de problemas, incluindo falhas de hardware, falhas de software e falhas de energia.
A tolerância a falhas é a capacidade de um sistema de operar continuamente após a falha de um ou mais de seus componentes críticos. Assim como a HA, a tolerância a falhas pode ajudar a disponibilizar um sistema durante ou após um evento de interrupção.
No entanto, onde a tolerância a falhas e a HA diferem é na maneira como tratam o downtime. Embora a HA procure ter o mínimo de downtime possível, a meta da tolerância a falhas é zero downtime, uma meta que só pode ser alcançada por meio de redundância, tendo um backup ou cópia secundária de cada componente da infraestrutura.
Com as empresas confiando mais do que nunca em serviços online e arquiteturas de nuvem e nuvem híbrida para fornecer aplicações e serviços críticos, as demandas de infraestrutura estão aumentando, tornando a alta disponibilidade uma prioridade. Confira a seguir alguns dos principais benefícios para as empresas de sistemas altamente disponíveis.
Com a transformação digital como um dos principais objetivos da maioria das empresas, a alta disponibilidade dos sistemas é crítica para oferecer aos funcionários e clientes acesso ilimitado a aplicações críticas1.
Falhas no sistema que causam horas ou até minutos de downtime podem causar pesadelos de relações públicas para empresas em uma ampla gama de setores, incluindo SaaS, aviação e tecnologia móvel2. A infraestrutura de alta disponibilidade garante que a reputação de uma marca não seja prejudicada devido a uma interrupção ou downtime inesperado.
Os Provedores de Serviços Gerenciados (MSPs) devem proporcionar alta disponibilidade de redes ou correm o risco de não cumprir seus acordos de nível de serviço (SLAs). Os sistemas de HA ajudam os Provedores de Serviços Gerenciados a fornecer redes das quais seus clientes mais valiosos podem depender, como uma que ajuda veículos autônomos a dirigir com segurança ou uma instalação de saúde a gerenciar registros de pacientes.
Seja procurando atingir zero downtime em setores como saúde ou finanças, ou simplesmente procurando formas de evitar danos à reputação causados por interrupções, as empresas que buscam alta disponibilidade geralmente seguem um processo de quatro etapas.
Muitos sistemas HA usam balanceamento de carga, o processo de distribuição de tráfego entre vários servidores para otimizar a disponibilidade de aplicações. Por exemplo, com um site de alto tráfego ou serviço de nuvem, um sistema recebe milhões de solicitações de usuários todos os dias. O balanceamento de carga garante que as aplicações possam entregar conteúdo de servidores da web aos usuários prontamente e sem interrupção. O balanceamento de carga, especialmente o uso de muitos balanceadores de carga ao mesmo tempo, pode ajudar a garantir que nenhum componente em um sistema fique sobrecarregado, levando a um ponto único de falha, que pode causar downtime ou interrupção.
Redundância (ter um componente secundário ou de backup disponível para assumir o controle quando um primário falhar) é uma parte importante de um sistema de alta disponibilidade. A redundância permite que os bancos de dados permaneçam disponíveis para usuários e aplicações, mesmo quando um componente não está funcionando. Se um componente em um sistema não for redundante, esse componente será considerado um ponto único de falha, pois perdê-lo pode impedir que todo o sistema funcione.
Clusters de alta disponibilidade, também conhecidos como agrupamento de alta disponibilidade, são grupos de máquinas conectadas que trabalham juntas como um único sistema. Quando uma máquina em um cluster falha, o software de gerenciamento de cluster transfere suas cargas de trabalho para outra máquina. Em um cluster de alta disponibilidade, o armazenamento compartilhado entre cada nó (computador) garante zero perda de dados se um único nó parar de funcionar.
A alta disponibilidade é medida em relação a um sistema estar 100% operacional, ou nunca ter uma única interrupção. Embora nenhum sistema possa estar 100% operacional, definir isso como meta ajuda a medir a disponibilidade de um sistema ao longo de um período. A métrica mais comum para sistemas e serviços de alta disponibilidade é algo chamado de disponibilidade de cinco noves .
A disponibilidade de cinco noves significa que um sistema pode ser executado e ter desempenho 99,999% do tempo. Normalmente, apenas sistemas em setores altamente críticos, como saúde, transporte, finanças ou governo, exigem disponibilidade de cinco noves. Esses sistemas são importantes para a vida das pessoas, para o acesso à alimentação, abrigo e bem-estar econômico.
Sistemas que não operam nesses setores altamente críticos normalmente não exigem tanta disponibilidade operacional e podem se contentar com a disponibilidade de “três ou quatro noves” (99,9% ou 99,99%). Outra forma pela qual isso é frequentemente descrito é dizer que um sistema altamente disponível tem “99,9/99,999% de tempo de atividade.”
Além da disponibilidade de cinco noves , os system managers de TI usam várias outras métricas para medir a disponibilidade de seus sistemas:
À medida que organizações de vários setores empreendem amplas iniciativas de transformação digital, as demandas de disponibilidade de sua infraestrutura estão aumentando. O trabalho remoto e a disseminação das redes 5G tornaram normal para os usuários esperar poder acessar dados e aplicações de qualquer lugar, a qualquer momento. Mas somente se os sistemas subjacentes que alimentam as aplicações e regulam o acesso aos dados estiverem disponíveis. Veja a seguir alguns exemplos de sistemas altamente disponíveis que ajudam as empresas modernas a prosperar:
Já se foram os dias em que um médico folheava os arquivos em um armário para encontrar a data de sua última vacinação. Hoje, se você aparecer no pronto-socorro ou no consultório de um especialista, é quase certo que seu médico acessará seus registros online. Devido à natureza crítica e privada desse tipo de informação, o EHR é um exemplo de sistema altamente disponível que pode fornecer informações precisas com segurança em segundos, próximo a zero downtime.
Veículos autônomos, como carros, drones e outros, dependem de conexões de internet rápidas e potentes para que a inteligência artificial (IA) que os controla funcione. Quando um veículo autônomo para em um semáforo, por exemplo, dezenas de milhares de dados são processados quase em tempo real para que ele pare no semáforo onde deveria e siga para seu destino. A alta disponibilidade é crucial para a operação segura de veículos autônomos de todos os tipos.
A Internet das coisas (IoT) é uma rede de dispositivos físicos, veículos, aparelhos e outros objetos que possuem sensores conectados à internet que permitem coletar e compartilhar dados. À medida que o ecossistema da IoT se expande para estradas, cursos de água, eletrodomésticos, monitoramento do clima e muito mais, milhões e milhões de dispositivos dependem de redes. A alta disponibilidade ajuda a garantir que as redes que suportam dispositivos de IoT funcionem sem problemas e sem interrupções.
À medida que as empresas encontram mais maneiras de usar as enormes quantidades de dados que geram na era digital, a alta disponibilidade é essencial para o processamento de dados eficiente e eficaz. Os data centers e as plataformas de análise complexa de dados realizam o processamento de dados contínuo e a análise de dados em tempo real ,e um downtime pode atrasar projetos em meses. As soluções de HA ajudam as empresas a ter acesso 24 horas por dia, 7 dias por semana, 365 dias por ano a seus dados mais importantes.
O IBM Cloud Infrastructure Center é uma plataforma de software compatível com o OpenStack para gerenciamento da infraestrutura de nuvens privadas em sistemas IBM zSystems e no IBM LinuxONE.
Conheça servidores, armazenamento e software projetados para sua estratégia corporativa de nuvem híbrida e IA.
Encontre a solução ideal de infraestrutura em nuvem para as necessidades do seu negócio e expanda os recursos conforme a demanda.
1. "Gartner says 89% of Board Directors Say Digital is Embedded in All Business Growth Strategies , Gartner, 19 de outubro de 2022
2. "The Global IT Outage Provides Several Crisis Management Lessons , Forbes, 19 de julho de 2024