O que é alta disponibilidade?

29 de julho de 2024

Autores

Mesh Flinders

Author, IBM Think

Ian Smalley

Senior Editorial Strategist

O que é alta disponibilidade?

Alta disponibilidade (HA) é um termo que se refere à capacidade de um sistema de ser acessível e confiável perto de 100% do tempo. 

Sistemas altamente disponíveis devem ser capazes de resistir a interrupções, incluindo downtime programado e desastres em todo o local. Normalmente, os sistemas HA atendem a duas características:

  • Eles devem estar disponíveis para uso perto de 100% do tempo.
  • Eles devem ser capazes de atender a um determinado conjunto de expectativas predeterminadas do usuário. 

Com o crescimento das iniciativas de transformação digital e a subsequente migração de muitos serviços para a nuvem , soluções de alta disponibilidade agora são oferecidas por muitas empresas de tecnologia e software como serviço (SaaS) companies, incluindo Microsoft, Amazon (AWS), IBM®, Red Hat® e outras.

A alta disponibilidade de sistemas de TI é particularmente importante em setores onde aplicações críticas dependem de ter pouco ou nenhum downtime. Por exemplo, em hospitais e data centers, os usuários dependem de soluções de alta disponibilidade para realizar muitas funções diárias de rotina. Se os usuários não puderem acessar um sistema por qualquer motivo, ele será considerado "indisponível". O período de tempo em que um sistema está indisponível para os usuários é conhecido como downtime.

HA versus recuperação de desastres (DR)

A recuperação de desastres (DR) consiste em tecnologias de infraestrutura de TI e melhores práticas projetadas para evitar ou minimizar a perda de dados e a interrupção da continuidade de negócios resultantes de eventos catastróficos. A alta disponibilidade (HA), por outro lado, geralmente diz respeito a falhas ou problemas menores que podem afetar a disponibilidade de um sistema.

Embora sejam diferentes, DR e HA compartilham o objetivo de minimizar a interrupção dos sistemas de TI, e ambas normalmente empregam componentes e sistemas redundantes como parte de uma estratégia geral. Além disso, tanto a DR quanto a HA usam backups de dados para disponibilizar os dados em caso de uma ampla gama de problemas, incluindo falhas de hardware, falhas de software e falhas de energia.

HA versus tolerância a falhas

A tolerância a falhas é a capacidade de um sistema de operar continuamente após a falha de um ou mais de seus componentes críticos. Assim como a HA, a tolerância a falhas pode ajudar a disponibilizar um sistema durante ou após um evento de interrupção.

No entanto, onde a tolerância a falhas e a HA diferem é na maneira como tratam o downtime. Embora a HA procure ter o mínimo de downtime possível, a meta da tolerância a falhas é zero downtime, uma meta que só pode ser alcançada por meio de redundância, tendo um backup ou cópia secundária de cada componente da infraestrutura.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Benefícios da alta disponibilidade

Com as empresas confiando mais do que nunca em serviços online e arquiteturas de nuvem e nuvem híbrida para fornecer aplicações e serviços críticos, as demandas de infraestrutura estão aumentando, tornando a alta disponibilidade uma prioridade. Confira a seguir alguns dos principais benefícios para as empresas de sistemas altamente disponíveis.

Maior flexibilidade

Com a transformação digital como um dos principais objetivos da maioria das empresas, a alta disponibilidade dos sistemas é crítica para oferecer aos funcionários e clientes acesso ilimitado a aplicações críticas1.

Proteger dados
Com uma arquitetura de alta disponibilidade, os dados mais importantes das organizações estão sempre disponíveis, acessíveis e protegidos contra violações não autorizadas.
Melhoria da reputação da marca

Falhas no sistema que causam horas ou até minutos de downtime podem causar pesadelos de relações públicas para empresas em uma ampla gama de setores, incluindo SaaS, aviação e tecnologia móvel2. A infraestrutura de alta disponibilidade garante que a reputação de uma marca não seja prejudicada devido a uma interrupção ou downtime inesperado.

Melhor serviço ao cliente

Os Provedores de Serviços Gerenciados (MSPs) devem proporcionar alta disponibilidade de redes ou correm o risco de não cumprir seus acordos de nível de serviço (SLAs). Os sistemas de HA ajudam os Provedores de Serviços Gerenciados a fornecer redes das quais seus clientes mais valiosos podem depender, como uma que ajuda veículos autônomos a dirigir com segurança ou uma instalação de saúde a gerenciar registros de pacientes.

AI Academy

Preparando-se para a IA com a nuvem híbrida

Liderada pelos principais líderes da IBM, o currículo dessa experiência foi desenvolvido para ajudar líderes empresariais a terem o conhecimento necessário para priorizar os investimentos em IA capazes de estimular o crescimento.

Como alcançar alta disponibilidade

Seja procurando atingir zero downtime em setores como saúde ou finanças, ou simplesmente procurando formas de evitar danos à reputação causados por interrupções, as empresas que buscam alta disponibilidade geralmente seguem um processo de quatro etapas.

  1. Remover pontos únicos de falha: pontos únicos de falha são componentes que fariam com que um sistema inteiro parasse de funcionar se falhassem. Por exemplo, se uma matriz de servidores estiver operando em um único switch de rede e esse switch falhar, todos os servidores da rede falharão. Uma tática chamada balanceamento de carga (onde o trabalho é distribuído pelas capacidades de um sistema) é frequentemente usada para reduzir e até eliminar pontos únicos de falha.

  2. Criar um failover confiável: o failover é a transferência de cargas de trabalho de um sistema primário para um sistema secundário no caso de uma falha no sistema primário. Quando as empresas criam um failover confiável, as cargas de trabalho podem ser facilmente transferidas sem downtime significativo, perda de dados ou queda no desempenho operacional.

  3. Detectar falhas instantaneamente: a alta disponibilidade depende de ter processos em vigor para detectar falhas ou defeitos em um sistema no instante em que ocorrem. Muitos sistemas modernos possuem detecção de falhas automatizada integrada. Alguns podem até detectar uma falha e escolher o próximo curso de ação, como implementar um processo de failover.

  4. Criar recursos sólidos de backup e restauração de dados: quando partes individuais de um sistema falham, pode haver perda de dados se os procedimentos adequados de backup e restauração não estiverem em vigor. Tecnologias e práticas de proteção de dados fazem cópias periódicas de dados e aplicações em um dispositivo secundário separado, para que os dados e as aplicações possam ser rapidamente recuperados.

Balanceamento de carga

Muitos sistemas HA usam balanceamento de carga, o processo de distribuição de tráfego entre vários servidores para otimizar a disponibilidade de aplicações. Por exemplo, com um site de alto tráfego ou serviço de nuvem, um sistema recebe milhões de solicitações de usuários todos os dias. O balanceamento de carga garante que as aplicações possam entregar conteúdo de servidores da web aos usuários prontamente e sem interrupção. O balanceamento de carga, especialmente o uso de muitos balanceadores de carga ao mesmo tempo, pode ajudar a garantir que nenhum componente em um sistema fique sobrecarregado, levando a um ponto único de falha, que pode causar downtime ou interrupção.

Redundância

Redundância (ter um componente secundário ou de backup disponível para assumir o controle quando um primário falhar) é uma parte importante de um sistema de alta disponibilidade. A redundância permite que os bancos de dados permaneçam disponíveis para usuários e aplicações, mesmo quando um componente não está funcionando. Se um componente em um sistema não for redundante, esse componente será considerado um ponto único de falha, pois perdê-lo pode impedir que todo o sistema funcione.

Clusters de alta disponibilidade

Clusters de alta disponibilidade, também conhecidos como agrupamento de alta disponibilidade, são grupos de máquinas conectadas que trabalham juntas como um único sistema. Quando uma máquina em um cluster falha, o software de gerenciamento de cluster transfere suas cargas de trabalho para outra máquina. Em um cluster de alta disponibilidade, o armazenamento compartilhado entre cada nó (computador) garante zero perda de dados se um único nó parar de funcionar.

Como se mede a alta disponibilidade?

A alta disponibilidade é medida em relação a um sistema estar 100% operacional, ou nunca ter uma única interrupção. Embora nenhum sistema possa estar 100% operacional, definir isso como meta ajuda a medir a disponibilidade de um sistema ao longo de um período. A métrica mais comum para sistemas e serviços de alta disponibilidade é algo chamado de disponibilidade de cinco noves .

Disponibilidade de cinco noves

A disponibilidade de cinco noves significa que um sistema pode ser executado e ter desempenho 99,999% do tempo. Normalmente, apenas sistemas em setores altamente críticos, como saúde, transporte, finanças ou governo, exigem disponibilidade de cinco noves. Esses sistemas são importantes para a vida das pessoas, para o acesso à alimentação, abrigo e bem-estar econômico.

Sistemas que não operam nesses setores altamente críticos normalmente não exigem tanta disponibilidade operacional e podem se contentar com a disponibilidade de “três ou quatro noves” (99,9% ou 99,99%). Outra forma pela qual isso é frequentemente descrito é dizer que um sistema altamente disponível tem “99,9/99,999% de tempo de atividade.”

Outras métricas importantes: tempos médios e de recuperação

Além da disponibilidade de cinco noves , os system managers de TI usam várias outras métricas para medir a disponibilidade de seus sistemas:

  • Tempo médio entre falhas (MTBF): tempo médio entre falhas (MTBF) é uma medida da confiabilidade de um sistema ou componente. É um elemento crucial de gerenciamento de manutenção, representando o tempo médio em que um sistema ou componente funcionará antes de falhar. A fórmula do MTBF é frequentemente usada em cenários de manutenção de sistemas industriais ou eletrônicos, onde a falha de um componente pode resultar em períodos consideráveis de  downtime ou até mesmo riscos à segurança, mas o MTBF é utilizado em uma ampla gama de sistemas reparáveis e diversos setores.

  • Tempo médio de reparo (MTTR): o tempo médio de reparo (MTTR), às vezes chamado de tempo médio de recuperação, é uma métrica usada para medir o tempo médio necessário para reparar um sistema ou equipamento após uma falha. O MTTR inclui o tempo desde o momento em que a falha ocorre até o momento em que o sistema ou equipamento volta a estar totalmente funcional. Isso inclui o tempo necessário para detectar a falha, diagnosticar o problema e corrigi-lo. O MTTR é uma métrica importante a ser monitorada, porque avalia a disponibilidade e a confiabilidade de sistemas e equipamentos.

  • Objetivo de tempo de recuperação (RTO): o objetivo de tempo de recuperação (RTO) é o tempo necessário para se recuperar de uma interrupção (programada, não programada ou desastre) e retomar as operações normais para um sistema, aplicação ou conjunto de aplicações. O RTO pode ser diferente para interrupções programadas, não programadas e de recuperação de desastres .

  • Objetivo do ponto de recuperação (RPO): o objetivo do ponto de recuperação (RPO) é o ponto no tempo em relação à falha para a qual você precisa preservar os dados. As alterações de dados anteriores à falha ou ao desastre por pelo menos esse período de tempo são preservadas pelo processamento de recuperação. Zero é um valor válido e é equivalente a um requisito de "zero perda de dados".

Exemplos de alta disponibilidade

À medida que organizações de vários setores empreendem amplas iniciativas de transformação digital, as demandas de disponibilidade de sua infraestrutura estão aumentando. O trabalho remoto e a disseminação das redes 5G tornaram normal para os usuários esperar poder acessar dados e aplicações de qualquer lugar, a qualquer momento. Mas somente se os sistemas subjacentes que alimentam as aplicações e regulam o acesso aos dados estiverem disponíveis. Veja a seguir alguns exemplos de sistemas altamente disponíveis que ajudam as empresas modernas a prosperar:

Registros eletrônicos de saúde (EHR)

Já se foram os dias em que um médico folheava os arquivos em um armário para encontrar a data de sua última vacinação. Hoje, se você aparecer no pronto-socorro ou no consultório de um especialista, é quase certo que seu médico acessará seus registros online. Devido à natureza crítica e privada desse tipo de informação, o EHR é um exemplo de sistema altamente disponível que pode fornecer informações precisas com segurança em segundos, próximo a zero downtime.

Veículos autônomos

Veículos autônomos, como carros, drones e outros, dependem de conexões de internet rápidas e potentes para que a inteligência artificial (IA) que os controla funcione. Quando um veículo autônomo para em um semáforo, por exemplo, dezenas de milhares de dados são processados quase em tempo real para que ele pare no semáforo onde deveria e siga para seu destino. A alta disponibilidade é crucial para a operação segura de veículos autônomos de todos os tipos.

Internet das coisas (IoT)

A Internet das coisas (IoT) é uma rede de dispositivos físicos, veículos, aparelhos e outros objetos que possuem sensores conectados à internet que permitem coletar e compartilhar dados. À medida que o ecossistema da IoT se expande para estradas, cursos de água, eletrodomésticos, monitoramento do clima e muito mais, milhões e milhões de dispositivos dependem de redes. A alta disponibilidade ajuda a garantir que as redes que suportam dispositivos de IoT funcionem sem problemas e sem interrupções.

Big data

À medida que as empresas encontram mais maneiras de usar as enormes quantidades de dados que geram na era digital, a alta disponibilidade é essencial para o processamento de dados eficiente e eficaz. Os data centers e as plataformas de análise complexa de dados realizam o processamento de dados contínuo e a análise de dados em tempo real ,e um downtime pode atrasar projetos em meses. As soluções de HA ajudam as empresas a ter acesso 24 horas por dia, 7 dias por semana, 365 dias por ano a seus dados mais importantes.

Soluções relacionadas
IBM Cloud Infrastructure Center 

O IBM Cloud Infrastructure Center é uma plataforma de software compatível com o OpenStack para gerenciamento da infraestrutura de nuvens privadas em sistemas IBM zSystems e no IBM LinuxONE.

Explore o Cloud Infrastructure Center
Soluções de infraestrutura de TI

Conheça servidores, armazenamento e software projetados para sua estratégia corporativa de nuvem híbrida e IA.

Saiba mais sobre as soluções de infraestrutura de TI
Soluções de infraestrutura em nuvem

Encontre a solução ideal de infraestrutura em nuvem para as necessidades do seu negócio e expanda os recursos conforme a demanda.

Soluções em nuvem
Dê o próximo passo

Transforme sua infraestrutura empresarial com as soluções da IBM prontas para IA e nuvem híbrida. Descubra servidores, armazenamento e software projetados para proteger, expandir e modernizar seus negócios ou acesse insights de especialistas para aprimorar sua estratégia de IA generativa.

Saiba mais sobre as soluções de infraestrutura de TI Baixe o e-book