고가용성(HA)은 100%에 가까운 시간 동안 액세스할 수 있고 신뢰할 수 있는 시스템 기능을 나타내는 용어입니다.
가용성이 높은 시스템은 예정된 가동 중지 및 사이트 전체 재해를 포함한 중단 상황을 견딜 수 있어야 합니다. 일반적으로 HA 시스템은 두 가지 특성을 충족합니다.
디지털 혁신 이니셔티브가 성장하고 이에 따른 많은 서비스가 클라우드 로 이전됨에 따라 이제 Microsoft, Amazon(AWS), IBM®, Red Hat® 등 많은 기술 및 서비스형 소프트웨어(SaaS) 기업에서 고가용성 솔루션을 제공하고 있습니다.
IT 시스템의 고가용성은 중요한 애플리케이션이 시스템 다운타임이 거의 또는 전혀 없어야 하는 산업에서 특히 중요합니다. 예를 들어, 병원과 데이터 센터의 사용자는 일상적인 여러 기능을 수행하기 위해 고가용성 솔루션에 의존합니다. 사용자가 어떤 이유로든 시스템에 액세스할 수 없는 경우 해당 시스템은 '사용 불가'로 간주됩니다. 사용자가 시스템을 사용할 수 없는 기간을 다운타임이라고 합니다.
재해 복구(DR)는 치명적인 이벤트로 인한 데이터 손실과 비즈니스 연속성 중단을 방지하거나 최소화하도록 설계된 IT 인프라 기술과 모범 사례로 구성됩니다. 반면 고가용성(HA)은 일반적으로 시스템의 가용성에 영향을 미칠 수 있는 소규모 장애 또는 결함과 관련이 있습니다.
DR과 HA는 서로 다르지만 둘 다 IT 시스템의 중단을 최소화한다는 목표를 공유하며, 일반적으로 전체 전략의 일부로 중복 구성 요소와 중복 시스템을 사용합니다. 또한 DR과 HA는 모두 데이터 백업을 사용하여 하드웨어 장애, 소프트웨어 장애, 전원 단전 등 다양한 문제가 발생할 경우 데이터를 사용할 수 있도록 합니다.
내결함성은 하나 이상의 중요한 구성 요소에 장애가 발생한 후에도 지속적으로 작동하는 시스템의 기능입니다. HA와 마찬가지로 내결함성은 중단 이벤트 중이나 이후에 시스템을 사용할 수 있도록 하는 데 도움이 될 수 있습니다.
그러나 내결함성과 HA는 다운타임을 처리하는 방식이 다릅니다. HA는 다운타임을 최대한 줄이는 것을 추구하지만, 내결함성의 목표는 다운타임 제로이며, 이는 인프라의 모든 단일 구성 요소에 대한 백업 또는 보조 복사본을 보유하는 이중화를 통해서만 달성할 수 있는 목표입니다.
기업이 중요한 애플리케이션과 서비스를 제공하기 위해 온라인 서비스와 클라우드 및 하이브리드 클라우드 아키텍처에 그 어느 때보다 의존함에 따라 인프라 수요가 증가하고 있으며 고가용성이 최우선 과제가 되고 있습니다. 고가용성 시스템의 가장 일반적인 기업 이점은 다음과 같습니다.
대부분의 기업이 디지털 혁신을 핵심 목표로 삼고 있는 상황에서 직원과 고객이 중요한 애플리케이션에 무제한으로 액세스할 수 있도록 하려면 시스템의 고가용성이 매우 중요합니다1.
시스템 장애로 인해 몇 시간 또는 몇 분간의 다운타임이 발생하면 SaaS, 항공, 모바일 기술을 포함한 다양한 산업 전반에서 기업에 심각한 홍보 문제를 초래할 수 있습니다2.고가용성 인프라는 가동 중단이나 예기치 않은 다운타임으로 인해 브랜드 평판이 손상되지 않도록 보장합니다.
관리형 서비스 공급자(MSP)는 네트워크의 높은 가용성을 제공해야 하며, 그렇지 않으면 서비스 수준 계약(SLA)을 충족하지 못할 위험이 있습니다. HA 시스템은 MSP가 자율 주행 차량의 안전 운전을 지원하거나 의료 시설에서 환자 기록을 관리하는 등 가장 중요한 고객이 신뢰할 수 있는 네트워크를 제공하는 데 도움이 됩니다.
의료 또는 금융과 같은 산업에서 제로 다운타임을 달성하려는 경우든, 단순히 중단으로 인한 평판 손상을 피할 방법을 찾는 경우든, 높은 가용성을 추구하는 기업은 일반적으로 4단계 프로세스를 따릅니다.
많은 고가용성(HA) 시스템은 애플리케이션 가용성을 최적화하기 위해 여러 서버에 트래픽을 분산하는 프로세스인 로드 밸런싱을 사용합니다. 예를 들어, 트래픽이 많은 웹사이트나 클라우드 서비스의 경우 시스템은 매일 수백만 건의 사용자 요청을 받습니다. 로드 밸런싱을 통해 애플리케이션은 웹 서버의 콘텐츠를 중단 없이 사용자에게 신속하게 전송할 수 있습니다. 특히 여러 로드 밸런서를 동시에 사용하는 로드 밸런싱은 시스템 내의 단일 구성 요소가 과부하되어 가동 중단이나 서비스 중단을 일으킬 수 있는 단일 장애 지점이 발생하는 것을 방지하는 데 도움이 됩니다.
중복성, 즉 기본 구성 요소가 실패했을 때 이를 대신할 보조 또는 백업 구성 요소를 준비해 두는 것은 고가용성 시스템에서 중요한 요소입니다.중복성을 사용하면 구성 요소가 작동하지 않는 경우에도 사용자와 애플리케이션에서 데이터베이스를 계속 사용할 수 있습니다. 시스템의 구성 요소가 중복되지 않는 경우 해당 구성 요소는 단일 장애 지점으로 간주되며, 이 구성 요소가 손실되면 전체 시스템의 작동이 중지될 수 있습니다.
고가용성 클러스터라고도 하는 고가용성 클러스터는 단일 시스템으로 함께 작동하는 연결된 머신 그룹입니다. 클러스터의 한 머신에 장애가 발생하면 클러스터 관리 소프트웨어가 해당 워크로드를 다른 머신으로 전송합니다. 클러스터 내에서 각 노드 간의 스토리지 공유는 단일 노드의 작동이 중지되더라도 데이터 손실이 발생하지 않도록 보장합니다.
고가용성은 시스템이 100% 정상 운영 상태, 즉 한 번의 중단도 발생하지 않는 상태를 기준으로 측정됩니다. 어떤 시스템도 100% 정상 운영될 수는 없지만, 이를 목표로 설정하면 일정 기간 동안 시스템의 가용성을 측정하는 데 도움이 됩니다. 고가용성 시스템과 서비스를 측정하는 가장 일반적인 지표는 5개의 9(99.999%)의 가용성이라고 불립니다.
5개의 9 가용성은 시스템이 99.999%의 시간 동안 실행되고 수행될 수 있음을 의미합니다. 일반적으로 의료, 운송, 금융 또는 정부와 같이 매우 중요한 산업의 시스템에만 5개의 9 가용성이 필요합니다. 이러한 시스템은 사람들의 삶, 식량 및 주거지에 대한 접근, 경제적 복지에 중요합니다.
이러한 매우 중요한 산업에서 작동하지 않는 시스템은 일반적으로 많은 운영 가용성을 필요로 하지 않으며 "99.9% 또는 99.99%"의 가용성으로 만족할 수 있습니다. 이를 설명하는 또 다른 방법은 고가용성 시스템이 “99.9% / 99.999% 가동 시간”을 유지한다고표현하는 것입니다.
5개의 9 가용성 외에도, IT 시스템 관리자들은 시스템의 가용성을 측정하기 위해 여러 가지 주요 측정 지표를 사용합니다.
여러 산업 분야의 조직이 광범위한 디지털 혁신 이니셔티브를 추진함에 따라 인프라에 대한 가용성 요구가 증가하고 있습니다. 원격 근무와 5G 네트워크의 확산으로 사용자는 언제 어디서나 데이터와 애플리케이션에 액세스할 수 있기를 기대하는 것이 당연한 일이 되었습니다. 하지만 애플리케이션을 구동하고 데이터 액세스를 규제하는 기본 시스템을 사용할 수 있는 경우에만 가능합니다. 다음은 현대 기업의 성공을 돕는 고가용성 시스템의 몇 가지 예입니다.
의사가 마지막 백신 접종 날짜를 찾기 위해 캐비닛의 파일을 뒤지던 시대는 지났습니다. 오늘날 응급실이나 전문의 진료실에 가면, 의사가 온라인으로 환자의 기록을 조회할 가능성이 매우 높습니다. 이러한 종류의 정보는 중요하고 사적인 특성 때문에 EHR은 다운타임이 거의 없이 몇 초 내에 정확한 정보를 안전하게 제공할 수 있는 고가용성 시스템의 한 예입니다.
운전자 없는 차량, 즉 자율주행 차량(자동차, 드론 등)은 이를 제어하는 인공 지능(AI)이 원활하게 작동할 수 있도록 빠르고 강력한 인터넷 연결에 의존합니다. 예를 들어, 자율주행 차량이 신호등 앞에 멈출 때 수만 개의 데이터가 거의 실시간으로 처리되어 차량이 신호등 앞에서 정확히 멈추고 목적지까지 안전하게 이동할 수 있도록 합니다. 고가용성은 모든 종류의 자율주행 차량의 안전한 운행에 매우 중요합니다.
사물인터넷(IoT)은 인터넷에 연결된 센서가 내장된 물리적 장치, 차량, 기기 및 기타 물체로 구성된 네트워크로, 이를 통해 데이터를 수집하고 공유할 수 있습니다. IoT 에코시스템이 도로, 수로, 가전제품, 기상 모니터링 등으로 확장됨에 따라 수백만 개의 디바이스가 네트워크에 의존하고 있습니다. 고가용성은 IoT 장치를 지원하는 네트워크가 중단 없이 원활하게 실행되도록 하는 데 도움이 됩니다.
기업이 디지털 시대에 생성되는 방대한 양의 데이터를 활용할 수 있는 다양한 방법을 모색함에 따라 효율적이고 효과적인 데이터 처리를 위해서는 고가용성이 필수적입니다. 데이터 센터와 복잡한 분석 플랫폼은 지속적인 데이터 처리와 실시간 분석을 수행하며, 다운타임으로 인해 프로젝트가 몇 달씩 지연될 수 있습니다. HA 솔루션은 기업이 가장 중요한 데이터에 연중무휴 24시간 액세스할 수 있도록 지원합니다.
IBM Cloud Infrastructure Center는 IBM zSystems 및 IBM LinuxONE에서 프라이빗 클라우드의 인프라를 관리하기 위한 OpenStack 호환 소프트웨어 플랫폼입니다.
엔터프라이즈 하이브리드 클라우드 및 AI 전략을 위해 설계된 서버, 스토리지 및 소프트웨어를 살펴보세요.
비즈니스 요구에 적합한 클라우드 인프라 솔루션을 찾고 필요에 따라 리소스를 확장하세요.
1. "Gartner says 89% of Board Directors Say Digital is Embedded in All Business Growth Strategies , Gartner, 2022년 10월 19일
2. "The Global IT Outage Provides Several Crisis Management Lessons , Forbes, 2024년 7월 19일