AIOps란?
AIOps(Artificial Intelligence for IT Operations)가 데이터와 머신러닝을 접목하여 IT 서비스 관리를 개선하고 자동화하는 방법을 알아보세요.
IBM 뉴스레터 구독하기 AIOps로 애플리케이션 성능을 높이는 방법 알아보기
검정 및 파랑 배경
AIOps란?

Gartner가 만든 용어인 AIOps(artificial intelligence for IT operations)는 운영 워크플로우를 자동화 및 효율화하기 위해 자연어 처리 및 머신 러닝 모델과 같은 인공지능(AI) 기능을 응용하는 것을 말합니다.

구체적으로, AIOps는 다음과 같은 작업을 수행하기 위해 빅데이터, 분석 및 머신 러닝 기능을 사용합니다.

  • 다수의 IT 인프라 구성 요소, 애플리케이션 요구 사항, 성능 모니터링 툴 및 서비스 티켓 발행 시스템에서 생성되는 계속 증가되는 방대한 양의 데이터를 수집 및 집계
  • 애플리케이션 성능 및 가용성 문제와 관련된 중요한 이벤트 및 패턴을 식별하기 위해 '노이즈'를 '신호'로 지능적으로 변환
  • 근본 원인을 진단하고 신속한 대응 및 조치를 위해 IT 및 DevOps 팀에 보고. 또는 경우에 따라 사용자 개입 없이 자동으로 이러한 문제를 해결 

여러 개의 개별 수동 IT 운영 툴을 하나의 지능적이며 자동화된 IT 운영 플랫폼으로 통합함으로써 AIOps를 통해 엔드투엔드 가시성과 컨텍스트를 활용하여 IT 운영 팀은 훨씬 더 빨리, 그리고 심지어 사전 예방적으로, 속도 저하 및 운영 중단에 대응할 수 있습니다.

이 솔루션은 점점 더 다양해지고 동적으로 변화되며 모니터링하기 어려운 IT 환경과 사일로화된 팀 또는 애플리케이션 성능 및 가용성이 거의 또는 전혀 중단되지 않아야 한다는 사용자의 기대 사이에 존재하는 격차를 해소합니다. 대부분의 전문가는 AIOps가 미래의 IT 운영 관리 방식이 될 것이라고 생각합니다. 그리고 기업들이 디지털 혁신 이니셔티브에 더욱 집중함에 따라 이에 대한 수요도 증가하고 있습니다.

AIOps 구현

조직은 저마다 다른 방식으로 AIOps를 구현합니다. 귀사는 AIOps 여정의 어느 단계에 있는지 평가한 후 먼저 IT 운영 문제를 확인하고 예측하고 신속하게 조치를 취하는 데 도움을 주는 툴을 통합할 수 있습니다. 조직 내 AIOps를 개선하기 위한 툴을 고려할 때 다음과 같은 기능을 갖추고 있는지 확인할 것을 권장합니다.

관측성: 관측성은 고객 경험에 대한 기대치, 서비스 수준 계약(service level agreement, SLA) 및 기타 비즈니스 요구 사항을 충족하기 위해 더 효과적으로 애플리케이션을 모니터링, 문제 해결, 디버깅하려는 목적으로 분산된 애플리케이션과 이 애플리케이션이 실행되는 하드웨어에서 꾸준히 생성되는 성능 데이터를 수집, 집계, 분석하는 소프트웨어 툴 및 관행을 말합니다. 이러한 솔루션은 데이터 집계 및 통합을 통해 애플리케이션, 인프라, 네트워크 전반에 대한 전체적 시각을 제공할 수 있지만 IT 문제를 해결하기 위한 시정 조치를 취하지는 않습니다. 이러한 솔루션은 IT 문제를 해결하기 위한 시정 조치를 취하지 않을지라도 IT 도메인 전반의 다양한 데이터 소스가 제공하는 IT 데이터를 수집 및 집계하여 최종 사용자에게 문제가 있을 수 있음을 알리고 IT 서비스 팀이 필요한 해결책을 실행할 것으로 기대합니다. 이러한 툴이 제공하는 데이터와 시각화 기능은 그 자체로 가치가 있지만 결정을 내리고 기술적 문제에 적절히 대응하려면 IT 조직에 의존해야 합니다. 운영자가 수동으로 운영 시스템을 업데이트하는 방식의 리소스 최적화는 동적 요구 사항이 존재하는 상황에서는 이점을 제공하지 못할 수 있습니다.

예측 분석: AIOps 솔루션은 데이터 분석 및 상관관계 파악을 통해 더 나은 인사이트와 자동화된 조치를 제공할 수 있으므로 IT 팀은 복잡성이 심화되는 IT 환경에 대한 제어력을 유지하고 애플리케이션 성능을 보장할 수 있습니다.  상관관계를 파악하고 문제를 확인할 수 있으면 IT 운영 팀은 큰 진전을 거둘 수 있습니다. 그럴 경우 조직 내에서 발견하지 못했을 수 있는 문제를 찾는 데 소요되는 시간이 줄어듭니다. 조직은 자동 이상 탐지, 알림, 솔루션 권장 사항과 같은 이점을 누립니다. 그리고 이러한 이점 덕분에 전체 다운타임을 단축하고 인시던트 및 티켓의 수를 줄일 수 있습니다. 예측 분석을 활용하여 동적 리소스 최적화를 자동화할 수 있습니다. 그러면 애플리케이션 성능을 보장하면서 수요의 가변성이 높은 경우에도 리소스 비용을 안전하게 낮출 수 있습니다.

사전 예방적 대응: 일부 AIOps 솔루션은 속도 저하 및 운영 중단과 같은 의도하지 않은 이벤트에 사전 예방적으로 대응하여 애플리케이션 성능 및 리소스 관리를 실시간으로 함께 지원합니다. 이러한 솔루션은 애플리케이션 성능 지표를 예측 알고리즘에 공급하여 다양한 IT 문제와 동시에 발생하는 패턴 및 트렌드를 찾아낼 수 있습니다. IT 문제가 발생하기 전에 이를 예측하는 기능으로 AIOps 툴은 자동화된 관련 프로세스를 실행하여 대응하고 문제를 신속하게 교정할 수 있습니다. 조직은 평균 탐지 시간(mean time to detection, MTTD) 단축과 같은 지능적 자동화의 이점을 누릴 수 있을 것입니다.

이러한 유형의 기술은 기업이 직원 경험과 고객 경험을 모두 향상하는 데 도움이 되므로 미래의 IT 운영 관리 방식이 될 것입니다. AIOps 시스템은 시기적절하게 IT 서비스 문제를 해결할 뿐만 아니라 조직적 사일로, 리소스가 부족한 팀 등 인간의 실수로 인한 빈틈을 통해 발생할 수 있는 문제를 해결하여 IT 운영 팀에게 안전망을 제공합니다. 

AIOps의 장점

AIOps의 중요한 장점은 IT 운영팀이 여러 IT 운영 툴에서 발생하는 경고를 수동으로 조사할 때보다 더 빠르게 속도 저하 및 운영 중단을 식별, 처리 및 해결할 수 있다는 점입니다. 그 결과 다음과 같은 다양한 이점을 얻을 수 있습니다.

  • 평균 해결 시간(MTTR) 단축: AIOps는 IT 운영 노이즈를 줄이고 여러 IT 환경에서 생성되는 운영 데이터의 상관관계를 파악하여 근본적인 원인을 식별하고 사람이 하는 것보다 더 빠르고 정확하게 솔루션을 제안할 수 있습니다. 이를 통해 기업은 이전에 생각할 수 없었던 MTTR 목표를 설정하고 달성할 수 있습니다. 
  • 운영 비용 절감: 운영 문제 자동 파악 및 재프로그래밍된 대응 스크립트를 통해 운영 비용이 절감되므로 리소스를 더 효과적으로 배정할 수 있습니다. 또한 이를 통해 인력 조달 리소스가 시간을 절약하여 더 혁신적이고 복잡한 업무를 수행하게 되므로 직원 경험이 향상됩니다. Providence는 최적화를 통해 피크타임 동안 앱 성능을 보장하는 동시에 USD 200만 이상을 절약했습니다.
  • 관측성 및 협업 능력 향상: AIOps 모니터링 툴 내에서 제공되는 통합 기능은 DevOps, ITOps, 거버넌스 및 보안 부서들의 팀 간 협업을 더 효과적으로 수행하도록 지원합니다. 가시성, 커뮤니케이션, 투명성이 개선되어 이러한 팀들은 의사 결정 역량을 향상하고 문제에 더 신속하게 대응할 수 있습니다. 예를 들면, Dealerware는 컨테이너 기반 아키텍처의 관측성을 향상하여 팬데믹 동안 앱 성능을 향상하고 레이턴시를 98% 낮췄습니다.

사후 대응 방식에서 사전 예방 방식으로 전환하여 예측 관리 수행: 예측 분석 기능이 내장된 AIOps는 계속적인 학습을 통해 가장 긴급한 알림을 식별하고 우선 순위를 지정하므로 IT 팀은 속도 저하 또는 운영 중단이 발생하기 전에 잠재적 문제를 해결할 수 있습니다. Electrolux는 평균 탐지 시간(MTTD)을 단축하여 IT 문제 해결 시간을 3주에서 1시간으로 단축했으며 수리 작업을 자동화하여 연간 1,000시간 이상을 절약했습니다.

AIOps 사용 사례

AIOps는 빅데이터, 고급 분석, 머신 러닝 기능을 통합하여 다음과 같은 사용 사례를 지원합니다.

  • 근본 원인 분석: 이 이름에서 알수 있듯이 근본 원인 분석은 적절한 해결책으로 문제를 해결하기 위해 근본 원인을 결정하는 것입니다. 근본 원인을 찾아내면 핵심적 문제가 아니라 문제의 증상만 해결하는 불필요한 작업을 피할 수 있습니다. 예를 들면, AIOps 플랫폼은 네트워크 운영 중단의 원인을 추적하여 즉시 문제를 해결하고 보호 장치를 설정하여 향후 비슷한 문제를 예방할 수 있습니다.
  • 이상 탐지: AIOps 툴은 대량의 내역 데이터를 샅샅이 조사하여 데이터 세트 안의 이례적 데이터 포인트를 찾아낼 수 있습니다. 이러한 이상값은 데이터 침해와 같은 문제적 이벤트를 식별 및 예측하는 '신호'로서 역할을 수행합니다. 이와 같은 기능으로 기업들은 부정적 대외 이미지, 규제로 인한 벌금, 소비자의 신뢰 감소 등 비용을 초래하는 결과를 방지할 수 있습니다.  
  • 성능 모니터링: 최신 애플리케이션은 여러 계층의 추상화로 나뉘는 경우가 많아 애플리케이션을 지원하는 물리적 기반 서버, 스토리지, 네트워킹 리소스를 알아내기가 어렵습니다. AIOps는 이러한 고충을 해결하는 데 도움을 줍니다. AIOps는 사용량, 가용성, 응답 시간 등의 지표에 대해 보고하면서 클라우드 인프라, 가상화, 스토리지 시스템을 위한 모니터링 툴로서 역할을 수행합니다. 또한, AIOps는 이벤트 상관관계 분석 기능을 활용하여 정보를 통합하고 집계하므로 최종 사용자는 정보를 더 유용하게 소비할 수 있습니다.  
  • 클라우드 채택/마이그레이션: 대부분의 조직에서 클라우드 채택은 일괄적 방식이 아니라 점진적 방식으로 이루어지므로 하이브리드 멀티 클라우드 환경(프라이빗 클라우드, 퍼블릭 클라우드, 다양한 공급업체)이 형성되고 너무 빨리 그리고 너무 자주 변경되어 문서화하기 어려울 수 있는 여러 상호의존성이 발생합니다. AIOps는 이러한 상호의존성에 대한 명확한 가시성을 제공하므로 클라우드 마이그레이션하이브리드 클라우드 방식의 운영 위험을 크게 줄일 수 있습니다.
  • DevOps 채택: DevOps로 개발 팀은 인프라를 프로비저닝하고 재구성할 수 있는 더 큰 권한을 갖게 되어 개발 속도를 높일 수 있지만, IT 팀이 여전이 이 인프라를 관리해야 합니다. AIOps는 추가적인 관리 노력 없이 DevOps를 지원하는 데 필요한 가시성과 자동화를 IT 팀에 제공합니다.
AIOps의 작동 방식

AIOps가 작동하는 방식을 이해하는 가장 쉬운 방법은 각 AIOps를 구성하는 각 기술(빅데이터, 머신 러닝, 자동화)이 프로세스에서 수행하는 역할을 검토하는 것입니다.

AIOps는 빅데이터 플랫폼을 사용하여 사일로화된 IT 운영 데이터, 팀, 툴을 한 곳에서 집계합니다 . 이러한 데이터의 예는 다음과 같습니다.

  • 과거의 성능 및 이벤트 데이터
  • 실시간 스트리밍 운영 이벤트
  • 시스템 로그 및 메트릭
  • 패킷 데이터를 포함한 네트워크 데이터
  • 인시던트 관련 데이터 및 티켓 발행
  • 애플리케이션 요구 사항 데이터
  • 인프라 데이터

그런 다음 AIOps는 집중 분석 및 머신 러닝 기능을 적용합니다.

  • 중요한 이벤트 알림을 '노이즈'로부터 분리: AIOps는  IT 운영 데이터를 샅샅이 조사하여 신호, 즉 중요한 비정상 이벤트 알림을 노이즈(그 밖의 모든 알림)로부터 분리합니다.
  • 근본 원인 파악 및 해결책 제시: AIOps는 환경 전반에서 비정상적 이벤트를 다른 이벤트 데이터와 연관지어 상관관계를 분석하여 운영 중단 또는 성능 문제의 원인을 집중 조명하고 해결책을 제시합니다.
  • 실시간 사전 해결을 포함한 대응 자동화: 최소한 AIOps는 알림 및 권장 해결책을 적절한 IT 팀에게 자동으로 전달하거나, 심지어 문제의 특성 및 해결책을 기반으로 대응 팀을 생성합니다. 많은 경우, 머신 러닝에서 얻은 결과를 처리하여 사용자가 문제 발생을 인식하기 전에 실시간으로 문제를 해결하도록 자동 시스템 대응을 작동시킵니다.
  • 계속적 학습을 통해 향후 문제에 대한 대처 능력 향상: AI 모델은 또한 시스템이 DevOps 팀이 프로비저닝하거나 재구성한 새로운 인프라 등 환경의 변화에 대해 학습하고 이에 대응하여 스스로를 조정하도록 도울 수 있습니다.
MLOps와 AIOps 비교

AIOps (IT 운영을 위한 인공 지능)는 자연어 처리 및 ML 모델과 같은 AI 기능을 사용하여 운영 워크플로를 자동화하고 간소화합니다. 이는 프로덕션 환경 내에서 생성되는 계속 증가하는 데이터 볼륨을 관리하고 IT 운영 팀이 속도 저하 및 중단에 보다 신속하게, 심지어 사전 대응적으로 대응할 수 있도록 돕는 방법입니다.

MLOps가 다양한 애플리케이션에서 사용할 ML 모델을 구축하고 교육하는 데 중점을 둔다면 AIOps는 IT 운영 최적화에 중점을 둡니다.

관련 솔루션
IBM® Turbonomic

중요한 작업을 사람의 개입 없이 실시간으로 지속적으로 자동화하여 스택의 모든 계층에서 앱에 대해 컴퓨팅, 스토리지 및 네트워크 리소스를 가장 효율적으로 사용하도록 합니다.

IBM Turbonomic 살펴보기
IBM® Instana Observability

애플리케이션 성능 모니터링을 개선하여 인시던트를 더 빠르게 해결하는 데 필요한 컨텍스트를 제공합니다.

AI 기반 자동화 살펴보기
IBM AIOps Insights

AIOps Insights는 이벤트 및 인시던트 관리를 통해 엔터프라이즈 IT 리소스 가용성 관리 시 중앙 IT 운영 팀이 직면하는 문제를 확인하고 해결하기 위한 조기 제품 경험을 제공합니다. ITOps 리더는 베타에 가입하도록 초대되어 AIOps Insights에 대한 독점 액세스 권한을 얻습니다.

AIOps Insights 조기 제품 경험 살펴보기
AIOps for IBM zSystems

메인프레임에서 인공지능으로 시스템 관리, IT 운영, 애플리케이션 성능 및 운영 복원력을 개선합니다.

AIOps for IBM zSystems 살펴보기
다음 단계

IBM AIOps는 조직이 IT 비용을 안전하게 절감하면서 애플리케이션 성능을 보장하도록 지원합니다. 99.99%의 애플리케이션 가용성을 달성하고 서비스에 영향을 미치는 문제에 대해 MTTD를 55% 줄일 수 있습니다. 지금 바로 IBM AIOps로 탁월한 고객 경험을 제공해 보세요. AIOps로 471%의 ROI를 실현할 수 있는 방법과 퍼블릭 클라우드 소비 지출을 33% 줄일 수 있는 방법에 대해 알아보세요. IBM AIOps와 함께 지능형 IT 자동화를 바탕으로 입증된 툴, 통찰력 및 전문가를 활용하여 비즈니스 및 IT 전반에 걸쳐 영향력이 큰 자동화를 더 잘 식별하고 실행함으로써 더 나은 비즈니스 결과를 얻을 수 있습니다.

IBM AIOps 포트폴리오 살펴보기