Gartner가 만든 용어인 AIOps(artificial intelligence for IT operations)는 운영 워크플로우를 자동화 및 효율화하기 위해 자연어 처리 및 머신 러닝 모델과 같은 인공지능(AI) 기능을 응용하는 것을 말합니다.
구체적으로, AIOps는 다음과 같은 작업을 수행하기 위해 빅데이터, 분석 및 머신 러닝 기능을 사용합니다.
여러 개의 개별 수동 IT 운영 툴을 하나의 지능적이며 자동화된 IT 운영 플랫폼으로 통합함으로써 AIOps를 통해 엔드투엔드 가시성과 컨텍스트를 활용하여 IT 운영 팀은 훨씬 더 빨리, 그리고 심지어 사전 예방적으로, 속도 저하 및 운영 중단에 대응할 수 있습니다.
이 솔루션은 점점 더 다양해지고 동적으로 변화되며 모니터링하기 어려운 IT 환경과 사일로화된 팀 또는 애플리케이션 성능 및 가용성이 거의 또는 전혀 중단되지 않아야 한다는 사용자의 기대 사이에 존재하는 격차를 해소합니다. 대부분의 전문가는 AIOps가 미래의 IT 운영 관리 방식이 될 것이라고 생각합니다. 그리고 기업들이 디지털 혁신 이니셔티브에 더욱 집중함에 따라 이에 대한 수요도 증가하고 있습니다.
조직은 저마다 다른 방식으로 AIOps를 구현합니다. 귀사는 AIOps 여정의 어느 단계에 있는지 평가한 후 먼저 IT 운영 문제를 확인하고 예측하고 신속하게 조치를 취하는 데 도움을 주는 툴을 통합할 수 있습니다. 조직 내 AIOps를 개선하기 위한 툴을 고려할 때 다음과 같은 기능을 갖추고 있는지 확인할 것을 권장합니다.
관측성: 관측성은 고객 경험에 대한 기대치, 서비스 수준 계약(service level agreement, SLA) 및 기타 비즈니스 요구 사항을 충족하기 위해 더 효과적으로 애플리케이션을 모니터링, 문제 해결, 디버깅하려는 목적으로 분산된 애플리케이션과 이 애플리케이션이 실행되는 하드웨어에서 꾸준히 생성되는 성능 데이터를 수집, 집계, 분석하는 소프트웨어 툴 및 관행을 말합니다. 이러한 솔루션은 데이터 집계 및 통합을 통해 애플리케이션, 인프라, 네트워크 전반에 대한 전체적 시각을 제공할 수 있지만 IT 문제를 해결하기 위한 시정 조치를 취하지는 않습니다. 이러한 솔루션은 IT 문제를 해결하기 위한 시정 조치를 취하지 않을지라도 IT 도메인 전반의 다양한 데이터 소스가 제공하는 IT 데이터를 수집 및 집계하여 최종 사용자에게 문제가 있을 수 있음을 알리고 IT 서비스 팀이 필요한 해결책을 실행할 것으로 기대합니다. 이러한 툴이 제공하는 데이터와 시각화 기능은 그 자체로 가치가 있지만 결정을 내리고 기술적 문제에 적절히 대응하려면 IT 조직에 의존해야 합니다. 운영자가 수동으로 운영 시스템을 업데이트하는 방식의 리소스 최적화는 동적 요구 사항이 존재하는 상황에서는 이점을 제공하지 못할 수 있습니다.
예측 분석: AIOps 솔루션은 데이터 분석 및 상관관계 파악을 통해 더 나은 인사이트와 자동화된 조치를 제공할 수 있으므로 IT 팀은 복잡성이 심화되는 IT 환경에 대한 제어력을 유지하고 애플리케이션 성능을 보장할 수 있습니다. 상관관계를 파악하고 문제를 확인할 수 있으면 IT 운영 팀은 큰 진전을 거둘 수 있습니다. 그럴 경우 조직 내에서 발견하지 못했을 수 있는 문제를 찾는 데 소요되는 시간이 줄어듭니다. 조직은 자동 이상 탐지, 알림, 솔루션 권장 사항과 같은 이점을 누립니다. 그리고 이러한 이점 덕분에 전체 다운타임을 단축하고 인시던트 및 티켓의 수를 줄일 수 있습니다. 예측 분석을 활용하여 동적 리소스 최적화를 자동화할 수 있습니다. 그러면 애플리케이션 성능을 보장하면서 수요의 가변성이 높은 경우에도 리소스 비용을 안전하게 낮출 수 있습니다.
사전 예방적 대응: 일부 AIOps 솔루션은 속도 저하 및 운영 중단과 같은 의도하지 않은 이벤트에 사전 예방적으로 대응하여 애플리케이션 성능 및 리소스 관리를 실시간으로 함께 지원합니다. 이러한 솔루션은 애플리케이션 성능 지표를 예측 알고리즘에 공급하여 다양한 IT 문제와 동시에 발생하는 패턴 및 트렌드를 찾아낼 수 있습니다. IT 문제가 발생하기 전에 이를 예측하는 기능으로 AIOps 툴은 자동화된 관련 프로세스를 실행하여 대응하고 문제를 신속하게 교정할 수 있습니다. 조직은 평균 탐지 시간(mean time to detection, MTTD) 단축과 같은 지능적 자동화의 이점을 누릴 수 있을 것입니다.
이러한 유형의 기술은 기업이 직원 경험과 고객 경험을 모두 향상하는 데 도움이 되므로 미래의 IT 운영 관리 방식이 될 것입니다. AIOps 시스템은 시기적절하게 IT 서비스 문제를 해결할 뿐만 아니라 조직적 사일로, 리소스가 부족한 팀 등 인간의 실수로 인한 빈틈을 통해 발생할 수 있는 문제를 해결하여 IT 운영 팀에게 안전망을 제공합니다.
AIOps의 중요한 장점은 IT 운영팀이 여러 IT 운영 툴에서 발생하는 경고를 수동으로 조사할 때보다 더 빠르게 속도 저하 및 운영 중단을 식별, 처리 및 해결할 수 있다는 점입니다. 그 결과 다음과 같은 다양한 이점을 얻을 수 있습니다.
사후 대응 방식에서 사전 예방 방식으로 전환하여 예측 관리 수행: 예측 분석 기능이 내장된 AIOps는 계속적인 학습을 통해 가장 긴급한 알림을 식별하고 우선 순위를 지정하므로 IT 팀은 속도 저하 또는 운영 중단이 발생하기 전에 잠재적 문제를 해결할 수 있습니다. Electrolux는 평균 탐지 시간(MTTD)을 단축하여 IT 문제 해결 시간을 3주에서 1시간으로 단축했으며 수리 작업을 자동화하여 연간 1,000시간 이상을 절약했습니다.
AIOps는 빅데이터, 고급 분석, 머신 러닝 기능을 통합하여 다음과 같은 사용 사례를 지원합니다.
AIOps가 작동하는 방식을 이해하는 가장 쉬운 방법은 각 AIOps를 구성하는 각 기술(빅데이터, 머신 러닝, 자동화)이 프로세스에서 수행하는 역할을 검토하는 것입니다.
AIOps는 빅데이터 플랫폼을 사용하여 사일로화된 IT 운영 데이터, 팀, 툴을 한 곳에서 집계합니다 . 이러한 데이터의 예는 다음과 같습니다.
그런 다음 AIOps는 집중 분석 및 머신 러닝 기능을 적용합니다.
AIOps (IT 운영을 위한 인공 지능)는 자연어 처리 및 ML 모델과 같은 AI 기능을 사용하여 운영 워크플로를 자동화하고 간소화합니다. 이는 프로덕션 환경 내에서 생성되는 계속 증가하는 데이터 볼륨을 관리하고 IT 운영 팀이 속도 저하 및 중단에 보다 신속하게, 심지어 사전 대응적으로 대응할 수 있도록 돕는 방법입니다.
MLOps가 다양한 애플리케이션에서 사용할 ML 모델을 구축하고 교육하는 데 중점을 둔다면 AIOps는 IT 운영 최적화에 중점을 둡니다.
중요한 작업을 사람의 개입 없이 실시간으로 지속적으로 자동화하여 스택의 모든 계층에서 앱에 대해 컴퓨팅, 스토리지 및 네트워크 리소스를 가장 효율적으로 사용하도록 합니다.
애플리케이션 성능 모니터링을 개선하여 인시던트를 더 빠르게 해결하는 데 필요한 컨텍스트를 제공합니다.
AIOps Insights는 이벤트 및 인시던트 관리를 통해 엔터프라이즈 IT 리소스 가용성 관리 시 중앙 IT 운영 팀이 직면하는 문제를 확인하고 해결하기 위한 조기 제품 경험을 제공합니다. ITOps 리더는 베타에 가입하도록 초대되어 AIOps Insights에 대한 독점 액세스 권한을 얻습니다.
메인프레임에서 인공지능으로 시스템 관리, IT 운영, 애플리케이션 성능 및 운영 복원력을 개선합니다.