사이트 안정성 엔지니어링(SRE) 팀과 DevOps 팀이 지쳐가고 있습니다. 방대한 IT 자산, 도구 과부하, 늘 대기해야 하는 직무 특성이 어우러져 '경고 피로'라는 중대한 문제를 야기합니다.
경고 피로는 '알림을 과도하게 많이 받아서 생기는 정신적, 운영적 피로 상태'를 일컫습니다. 이는 DevOps, 보안 운영 센터(SOC), 사이트 안정성 엔지니어링(SRE), 그 밖에 IT 성능과 보안을 담당하는 팀들의 대응력과 효율성을 저하시키는 광범위하고 중대한 문제입니다.
Vectra의 '2023 State of Threat Detection' 보고서(종업원 1,000명 이상인 기업의 IT 보안 분석가 2,000명을 대상으로 한 설문조사 기반)에 따르면 SOC 팀은 하루 평균 알림 4,484건을 처리한다고 합니다. 이 중 67%는 대량의 오탐과 경고 피로로 인해 무시됩니다. 보고서에 따르면, 분석가의 71%는 '위협 탐지 능력에 대한 가시성과 신뢰 부족으로 인해 자신의 조직이 자신도 모르게 침해를 당했을 수도 있다'고 생각했습니다.
Vectra 보고서는 보안에 초점을 맞추고 있지만, 애플리케이션과 인프라 성능 모니터링을 담당하는 팀도 비슷한 과부하에 직면해 있습니다. 예를 들어 한 번 설정을 잘못해서 수백 또는 수천 개의 성능 알림이 오면 IT 팀의 주의가 분산되거나 둔감해지고, 중요한 알림을 놓치거나 실제 문제에 대한 대응이 늦어지는 '알림 폭풍'이 발생할 수 있습니다. 이러한 실제 문제는 많은 비용을 초래할 수 있습니다.
이러한 번아웃의 원인은 무엇일까요? 에이전틱 AI는 확장가능한 솔루션의 일부가 될 수 있을까요?
업계 뉴스레터
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
몇 가지 원인이 있고 압도적인 양의 원격 측정이 그 원인 중 하나로 언급되곤 하지만, 데이터 양에 초점을 맞추면 특히나 핵심적인 문제인 데이터 품질과 맥락이 모호해집니다.
팀원들이 조악하고 맥락이 적절하지 않은 데이터를 처리하고, 수십 개의 다양한 위협 인텔리전스 또는 성능 피드를 제공하다 보면 문제에 직면할 수밖에 없습니다. 이런 환경에서는 오탐 및 중복 경고가 확산되고, 우선 순위가 낮은 노이즈로 인해 실제 위협과 성능 문제에 집중하지 못합니다. 이러한 '허위 경보'는 IT, DevOps, 보안 팀의 업무를 방해할 수 있습니다.
이러한 방대한 원격 측정 스트림을 대규모 언어 모델(LLM)에 공급하는 것도 실행 가능한 솔루션이 아닙니다. 첫째, 컴퓨팅 낭비이고 할루시네이션을 일으키기 십상이기도 합니다.
실용적인 솔루션은 원시 데이터를 합성하고 중앙 집중식 플랫폼 안에서 더 높은 품질의 맥락이 풍부한 데이터를 집계하는 워크플로를 개발하는 것에서 시작됩니다. 이는 전사적 관측 가능성과 로컬 AI 모델 훈련에 사용할 수 있습니다.
기업은 다양한 성능 및 보안 모니터링 솔루션을 사용하곤 합니다. 대기업은 평균 76개의 보안 도구를 사용합니다. 이러한 도구는 팀 또는 제품별로, 또는 특정 IT 환경(예: 온-프레미스 솔루션 대 클라우드 솔루션)에 따라 다를 수 있습니다.
도구 각각은 수십, 수백 개의 애플리케이션, 애플리케이션 프로그래밍 인터페이스(API) 또는 서버를 모니터링하고, 너마다 자체 데이터 파이프라인에 데이터를 공급할 수 있습니다. 이런 사일로 환경에서는 각기 다른 도구들이 하나의 근본 문제에서 발생하는 경고를 여러 건 생성할 수 있습니다. 이렇게 통합이 제대로 이루어지지 않으면 가시성이 제한되어 상관 관계와 근본 원인 분석에 지장이 생깁니다. SRE는 이 알림들을 일일이 확인하느라 시간을 낭비한 다음에야 중복을 파악할 수 있습니다.
데이터 스트림이 종합 모니터링 시스템에 통합되지 않으면 IT 팀은 효율적인 경고 상관 관계, 근본 원인 분석 능력, 수정에 필요한 시스템 전반의 관측 가능성을 갖추지 못합니다.
설상가상으로, 통합이 제대로 되지 않으면 탐지와 해결을 지원하고 경고 양을 줄이기 위해 설정되는 경고 우선순위 지정과 상관관계 워크플로 등 경고 관리 자동화 도구의 효율성이 떨어집니다. 그러면 점들을 손수 연결해야 하는데, 이는 (불가능하지는 않더라도) 힘들고 시간이 많이 걸리는 작업입니다.
Deloitte의 '적응형 방어: 최신 위협에 대한 맞춤형 경고' 보고서에 인용된 설문조사에 따르면 '보안 도구의 가시성 또는 맥락 부족으로 인해 12개월 동안 공격의 47%가 누락되었다'고 합니다.
개별 에이전트들을 반드시 중앙 집중화해야 하는 것은 아니지만, 에이전트의 데이터가 집계되는 중앙 집중식 플랫폼이 있으면 시스템 전체를 쉽게 분석, 저장, 시각화할 수 있습니다.
그렇습니다... 다만 집중된 전략이 필요합니다.
최근 MIT 보고서는 '조직의 95%가 생성형 AI 투자로부터 아무런 수익을 얻지 못하고 있다'는 주장으로 큰 화제를 불러일으켰습니다.
선동적인 통계와 이 보고서가 유인한 수많은 의견은 차치하고, 이 보고서는 많은 AI 프로젝트가 '취약한 워크플로, 맥락별 학습 부족, 일상적인 운영과의 불일치'로 실패한다는 중요한 주제를 강조합니다. IBM의 선임 연구원 Marina Danilevsky가 최근 Mixture of Experts 팟캐스트에서 언급했듯, 가장 성공적인 배포는'집중하고 범위를 지정하며 적절한 불편을 해결'하는 것'입니다.
이 MIT 보고서는, AI를 일종의 만병통치약이나 프로세스에 되는대로 끼워 넣을 수 있는 무언가로 보는 기업은 투자 수익을 볼 가능성이 낮다는 사실을 강화합니다. 특정 문제를 해결하기 위해 워크플로에 AI 도구를 전략적으로 도입하고 시간을 가지면서 강화할 때 성공 확률이 높아집니다.
적응형 머신 러닝, 맥락을 고려한 우선 순위 지정, 설명 가능한 AI, AI 기반 자동화, 실시간 인텔리전스를 통합 전략에 결합할 수 있는 관측 가능성이나 보안 솔루션을 사용하면 팀에서 성능 또는 보안 경보의 상관 관계를 파악하고 우선 순위를 지정해서 해결하는 데 도움이 되는 더 강력한 워크플로를 만들 수 있습니다.
AI 에이전트는 자산 중요도, 성능 보장, 위험 프로필, 과거 추세 같은 요소를 가져와서 정적 규칙과 사전 설정된 임계값에 의존하는 기존 시스템을 개선할 수 있습니다.
예를 들어 인시던트 사후 감지 및 해결 워크플로와 AI 에이전트는 SRE 팀을 어떻게 지원할 수 있을까요?
Kubernetes 클러스터의 노드에서 CPU 사용량이 높다는 알림이 경고 시스템에 전달됩니다. 종래의 시스템에서 SRE는 근본 원인을 식별하기 위해 MELT 데이터(지표, 이벤트, 로그, 추적)과 종속성을 샅샅이 뒤져야 할 것입니다.
이 가상 에이전틱 워크플로에서 에이전트는 관측 가능성 도구의 지식 그래프와 토폴로지 인식 상관관계를 사용하여 알림과 관련된 원격 측정(해당 노드에서 실행 중인 서비스의 로그, 최근 배포, Kubernetes API 서버의 원격 측정 또는 노드나 클러스터로 트래픽을 라우팅하는 로드 밸런서 등)만 가져옵니다. 에이전트는 이 추가 정보를 통해 원시 경고를 강화하고 기업의 성능 데이터와 벤치마크에 대해 학습된 로컬 AI 모델에 맥락이 풍부한 원격 측정을 제공할 수 있습니다.
에이전트는 동일한 클러스터에서 실행되지만 관련 없는 서비스에 대한 로그처럼 관련 없는 정보를 제외합니다. 이 맥락 수집 과정에서 에이전트는 관련 신호를 식별하고, 동일한 근본 원인에서 비롯되었을 수 있는 경고의 연관성을 보여주고, 이 경고들을 하나의 인시던트로 묶어서 조사할 수 있습니다.
모델은 이 정보를 가지고 제안할 수 있습니다. 또한 에이전트는 추가 정보(사용량 급증에 대한 컨테이너 구성 또는 시계열 데이터 확인)를 요청하여 모델의 가설을 확인하고 정교화하여, 맥락을 추가하고 예상되는 근본 원인을 제안할 수 있습니다.
설명 가능한 AI와 에이전트 사용은 AI 도구의 '블랙박스 내부 보기' 내지는 내부 작동 방식에 대한 신뢰 문제를 해결하기 위한 중요한 부분입니다.
설명 가능한 인공 지능(XAI)은 '머신 러닝 알고리즘이 생성한 결과와 아웃풋을 인간 사용자가 이해하고 신뢰할 수 있도록 하는 일련의 프로세스와 방법'입니다.
예상되는 근본 원인 외에도 에이전트는 제안된 근본 원인 예상안에 도달한 방법에 대해, 생각의 연결고리(추론 과정)와 근거를 제시하면서 설명 가능성을 제공할 수 있습니다. 설명 가능성과 이를 뒷받침하는 근거는 다음과 같습니다.
- 무언가가 추천되거나 특정한 방식으로 필터링된 이유를 인간에게 보여주기
- 에이전트의 분석과 제안을 검토하고 신뢰할 수 있는지 판단하는 데 필요한 투명성 제공
에이전트 추천에 대한 SRE 분석과 평가를 모델에 피드백하면 정확도를 더욱 향상시킬 수 있습니다.
해결 방법에는 여러 가지가 있습니다. 팀이 에이전트에 제공할 자율성의 정도를 결정하거나 인시던트 유형, 심각도, 환경, 기타 요인에 따라 이 자율성을 정의할 수 있습니다. 그 단계는 다음과 같습니다.
- 검증: 에이전트는 SRE 및 DevOps 팀이 에이전트가 식별한 근본 원인이 올바른지 검증하는 데 도움이 되는 단계를 생성할 수 있습니다. 이렇게 하면 시스템에 인간의 인풋을 유지하는 데 도움이 됩니다.
- 런북: 유효성이 검증되고 나면 에이전트가 단계별 복원 가이드(런북)를 생성할 수 있습니다. 이는 팀원들이 문제 해결에 참고할 수 있는 스크립트입니다.
- 자동화 스크립트: 에이전트는 제안한 작업을 수행하고 워크플로(자동화 스크립트)를 구축할 수도 있습니다. 그러면 이 런북 단계는, 단계에 대한 명령 구문과 매개변수를 포함하는 Ansible 플레이북 스니펫이 될 수 있습니다.
- 문서화: 에이전트는 인시던트 사후 검토와 같은 자동 문서를 생성해서 인시던트 내용, 수행 조치와 그 이유를 요약할 수 있습니다. 에이전트는 작업을 처음 접하는 사람이라도 일이 어떻게 진행되고 있는지 빠르게 파악하기 좋도록 진행 현황 요약본을 생성할 수도 있습니다. 이 문서는 강화 학습에 사용할 수 있습니다.
이 단계는 모두 인시던트 대응을 최적화하고 평균 수리 시간을 줄이는 데 도움이 됩니다. 유사한 가설에 대한 설명 영상을 보려면 여기를 클릭하세요.
AI 프레임워크는 IT 환경 전반에 걸쳐, 실행 가능한 경고에 대한 우선 순위 지정 등 경고 피로의 다양한 측면을 개선하는 데 사용할 수 있습니다.
2023년 발표된 '빠르게 에스컬레이션된 문제: 경고 우선순위 지정을 위한 ML 프레임워크'라는 논문에서 Gelman을 비롯한 저자들은, 경고 수준과 인시던트 수준의 실행 가능성 점수 시스템을 통해 워크플로를 최소한으로 변경하면서 경고 피로를 줄이도록 설계된 머신 러닝 프레임워크를 소개합니다. 실제 데이터를 기반으로 실행된 TEQ 모델은 실행 가능한 인시던트에 대한 반응 시간을 22.9% 단축하고 오탐을 54% 억제했습니다(탐지율 95.1%). 단일 사건 내 경고 수도 14% 감소했습니다.1
'자율 인시던트 대응 강화: LLM 및 사이버 위협 인텔리전스 활용'에서 Tellache를 비롯한 저자들은 검색 증강 생성(RAG) 기반 프레임워크가 사이버 위협 인텔리전스 소스의 데이터를 통합하여 인시던트 해결을 개선하는 방법을 보여줍니다.2 RAG 접근 방식을 기반으로 하면서 에이전트를 사용하는 유사한 솔루션을 사용하면 성능 데이터에 맥락을 더 많이 추가할 수 있습니다. 예를 들면 엔터프라이즈 SLA (서비스 수준 계약)에서 합의된 성능 임계값을 가져와서, 우선 순위를 지정해야 하는 애플리케이션 경고를 결정하는 데 참고할 수 있습니다.
IT 팀은 여러 에이전트를 사용하여 경고 프로세스를 개선할 수 있습니다. 에이전트 각각은 경고 피로의 다양한 측면을 해결하도록 설계된 경고 프로세스를 개선하며, 즉각적인 주의를 위해 중요한 위협을 추출하는 인시던트 심사 에이전트 또는 우선 순위가 지정된 경고를 처리하고, 문서와 분석과 함께 적절한 팀으로 라우팅하는 라우팅 에이전트와 같이 경고 피로의 다른 측면을 해결하도록 설계되었습니다.
기업은 데이터를 중앙 집중식 허브로 라우팅함으로써 사각 지대를 없애고 에이전트가 운영 환경을 보다 포괄적으로 이해하도록 지원할 수 있습니다. AI는 신뢰할 수 있는 고품질 데이터로 작업할 때 가장 효과적이며, 중앙 집중식 플랫폼은 데이터 거버넌스 표준의 균일한 애플리케이션을 보장하는 데 도움이 될 수 있습니다. 조직이 AI 솔루션을 확장함에 따라 이 플랫폼은 사업부 전반의 데이터 관리 및 에이전트 배포의 일관성을 유지하는 데 중요한 역할을 합니다.
조직이 단순히 'AI를 사용'하면 경고의 홍수에 대처할 수 있을까요? 아닙니다. 잘 훈련된 모델과 에이전트가 원격 분석을 합성 및 분석하고 경고를 분류하면 IT 팀에 숨 돌릴 틈이 생길까요? 이 편이 훨씬 희망적입니다.
AI와 에이전트를 활용해 경고 피로를 완화하는 것은 특정 사용 사례 공략, 전략적 도입, AI의 학습 및 개선 능력과 동적 환경 등의 핵심 요소가 관건입니다. 기업 리더는 무엇이 필요한지 이해하고, 기업 문화를 기꺼이 바꾸고, 시스템을 작동시키는 데 필요한 리소스를 할당하고, 필요에 맞게 도구를 맞춤 공급할 업체를 찾아야 합니다.
1 “That Escalated Quickly: An ML Framework for Alert Prioritization,” Gelman, Taoufiq, Vörös, Berlin, 2023년 2월 15일
2 “Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence,” Tellache, Korba, Mokhtari, Moldovan, Ghamri-Doudane, 2025년 8월 14일