관측 가능성이 생성형 AI에 적응하는 방식

사무실 책상에 앉아 태블릿을 들고 노트북을 보는 남자

작성자

Annie Badman

Staff Writer

IBM Think

관측 가능성은 주로 지표, 이벤트, 로그추적과 같은 원격 측정 데이터를 통해 외부 아웃풋을 분석하여 시스템의 내부 상태를 이해하는 능력입니다(통칭 'MELT 데이터').

관측 가능성은 기존 모니터링 솔루션을 뛰어넘어 소프트웨어 시스템 및 클라우드 컴퓨팅 환경에 대한 중요한 인사이트를 제공하여 IT 팀이 가용성을 보장하고 성능을 최적화하며 이상 징후를 감지할 수 있도록 지원합니다.

대부분의 IT 시스템은 결정론적으로 동작하므로, 근본 원인 분석이 매우 간단합니다. 앱에 오류가 발생하면 관측 가능성 툴은 MELT 데이터를 사용하여 신호의 상관 관계를 파악하고 오류를 정확히 찾아내어 메모리 누수인지, 데이터베이스 연결 오류인지 또는 API 시간 초과인지 판단할 수 있습니다.

하지만 대규모 언어 모델(LLM) 및 기타 생성형 인공 지능(AI) 애플리케이션은 관측 가능성을 복잡하게 만듭니다. 기존 소프트웨어와 달리 LLM은 확률적 아웃풋을 생성하므로, 동일한 인풋이 다른 응답을 생성할 수 있습니다. 이러한 해석 가능성의 부재, 즉 인풋이 아웃풋에 어떤 영향을 미치는지 추적하는 데 어려움이 있는 경우 기존의 관측 가능성 툴에 문제가 발생할 수 있습니다. 결과적으로, 문제 해결, 디버깅 및 성능 모니터링은 생성형 AI 시스템에서 훨씬 더 복잡합니다.

"예를 들어, 관측 가능성은 AI 응답에 개인 식별 정보(PII)가 포함되었는지 감지할 수 있지만, 이러한 일이 발생하는 것을 막을 수는 없습니다."라고 IBM의 Instana 미주 지역 영업 리더인 Drew Flowers는 설명합니다. "모델의 의사 결정 프로세스는 여전히 블랙박스입니다."

"블랙박스" 현상은 LLM 관측 가능성에 있어 중요한 과제를 강조합니다. 관측 가능성 도구는 발생한 문제를 감지할 수 있지만, AI 설명 가능성(모델이 특정 결정을 내리거나 특정 아웃풋을 생성한 이유를 인간이 이해할 수 있는 방식으로 설명하는 능력)에 어려움을 겪기 때문에 문제를 방지할 수는 없습니다.

설명 가능성 문제가 해결될 때까지 AI 관측 가능성 솔루션은 효과적으로 측정하고 분석할 수 있는 항목에 우선순위를 두어야 합니다. 여기에는 기존 MELT 데이터와 AI 전용 관측 가능성 지표의 조합이 포함됩니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

생성형 AI 관측 가능성을 위한 핵심 지표

기존 지표는 모델 동작에 대한 완전한 가시성을 제공하지 않지만 여전히 AI 관측 가능성의 필수 구성 요소입니다. CPU, 메모리 및 네트워크 성능은 AI 시스템의 기능과 사용자 경험에 직접적인 영향을 미칩니다. 이를 통해 조직은 AI 워크로드가 얼마나 효율적으로 실행되고 있는지, 인프라 제약 조건이 모델 성능 및 응답 시간에 영향을 미치는지 평가할 수 있습니다.

하지만 포괄적인 AI 관측 가능성을 위해서는 AI 모델 동작 및 아웃풋과 관련된 품질을 모니터링하는 다음의 추가 지표가 필요합니다.

  • 토큰 사용량
  • 모델 드리프트
  • 응답 품질
  • 책임감 있는 AI 모니터링

토큰 사용량

토큰은 AI 모델이 이해할 수 있는 개별 언어 단위(일반적으로 단어 또는 단어의 일부)입니다. 모델이 입력값을 이해하거나 아웃풋을 생성하기 위해 처리하는 토큰의 수는 LLM 기반 애플리케이션의 비용과 성능에 직접적인 영향을 미칩니다. 토큰 소비량이 많을수록 운영 비용과 응답 지연 시간이 늘어날 수 있습니다.

토큰 사용량을 추적하기 위한 주요 지표는 다음과 같습니다.

  • 토큰 소비율 및 비용 - 운영 비용을 정량화하는 데 도움이 됩니다.

  • 토큰 효율성 - 상호작용에서 각 토큰의 효과성을 측정하는 지표입니다. 효율적인 상호작용은 고품질의 아웃풋을 확보하고 소비되는 토큰 수를 최소화할 수 있습니다.

  • 다양한 프롬프트 유형에 따른 토큰 사용 패턴 - 모델의 리소스 집약적 사용을 식별할 수 있습니다.

이러한 지표는 조직이 토큰 소비를 줄이기 위한 최적화 기회를 식별하는 데 도움이 될 수 있습니다. 예를 들어 프롬프트를 개선하여 더 적은 수의 토큰으로 더 많은 정보를 전달할 수 있습니다. 토큰 활용을 최적화함으로써 조직은 머신 러닝 워크로드에 대한 추론 비용을 잠재적으로 줄이면서 높은 응답 품질을 유지할 수 있습니다.

모델 드리프트 

기존 소프트웨어와 달리 AI 모델은 실제 데이터가 진화함에 따라 동작을 점진적으로 변경할 수 있습니다. 이러한 현상은 모델 드리프트로 알려져 있으며 AI 시스템의 안정성과 성능에 상당한 영향을 미칠 수 있습니다.

모델 드리프트를 추적하기 위한 주요 지표는 다음과 같습니다.

  • 시간 경과에 따른 응답 패턴의 변화 - 새로운 불일치를 식별합니다.

  • 아웃풋 품질이나 관련성의 변화 - 모델 성능 저하를 의미할 수 있습니다.

  • 지연 시간 또는 리소스 사용률의 변화 - 비효율적인 계산을 의미할 수 있습니다.

드리프트 감지 메커니즘은 특정 사용 사례에서 모델의 정확도가 감소할 때 조기 경고를 제공할 수 있으므로, 모델이 비즈니스 운영을 방해하기 전에 팀이 개입할 수 있습니다.

응답 품질

AI 아웃풋 품질 모니터링은 신뢰, 안정성, 규정 준수 유지에 필수적입니다. 응답 품질을 추적하기 위한 주요 지표는 다음과 같습니다.

  • 다양한 유형의 프롬프트에서 할루시네이션의 빈도 - 부정확한 아웃풋에 대한 가능한 트리거를 식별합니다.

  • 생성된 응답의 사실적 정확성 - 종종 외부 검증과 사람의 감독을 필요로 합니다.

  • 시간 경과에 따른 모델의 안정성을 인증하기 위해 유사한 입력에 대한 아웃풋의 일관성을 유지합니다.

  • 사용자 프롬프트에 대한 응답의 관련성을 통해 모델이 사용자 의도에 어떻게 부합하는지 평가합니다.

  • 지연 시간 추적은 속도와 정확성을 위해 절충이 필요한 사용자 대면 AI 애플리케이션에 매우 중요합니다. 다양한 유형의 프롬프트에 대한 응답 시간을 모니터링하면 조직에서 성능 병목 현상과 컴퓨팅 비효율성을 정확히 파악하는 데 도움이 될 수 있습니다.

이러한 지표를 추적하면 비정상적인 응답을 표시하는 데 도움이 될 수 있지만, 관측 가능성 툴은 할루시네이션이 발생하는 이유를 완전히 설명할 수 없으며 AI가 생성한 콘텐츠의 정확성을 자동으로 판단할 수도 없습니다. 이는 AI 신뢰도 및 거버넌스에 대한 핵심 과제로, 아직 누구도 완전히 해결하지 못했습니다.

책임감 있는 AI 모니터링

윤리적 AI 배포 및 규정 준수를 보장하려면 AI가 생성한 콘텐츠에 대한 포괄적인 모니터링이 필요합니다.

책임감 있는 AI를 추적하기 위한 주요 지표는 다음과 같습니다.

  • 응답에서 발생하는 편향 - 사용자 상호작용 전반에 걸쳐 공정성을 보장하는 데 도움이 됩니다.

  • 생성된 콘텐츠의 PII 인스턴스 - 민감한 정보를 보호하는 데 도움이 됩니다.

  • 윤리적 AI 지침 준수 - 업계 표준 및 규정을 준수합니다.

  • 콘텐츠의 적절성 - 브랜드 평판과 사용자 신뢰를 유지합니다.

자동화된 이상 징후 감지 기능을 제공하는 실시간 시각화 대시보드는 AI 아웃풋이 예상 표준에서 벗어날 때 팀에 경고를 표시할 수 있습니다. 이러한 사전 예방적 접근 방식을 도입하면 조직이 문제를 신속하게 해결하고, 시간 경과에 따른 AI 성능을 모니터링하고, 책임감 있는 AI 배포를 보장할 수 있습니다. 

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

OpenTelemetry 및 AI 관측 가능성

OpenTelemetry(OTel)는 원격 측정 데이터를 수집하고 전송하기 위한 업계 표준 프레임워크로 부상했으며, 생성형 AI 관측 가능성에도 도움이 될 수 있습니다. 이 오픈소스 프로젝트는 복잡한 AI 에코시스템에서 매우 귀중한, 공급업체 중립적 관측 가능성 접근 방식을 제공합니다.

AI 제공업체의 경우 OpenTelemetry는 독점 모델 세부 정보나 소스 코드를 노출하지 않고도 성능 데이터 공유 방법을 표준화할 수 있는 수단을 제공합니다. 기업의 경우 여러 모델, 다양한 종속성 및 검색 증강 생성(RAG) 시스템을 포함할 수 있는 복잡한 AI 파이프라인에서 관측 가능성 데이터가 일관되게 흐르도록 보장합니다.

생성형 AI 관측 가능성을 위한 OpenTelemetry의 주요 이점은 다음과 같습니다.

  • 공급업체 독립성: 조직은 특정 관측 가능성 플랫폼에 종속되지 않고 AI 기술의 발전에 따라 유연성을 유지합니다.

  • 엔드투엔드 가시성: 원격 측정 데이터는 AI 애플리케이션 인프라의 모든 구성 요소에서 일관되게 흐릅니다.

  • 미래 대비: AI 기술이 발전함에 따라 OpenTelemetry 표준이 조정되어 관측 가능성 전략이 관련성을 유지할 수 있도록 합니다.

  • 에코시스템 통합: 개방형 표준을 통해 여러 공급업체의 AI 솔루션과 하이브리드 배포 모델 전반에서 관측 가능성이 가능합니다.

  • 메타데이터 표준화: 학습 타임스탬프, 데이터 세트 출처, 모델 입력을 포함한 필수 메타데이터를 캡처하여 AI 시스템 동작을 이해하는 데 중요한 컨텍스트를 제공합니다.
자동화 메시징을 위한 뉴스레터 이미지

IBM Instana Observability의 강력한 기능 활용

IBM Instana Observability를 사용하면 ROI를 219% 달성하고 개발자가 문제 해결에 사용하는 시간을 90% 줄일 수 있습니다.

속도가 생명

AI 애플리케이션에는 모델 라이선스 비용부터 인프라 비용 및 개발자 리소스에 이르기까지 상당한 투자가 필요합니다. 생성형 AI의 관측 가능성을 지연시키는 조직은 성능 문제, 윤리적 문제 또는 비효율적 구현을 발견하지 못할 경우 자원을 낭비하게 될 위험이 있습니다.

"AI 관측 가능성에서는 가치 실현 시간(TTV)이 핵심입니다."라고 Flowers는 말합니다. "인사이트를 빠르게 얻을 수 없다면 시스템 최적화를 기다리는 동안 돈을 낭비하는 셈입니다."

AI 관측 가능성의 도입을 늦추는 몇 가지 일반적인 문제는 다음과 같습니다.

  • 광범위한 설정과 구성이 필요한 복잡한 맞춤형 대시보드.

  • 처리 병목 현상을 일으키는 과도한 데이터 볼륨.

  • 경고 구성 및 보고서 생성을 자동화하는 기능 부재.

  • AI 플랫폼과 관측 가능성 툴 간의 어려운 통합.

  • AI 관련 원격 측정 데이터를 해석할 때의 기술 격차.

이러한 문제를 극복하려면 조직은 관측 가능성 솔루션을 고려해야 합니다.

  • 신속한 배포

  • 자동화된 인사이트

  • 통합 AI 워크플로

신속한 배포

조직은 즉각적인 통찰력을 얻기 위해 신속하게 배포할 수 있는 관측 가능성 솔루션의 우선 순위를 정해야 합니다. 사전 구성된 플랫폼은 설정 시간을 크게 줄이고 TTV를 가속화하여 팀이 몇 주가 아닌 며칠 만에 AI 시스템 모니터링을 시작할 수 있도록 합니다.

신속한 AI 관측 가능성 배포를 위한 주요 관측 가능성 솔루션 기능은 다음과 같습니다.

  • 최소한의 사용자 지정으로 바로 사용할 수 있는 AI 전용 대시보드 템플릿입니다.

  • 일반적인 AI 프레임워크와 플랫폼에서 즉시 데이터 수집을 시작할 수 있는 자동화된 계측.

  • 맞춤형 통합 작업이 필요 없는, 인기 있는 LLM 공급업체 및 AI 인프라를 위한 사전 구축된 커넥터.

  • 일반적인 AI 사용 사례에 대한 검증된 접근 방식으로 팀이 빠르게 시작하고 실행할 수 있도록 도와주는 빠른 시작 구현 가이드입니다.

자동화된 인사이트

방대한 양의 AI 생성 데이터를 수동으로 분석하려면 상당한 시간과 전문 지식이 필요하기 때문에 지연, 실수 또는 문제 누락으로 이어지는 경우가 많습니다. 관측 가능성 솔루션은 이 프로세스를 자동화하여 팀이 원시 원격 분석 데이터를 선별하는 것보다 더 시급한 문제에 집중할 수 있도록 지원합니다.

AI 관측 가능성 솔루션의 주요 자동화 기능은 다음과 같습니다.

  • 수동 임계값 구성 없이도 이상 감지 기능을 사용하여 AI 동작 및 성능의 불규칙성 식별.

  • 문제를 파악하는 데 그치지 않고 시스템 최적화를 위한 실행 가능한 권장 사항 생성.

  • 기술적인 문제를 비즈니스와 관련된 설명으로 변환.

  • 영향력을 기반으로 알림의 우선순위를 지정하여 알림 피로를 방지하고 가동 중단 완화.

통합 AI 워크플로

관측 가능성은 사후에 고려해서는 안 됩니다. AI 개발 라이프사이클 전반에 걸쳐 관측 가능성을 내장하면 조직 전체의 팀이 AI 시스템 성능에 대한 가시성을 공유하여, 문제를 더 빠르게 해결하고 보다 정보에 입각한 의사 결정을 내릴 수 있습니다.

AI 관측 가능성에서 TTV의 핵심은 단순히 관측 툴을 얼마나 빨리 구현할 수 있는가에 관한 것이 아닙니다. 또한 이러한 툴이 얼마나 빠르게 AI 투자를 최적화하고 실행 가능한 인사이트를 제공하여 가동 중단을 방지하는지도 중요합니다.

AI 관측 가능성을 AI 개발 워크플로에 통합하는 주요 방법은 다음과 같습니다.

  • AI 애플리케이션을 위한 CI/CD 파이프라인에 관측 가능성 구축.

  • 사전 프로덕션 중에 관측 가능성 계측 테스트.

  • 개발 단계의 지표를 수집하여 프로덕션 모니터링을 위한 정보를 제공.

모니터링에서 예측까지

AI 관찰성이 향상됨에 따라 조직은 반응적 모니터링에서 사용자나 비즈니스 결과에 영향을 미치기 전에 문제를 예상하는 예측적 접근 방식으로 전환하고 있습니다. 이를 지원하기 위해 가장 발전된 관측 가능성 솔루션은 이제 자체 특수 AI 도구를 통합하여 텔레메트리 데이터 전반의 패턴을 분석하고 문제가 심각해지기 전에 문제를 식별합니다.

"관측 가능성에서 가장 가치 있는 AI는 생성형 AI가 아니라, 예측적 및 인과적 AI입니다."라고 Flowers는 설명합니다.

예측적 및 인과적 AI 기능을 갖춘 관측 가능성 툴은 다음을 수행할 수 있습니다.

  • 모델 드리프트가 문제 수준에 도달하는 시점 예측.

  • AI 사용 패턴을 기반으로 리소스 요구 사항을 예측합니다.

  • 할루시네이션을 일으킬 가능성이 있는 프롬프트 패턴 식별.

  • 미묘한 편향 추세가 심각해지기 전에 감지.

대응적 관측 가능성에서 예측적 관측 가능성으로의 전환은 AI 운영의 다음 단계이며, 이를 통해 AI 애플리케이션과 인프라를 보다 능동적으로 관리하는 동시에 일관된 고품질 아웃풋을 보장할 수 있습니다.

적합한 생성형 AI 관측 가능성 솔루션 찾기

논의된 과제와 솔루션을 바탕으로 생성형 AI 애플리케이션에 적합한 관측 가능성 솔루션을 찾을 때 염두에 두어야 할 5가지 필수 원칙은 다음과 같습니다.

고유한 한계 인정 

AI 관측 가능성은 성능 패턴과 이상 징후에 대한 중요한 인사이트를 제공하지만, 대규모 언어 모델의 내부 의사 결정 프로세스를 완전히 설명할 수는 없습니다. 시스템 상황 및 성능을 나타내는 측정 가능 지표에 집중하세요.

기존 지표 뛰어넘기

포괄적인 생성형 AI 관측 가능성을 위해서는 CPU 사용률, 메모리 소비와 같은 기존 인프라 성능 지표와 함께 토큰 사용 패턴, 모델 드리프트 지표, 프롬프트-응답 관계를 모니터링해야 합니다. 

가치 실현 시간에 집중

사전 구성된 대시보드와 자동화된 경고를 통해 신속한 배포 기능을 제공하는 관측 가능성 플랫폼을 선택하여, AI 투자 수익을 더 빠르게 실현하고 비용이 많이 드는 운영 문제를 방지하세요.

소프트웨어 개발에 관측 가능성 통합

소프트웨어 개발 라이프사이클 초기에 관측 가능성 계측을 통합하여 배포 전에 문제를 식별하고, 성능 기준을 설정하고, AI 시스템 품질을 개선하는 피드백 루프를 생성하세요.

OpenTelemetry 도입

개방형 관측 가능성 프레임워크를 표준화하면 복잡한 AI 시스템 전반에 걸쳐 포괄적인 엔드투엔드 가시성을 제공하고 공급업체 종속을 방지하는 동시에 미래 지향적인 관측 가능성 전략을 수립할 수 있습니다.

또한 OpenTelemetry를 수용한다고 해서 반드시 오픈 소스 관측 가능성 솔루션을 선택해야 하는 것은 아니라는 점을 기억하세요. 조직에서 이미 사용하고 있을 수 있는 많은 상용 플랫폼은 OTel을 완벽하게 지원하는 동시에 추가적인 엔터프라이즈급 기능을 제공합니다.

상용 관측 가능성 솔루션은 AI 기반 인사이트와 지속적인 지원을 통해 완벽하게 관리되는 관측 가능성을 제공하여 수동 설정 및 유지 관리를 최소화하고 TTV를 개선할 수 있습니다.

“대시보드를 만들고, 알림을 만들고, 컨텍스트와 데이터를 구축하는 것은 말 그대로 도구 구축에만 집중하는 것입니다. 시스템을 최적화하는 것이 아닙니다. 고객 이니셔티브를 지원하는 것도 아닙니다.” 라고 Flowers는 말합니다. “제가 하는 일은 근본적으로 돈을 버는 데 도움이 되지 않아요.”

상용 관측 가능성 솔루션을 사용하면 이러한 설정의 대부분을 자동화하거나 사전 구성할 수 있습니다. 대신 팀은 생성 AI 모델의 성능과 안정성을 최적화하는 데 집중하여 관측 가능성 투자와 AI 애플리케이션의 실제 영향력을 모두 극대화할 수 있습니다. 

관련 솔루션
IBM Instana Observability

AI와 자동화를 활용하여 애플리케이션 스택 전반의 문제를 선제적으로 해결하세요.

IBM Instana Observability 살펴보기
IBM 관측 가능성 솔루션

AI 기반 관측 가능성을 통해 운영 복원력을 극대화하고 클라우드 네이티브 애플리케이션의 상황을 안정적으로 유지하세요.

IBM 관측 가능성 솔루션 살펴보기
IBM Consulting AIOps

생성형 AI로 IT 자동화 및 운영을 강화하여 IT 인프라의 모든 영역을 비즈니스 우선순위에 맞게 조정하세요.

IBM Consulting AIOps 살펴보기
다음 단계 안내

IT 운영을 위한 AI가 탁월한 비즈니스 성과를 이끌어내는 데 필요한 인사이트를 어떻게 제공하는지 알아보세요.

AIOps 솔루션 살펴보기 라이브 데모 예약하기