AI 수명 주기란 무엇인가요?

By Dave Bergmann

AI 수명 주기 설명

AI 수명 주기는 AI 시스템을 계획하고, 학습시키고, 배포하고, 유지 관리하는 구조화된 반복적 프로세스입니다. 이는 머신러닝 모델의 학습뿐만 아니라 학습 데이터의 수집 및 준비, 모델 성능을 평가하고 개선하기 위한 시스템, 그리고 학습된 모델을 실제 AI 애플리케이션에 통합하는 과정까지 포함합니다.

AI 수명 주기는 인공지능을 활용하여 특정 문제를 해결하기로 결정하는 초기 단계부터, 학습된 모델을 실제 워크플로에서 적극적으로 사용하는 단계까지 모든 과정을 포함합니다. AI 수명 주기 개념은 머신러닝 운영(MLOps) 및 AI 관리 시스템(AIMS)과 밀접하게 연결되어 있으며, 두 분야 모두 AI 개발, 거버넌스 및 유지 관리를 위한 체계적인 접근 방식을 포함합니다.

AI 개발 수명 주기의 핵심은 AI 솔루션이 고립된 상태에서 설계되거나 배포되는 것이 아니라, 지속적인 효과가 신중한 계획과 철저한 모니터링에 달려 있는 동적인 시스템이라는 점입니다. AI 개발 및 구현 과정의 각 단계 사이에는 중요한 의존성이 존재하며, 이러한 의존성을 이해하는 것은 성공적이고 확장 가능하며 지속 가능한 AI 기반 솔루션을 구축하는 데 필수적입니다.

이 문서에서는 AI 수명 주기의 각 핵심 단계를 자세히 설명합니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

문제 정의

AI 수명 주기 관리의 첫 번째이자 가장 중요한 단계는 계획 단계로, 이 단계에서는 AI 애플리케이션의 사용 사례를 정의합니다. 즉, AI를 활용해 해결하려는 문제와 이를 해결하기 위해 AI가 수행할 수 있는 구체적인 작업을 식별합니다. 이후의 모든 의사결정은 계획 단계에서 내린 결정으로 되돌아가 참조해야 합니다.

모든 가능한 상황을 고려하고 철저하게 검토하는 것이 중요합니다. 일부 고려 사항을 건너뛴다고 해서 작업이 줄어드는 것이 아니라, 오히려 작업을 지연시키고 더 복잡하게 만들 뿐입니다. 모든 관련 이해관계자는 계획 단계에 참여하고 협의되어야 하며, 이를 통해 각자의 전문성과 관점을 반영하고 향후 진행 방식에 대한 합의를 확보할 수 있습니다.

AI 프로젝트의 범위를 정의하세요. AI 솔루션이 문제의 어떤 부분을 수행하거나 지원하게 될까요? 어떤 부분은 범위에서 제외될까요?

요구 사항을 정의하세요. AI를 적용하려는 문제 영역에서 구체적으로 어떤 작업을 수행하기를 원하나요? 기존 AI 역량이나 프로젝트에 투입 가능한 리소스를 기준으로 무엇이 가능한지와 불가능한지를 이해하는 것이 중요합니다.

성공 기준을 정의하세요. 정성적, 특히 정량적으로 어떤 결과가 성공으로 간주될까요? 초기에 성공 지표를 설정하면 설계 의사결정을 이끌고 AI 시스템의 개발 및 최적화를 관리하는 데 도움이 됩니다.

위험을 평가하세요. 현재까지 정의된 범위를 기준으로 AI 솔루션이 조직이나 사용자에게 부정적인 영향을 미칠 수 있는 요소를 식별하세요. 윤리적 위험, 평판 위험, 재무적 위험은 데이터 수집 단계로 넘어가기 전에 반드시 식별하고 대응해야 하며, 특히 데이터 관리 미흡이 이러한 위험의 주요 원인이 되는 경우가 많다는 점을 고려해야 합니다.

데이터 수집 및 데이터 준비

기술적 측면에서 학습 데이터의 품질과 양은 AI 모델 성능을 좌우하는 가장 중요한 요소입니다.

데이터 수집

모든 머신러닝은 적용된 패턴 인식에 기반한다는 점을 고려해야 합니다. 학습된 머신러닝 모델은 학습 데이터에서 “학습한” 패턴을 활용하여 주어진 입력에 대해 최적의 출력을 추론합니다. 충분한 데이터 품질은 모델이 학습한 패턴이 실제 애플리케이션에서 추론을 수행할 새로운 데이터의 패턴과 일치하도록 보장하는 데 필요합니다. 충분한 데이터 양은 모델이 필요한 모든 패턴을 학습하도록 하고 과적합을 방지하는 데 필요합니다.

Hugging Face나 Kaggle과 같은 플랫폼에서 제공되는 오픈 소스 데이터 세트, 웹 스크래핑, 조직의 자체 보유 데이터 등 활용 가능한 관련 데이터 소스를 평가하세요. 고품질 데이터가 지나치게 부족하거나 비용이 많이 드는 경우, 합성 데이터가 이를 보완할 수 있습니다. 때로는 이러한 공백을 보완할 수 있습니다.

데이터 준비

원시 데이터는 그대로 머신러닝에 사용할 수 있는 경우가 드물며, 일반적으로 모델 학습 파이프라인에 사용하기 전에 일정 수준의 전처리가 필요합니다. 특징 공학은 이 과정에서 중요한 부분을 차지합니다.

지도 학습에는 데이터 라벨링이 필요하며, 이는 종종 일정 수준의 시간이 많이 소요되는 수작업 개입을 필요로 합니다(다만 자동화를 통해 이 과정을 효율화할 수 있습니다). 일부 전문적인 데이터 영역에서는 라벨링에 전문가의 개입이 필요합니다. 사전 라벨링된 데이터 세트라 하더라도 해당 라벨이 특정 사용 사례에 대해 정확하고 적절한지 검증해야 합니다.

서로 다른 데이터 소스에서 수집된 데이터는 단위와 형식 측면에서 정규화되고 일관되게 맞춰져야 합니다. 예를 들어 섭씨와 화씨가 혼합된 기상 데이터로 모델을 학습하면 필연적으로 실패로 이어집니다.

데이터 거버넌스

데이터는 모델 학습 이후 단순히 폐기되어서는 안 됩니다. 향후 시스템을 감사하거나 성능 문제를 분석하고, 모델을 재현하거나 GDPR 또는 유사한 규제 요구 사항을 준수해야 할 경우를 대비해 데이터를 저장하고 유지 관리해야 합니다.

적절한 데이터 거버넌스는 특히 민감한 정보를 포함하는 데이터가 활용되는 산업과 사용 사례에서 AI 설명 가능성, 데이터 프라이버시 및 규제 준수의 핵심 요소입니다. 또한 특히 AI 워크플로에서 지속적으로 업데이트되는 자체 데이터를 사용하는 경우, 확장 가능한 데이터 수집을 간소화하기 위한 데이터 파이프라인 구축에도 필수적인 요소입니다.

모델 선택

다음 단계는 모델 선택으로, 사용 사례, 학습 데이터, 컴퓨팅 리소스에 가장 적합한 모델 아키텍처를 선택하는 것입니다. 머신러닝 알고리즘은 작고 단순한 회귀 모델부터 최첨단 대규모 신경망까지 매우 다양한 범위에 걸쳐 존재합니다. 가장 크고 복잡한 모델이 항상 최선의 선택은 아닙니다. 대규모 딥러닝 모델이 과도한 경우도 있으며, 전통적인 머신러닝 모델이 딥러닝 모델보다 더 나은 성능을 보이는 작업도 존재합니다.

생성형 AI의 경우 LLM 및 기타 생성형 모델을 처음부터 학습하는 데는 시간, 데이터, 하드웨어, 에너지 측면에서 막대한 투자가 필요합니다. 대부분의 경우 맞춤형 생성형 모델에 대한 요구는 사전 학습된 모델을 파인튜닝하는 방식으로 더 효과적으로 충족됩니다. 그러나 사전 구축된 모델 내에서도 모델 크기, 아키텍처, 기능 측면에서 매우 다양한 선택지가 존재합니다.

벤치마크 평가는 어떤 모델이 어떤 작업에 적합한지를 판단하는 데 유용한 지표이지만 절대적인 기준으로 받아들여서는 안 됩니다. 문제가 명확하게 정의되어 있다면 모델이 수행해야 할 특정 작업의 성능을 직접 반영하는 맞춤형 벤치마크를 개발할 가능성을 검토하는 것이 바람직합니다. 이는 이후 모델 평가 단계에서도 유용하게 활용될 수 있습니다.

모델 학습

생성형 AI를 제외하면 대부분의 AI 솔루션은 자체 모델 학습을 포함합니다. 모델 학습 설명 문서에서는 다양한 머신러닝 유형부터 손실 함수(또는 강화 학습에서는 보상 함수) 선택, 모델 파라미터(및 하이퍼파라미터) 최적화까지 모델 개발 과정에 대한 자세한 정보를 제공합니다. 이상적인 아키텍처와 학습 방식을 도출하기 위해서는 일정 수준의 실험이 일반적으로 필요합니다.

궁극적으로 모델 학습의 목표는 학습 데이터 세트의 예제에 대한 모델 성능이 허용 가능한 정확도 수준에 도달할 때까지 모델 파라미터를 조정하는 것입니다.

모델 학습은 반복적인 과정이며 항상 일정하고 선형적으로 진행되지는 않습니다. 학습 과정 전반에 걸쳐 모델 가중치의 “체크포인트”를 주기적으로 저장하는 것이 중요합니다. 이러한 버전 관리가 없으면 단 한 번의 모델 업데이트로도 치명적인 문제가 발생해 처음부터 다시 시작해야 할 수 있습니다. 버전 관리는 디버깅, 재현성 확보, 팀 간 협업을 위해서도 필수적인 요소입니다.

모델 평가

학습 데이터에 대한 모델 성능을 최적화하는 것 자체가 모델 학습의 궁극적인 목표는 아닙니다. 모델 학습의 진정한 목표는 아직 보지 못한 새로운 데이터에도 잘 일반화되는 모델을 개발하는 것입니다. 과적합을 방지하기 위해 주의해야 하며, 이는 “시험 대비 학습”에 해당하는 머신러닝상의 개념으로, 실제 “지식”이라기보다는 암기에 더 가깝습니다.

학습 이후 평가는 모델이 보지 못한 데이터에도 잘 일반화되는지를 확인하기 위해 필수적입니다. 이 검증 과정에서는 실제 작업과 유사한 새로운 입력으로 구성된 별도의 데이터 세트를 사용해 모델 출력의 품질을 평가합니다. 검증 단계에서는 학습 중 정확도를 측정하는 손실 함수보다 훨씬 다양한 성능 지표를 활용할 수 있습니다.

모델 평가와 모델 학습은 일반적으로 하나의 반복 사이클을 구성하는 두 단계입니다.

먼저 손실 또는 보상이 일정 수준에 도달할 때까지 모델을 학습합니다.

그 다음 새로운 작업 세트를 대상으로 모델 성능을 검증하며, 이때는 서로 다른 성능 지표를 사용하는 경우가 많습니다.

모델 평가 결과가 만족스럽지 않으면, 검증 단계에서 발견된 문제를 해결하기 위한 전략적 조정을 거쳐 추가 학습이 진행됩니다.

AI 아카데미

AI 전문가 되기

비즈니스 성장을 주도하는 AI 투자의 우선순위를 정할 수 있는 지식을 확보하세요. 지금 바로 무료 AI 아카데미를 시작하고 조직에서 AI의 미래를 주도하세요.

시리즈 보기

모델 배포

모델이 학습되고 성공적으로 검증되면 배포 단계로 넘어가며, 이 단계에서는 모델을 실제 운영 환경에서 실행하고 기존 시스템 및 API와 통합합니다. 이상적으로는 모델 평가 단계에서 실제 워크플로를 사용하거나 이를 충분히 근사한 작업을 통해 모델 성능이 검증되어야 합니다.

모델 배포에는 고려해야 할 구성 요소가 많지만, 가장 중요한 결정은 모델이 운영될 배포 환경 유형입니다.

배포 환경

온프레미스 배포: 모델은 일반적으로 AI 가속기를 포함한 물리적 하드웨어에서 실행되며, 이는 조직이 직접 소유하고 관리합니다. 이 방식은 가장 높은 수준의 제어를 제공하지만 초기 투자 비용도 가장 큽니다.

클라우드 배포: 모델은 대규모 데이터 센터에 위치한 타사 클라우드 제공업체의 하드웨어에서 실행됩니다. 클라우드 배포는 일반적으로 확장성을 확보하는 가장 빠른 방법입니다.

엣지 배포: 모델은 센서 또는 사물인터넷(IoT) 장치와 같은 “엣지 장치”로 구성된 분산 로컬 네트워크에 배포됩니다.

온디바이스 배포: 모델은 노트북이나 스마트폰과 같은 최종 사용자 장치에서 직접 실행됩니다.

모델 모니터링

배포된 모델은 고정된 “완성된” 제품으로 간주되어서는 안 됩니다. 적절한 AI 거버넌스는 모델 성능 지표와 사용자 피드백을 지속적으로 모니터링하는 것을 포함합니다.

사전 계획, 테스트, 레드팀 검증을 아무리 철저히 수행하더라도 실제 환경에서는 예상치 못한 문제와 엣지 케이스가 발생하는 것이 거의 불가피합니다. 또한 최적으로 학습된 모델이라도 시간이 지나면서 모델 드리프트와 같은 문제로 인해 성능이 저하될 수 있습니다.

따라서 배포된 모델은 적절한 성능을 유지하고 변화하는 환경에 대응하기 위해 주기적인 재학습이 필요합니다. 다시 한번, 체계적인 버전 관리 체계는 디버깅, 책임성 확보, 핵심 시스템의 안전한 업데이트를 위해 중요합니다.

작성자

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

데이터 리더를 위한 데이터 사이언스 및 MLOps

MLOps 및 신뢰할 수 있는 AI의 3가지 주요 목표인 데이터에 대한 신뢰, 모델에 대한 신뢰, 프로세스에 대한 신뢰에 대해 다른 리더들과 의견을 부합해 보세요.