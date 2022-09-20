오늘날 조직들은 인간의 의사 결정을 지원하기 위해 인공 지능(AI)과 머신 러닝(ML)에 점점 더 많이 의존하고 있습니다. 이는 선도적인 조직이 고객과의 상호 작용을 개선하고, 상품과 서비스를 더 빠르게 시장에 출시하는 방식이기도 합니다. 그러나 이러한 조직들이 AI/ML 모델을 핵심 비즈니스 프로세스에서 운영하고 사용하기 전에 먼저 해당 모델을 신뢰할 수 있어야 합니다. 신뢰할 수 있는 AI는 이제 산업 전반에서 AI를 성공적으로 도입하기 위한 필수 요건이 되었습니다.
오늘날 AI 모델이 인간의 건강이나 재산, 복지와 관련하여 편향되거나 불공정한 결정을 내린다면, 해당 조직은 부정적인 이유로 언론의 주목을 받을 수 있습니다. 브랜드 평판에 심각한 위험을 미칠 뿐만 아니라, 전 세계 산업 전반에서는 EU AI 법 등 기업이 준수해야 하는 데이터 및 AI 규제가 확대되고 있습니다.
AI 모델과 그 인사이트를 신뢰하기 위해서는, 먼저 사용되는 데이터를 신뢰할 수 있어야 합니다. 적절한 데이터 패브릭 솔루션은 이러한 핵심 요소들을 자연스럽게 지원하며, 신뢰할 수 있는 AI 모델 구축을 도울 것입니다.
다음은 새로운 AI 또는 머신 러닝 모델을 구축하거나 기존 모델을 개선할 때 라이프사이클에서 고려해야 할 세 가지 핵심 단계입니다.
무엇보다도 먼저, 모든 관련 데이터에 접근하고 그로부터 인사이트를 확보해야 합니다.
연구에 따르면 대부분의 조직에서 최대 68%의 데이터가 분석되지 않는 것으로 나타났습니다. 그러나 성공적인 AI를 구현하기 위해서는 관련 이해관계자들이 셀프서비스 방식으로 활용할 수 있는, 고품질의 정확한 데이터에 연결되어야 합니다. 온프레미스, 퍼블릭 클라우드, 프라이빗 클라우드 등 서로 다른 내부 및 외부 소스의 데이터를 통합할 수 있는 능력이 없다면, 필요한 모든 정보를 확보하지 못해 성능이 떨어지는 AI 모델을 갖게 됩니다.
두 번째로, 데이터 자체의 신뢰성을 반드시 검증해야 합니다. 신뢰할 수 있는 데이터 세트는 두 가지 요소를 갖추고 있어야 합니다.
Gartner에 따르면, AI 및 ML 프로젝트의 53%가 프로덕션 이전 단계에 머물러 있습니다. AI 라이프사이클의 모든 단계를 검토함으로써 AI를 실제 운영 환경에 적용할 수 있습니다. 자동화되고 통합된 데이터 사이언스 툴은 AI 모델의 구축, 배포, 모니터링을 지원합니다. 이러한 접근 방식은 모델 라이프사이클의 각 단계에서 투명성과 책임성을 보장하는 데 기여합니다. 하지만 이를 실현하려면 공정성, 견고성, 사실 수집 등에 대한 가드레일도 마련되어야 합니다.
데이터 과학자는 윤리 및 규제 기준을 충족하는 데 필요한 모든 문서를 생성해야 한다는 점을 달갑지 않게 여기는 경우가 많습니다. 바로 이 지점에서 IBM FactSheets와 같은 기술이 도움이 될 수 있습니다. 이 기술은 AI 라이프사이클 전반에서 모델의 메타데이터와 기타 사실을 수집하는 데 필요한 수작업을 줄여줍니다. AI 거버넌스 솔루션을 활용하면, 표준 개방형 Python 라이브러리와 프레임워크를 사용하는 데이터 과학자가 모델 구축 및 학습 과정에서 필요한 정보를 자동으로 수집할 수 있습니다.
마찬가지로, 모델의 테스트 및 검증 단계에서도 관련 정보를 수집할 수 있습니다. 이렇게 수집된 모든 정보는 엔드투엔드 워크플로에 통합되어 팀이 윤리 및 규제 표준을 준수하도록 보장합니다.
대부분의 조직에서는 수많은 데이터 사이언스 툴을 사용하고 있어, 점점 더 엄격해지는 보안, 규정 준수, 거버넌스 규제를 준수하는 것은 물론, 정보를 관리하고 통제하기조차 점점 더 어려워지고 있습니다. 자동화되고 확장 가능한 AI 거버넌스를 활용하면 일관되고 반복 가능한 프로세스를 주도하여 모델의 투명성을 높이고, 추적 가능성과 책임성을 동시에 확보할 수 있습니다. 이를 통해 협업을 강화하고, 모델 예측을 비교하며, 모델 위험을 정량화하고 성능을 최적화할 수 있습니다. 또한 편향을 식별하고 완화하며, 데이터 드리프트와 같은 위험을 줄이며, 모델 재학습의 필요성을 낮출 수 있습니다.
결국 성공적인 AI와 AI 거버넌스의 핵심은 데이터 관리와, 사용자가 적시에 적절한 데이터에 접근할 수 있도록 하는 것입니다. 데이터 패브릭 아키텍처는 데이터 통합의 복잡성을 최소화하고 조직 전반의 데이터 접근을 간소화하여, 셀프서비스 데이터 소비를 용이하게 함으로써 이러한 목표를 달성하는 데 기여합니다.
IBM Cloud Pak for Data를 활용하면 다양한 팀이 모델의 여러 단계에서 상호 작용할 수 있는 정식 워크플로를 구축할 수 있습니다. 이는 단지 데이터 사이언스 팀에 적절한 접근 권한을 부여하는 것에 그치지 않습니다. 모델 위험 관리 팀, IT 운영 팀 및 핵심 사업부의 직원도 적절한 접근 권한을 부여받을 수 있도록 지원합니다.
또한 학습 데이터, 페이로드 데이터, 실측 정보 데이터 등 다양한 데이터 세트와 소스를 다루면서, 각 데이터에 맞는 프라이버시 및 거버넌스 수준을 적용할 수 있습니다. 중요한 것은, 각 데이터 세트와 모델에서 메타데이터를 자동으로 수집하여 중앙 카탈로그에 보관할 수 있다는 점입니다. IBM Cloud Pak for Data는 이러한 과정을 대규모 환경에서도 일관성 있게 수행할 수 있으며, 오픈 소스나 타사 툴로 구축된 모델에도 동일하게 적용할 수 있습니다.
AI의 잠재적 이점은 업계 리더의 전략 트렌드에 반영되어 있습니다. IBM 기업가치연구소(IBV)의 2025년 CEO 연구에 따르면, CEO의 68%는 AI가 핵심 비즈니스의 여러 측면을 변화시키고 있다고 답했으며, 61%는 가장 발전된 생성형 AI를 보유한 기업이 경쟁 우위를 점할 것이라고 말했습니다. 그러나 고객 신뢰를 공고히 하기 위해서는, 특히 AI가 중요한 상황에서 활용되는 시점에 AI 라이프사이클 전반에 걸쳐 적절한 통제 체계를 마련하는 것이 중요합니다.
