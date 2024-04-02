발행일: 2024년 4월 5일
기고자: Tim Mucci, Mark Scapicchio, Cole Stryker
DataOps는 제공 속도를 높이고, 품질을 유지하며, 협업을 촉진하고, 데이터에서 최대한의 가치를 제공하기 위한 일련의 협업 데이터 관리 관행입니다. DevOps 사례를 모델로 한 DataOps의 목표는 기존에 사일로화된 개발 기능을 자동화하고 민첩하게 만드는 것입니다. DevOps는 소프트웨어 개발 작업을 간소화하는 데 관심이 있는 반면, DataOps는 데이터 관리 및 데이터 분석 프로세스를 자동화하는 데 중점을 둡니다.
DataOps는 자동화 기술을 활용하여 여러 데이터 관리 기능을 간소화합니다. 이러한 기능에는 필요할 때마다 서로 다른 시스템 간에 데이터를 자동으로 전송하고 데이터 내의 불일치와 오류를 식별하고 해결하기 위한 프로세스 자동화가 포함됩니다. DataOps는 반복적이고 수동적인 작업을 자동화하는 것을 우선시하여 데이터 팀이 더 전략적인 작업을 수행할 수 있도록 합니다.
이러한 프로세스를 자동화하면 데이터 세트를 보호하고 분석 목적으로 쉽게 사용할 수 있고 액세스할 수 있으며, 작업이 일관되고 정확하게 수행되어 인적 오류를 최소화할 수 있습니다. 자동화된 파이프라인이 더 많은 양의 데이터를 더욱 효과적으로 처리할 수 있기 때문에, 이러한 간소화된 워크플로우는 필요할 때 데이터 전달이 더 빠르게 이루어지도록 합니다. 또한 DataOps는 데이터 파이프라인이 제대로 작동하고 올바르게 관리되고 있는지 확인하기 위해 지속적으로 테스트하고 모니터링하도록 권장합니다.
수동 데이터 관리 작업은 시간이 많이 걸리고 비즈니스 요구 사항은 항상 진화하고 있습니다. 수집에서 제공에 이르기까지 전체 데이터 관리 프로세스에 대한 간소화된 접근 방식을 통해 조직은 까다로운 다단계 이니셔티브를 처리할 수 있을 만큼 민첩하게 대처할 수 있습니다. 또한 데이터 팀이 데이터 제품을 개발하는 동안 폭발적인 데이터 증가를 관리할 수 있습니다.
DataOps의 핵심 목적은 데이터 생산자(업스트림 사용자)와 데이터 소비자(다운스트림 사용자) 간의 오픈 사일로를 허물어 신뢰할 수 있는 데이터 소스에 대한 액세스를 보호하는 것입니다. 데이터 사일로는 액세스 및 분석을 제한하는 데 효과적이므로 DataOps는 부서 간 데이터를 통합함으로써 고유한 요구 사항에 맞게 관련 데이터에 액세스하고 분석할 수 있는 팀 간의 협업을 촉진합니다. 데이터와 비즈니스 팀 간의 커뮤니케이션과 협업을 강조하는 DataOps는 속도, 안정성, 품질 보증 및 거버넌스를 향상합니다.또한 이어지는 분야 간 협업을 통해 데이터를 더욱 전체적으로 볼 수 있으므로 더 통찰력 있는 분석으로 이어질 수 있습니다.
DataOps 프레임워크 내에서 데이터 과학자, 엔지니어, 분석가, IT 운영 팀, 데이터 관리 팀, 소프트웨어 개발 팀 및 사업부 이해관계자로 구성된 데이터 팀은 서로 협력하여 비즈니스 목표를 정의하고 달성합니다. 따라서 DataOps는 데이터 양과 유형이 증가하고 비즈니스 사용자와 데이터 과학자 사이에 새로운 사용 사례가 등장함에 따라 관리 및 제공이라는 일반적인 문제가 병목 현상이 되는 것을 방지하는 데 도움이 됩니다. DataOps에는 데이터 파이프라인 오케스트레이션, 데이터 품질 모니터링, 거버넌스, 보안 및 셀프 서비스 데이터 액세스 플랫폼과 같은 프로세스 구현이 포함됩니다.
파이프라인 오케스트레이션 툴은 데이터의 흐름을 관리하고 추출 일정, 데이터 변환 및 로딩 프로세스와 같은 작업을 자동화합니다. 또한 복잡한 워크플로우를 자동화하고 데이터 파이프라인이 원활하게 실행되도록 하여 데이터 팀의 시간과 리소스를 절약합니다.
데이터 품질 모니터링은 데이터 품질에 대한 실시간 사전 식별 기능을 제공하여 분석에 사용되는 데이터의 신뢰성을 보장합니다.
거버넌스 프로세스는 데이터를 보호하고 다양한 규정 및 조직 정책에 부합하도록 합니다. 또한 특정 데이터 자산에 대한 책임자를 정의하고, 데이터에 액세스하거나 수정할 수 있는 권한을 가진 사람을 규제하며, 파이프라인을 통한 데이터 흐름에 따라 출처와 변환을 추적하여 투명성을 높입니다.
거버넌스와 함께 작동하는 보안 프로세스는 무단 액세스, 수정 또는 손실로부터 데이터를 보호합니다. 보안 프로세스에는 데이터 암호화, 데이터 스토리지 또는 파이프라인의 취약점 패치, 보안 침해로부터의 데이터 복구가 포함됩니다.
DataOps 프로세스는 셀프 서비스 데이터 액세스를 추가함으로써 데이터 분석가 및 비즈니스 사용자와 같은 다운스트림 이해관계자가 데이터에 더 쉽게 액세스하고 탐색할 수 있도록 지원합니다. 셀프 서비스 액세스는 데이터 검색을 위한 IT 의존도를 낮추고 데이터 품질 검사를 자동화하여 더 정확한 분석과 인사이트를 제공합니다.
DataOps는 애자일 개발 철학을 활용하여 데이터 관리에서 속도, 유연성 및 협업을 구현합니다. 애자일의 정의 원칙은 피드백과 적응성을 기반으로 하는 반복적인 개발과 지속적인 개선이며, 사용자에게 조기에 자주 가치를 제공하는 것을 목표로 합니다.
DataOps는 애자일 방법론에서 이러한 핵심 원칙을 차용하여 데이터 관리에 적용합니다. 반복적 개발은 작은 단계로 무언가를 만들고, 피드백을 받고, 다음 단계로 넘어가기 전에 조정하는 것을 말합니다. DataOps에서는 더 빠른 개발, 테스트 및 배포를 위해 데이터 파이프라인을 더 작은 단계로 나누는 것을 의미합니다. 이를 통해 데이터 인사이트(고객 행동, 프로세스 비효율성, 제품 개발)를 더 빠르게 제공할 수 있으며 데이터 팀이 변화하는 요구 사항에 적응할 수 있는 공간을 제공합니다.
데이터 파이프라인에 대한 지속적인 모니터링과 피드백을 바탕으로 꾸준한 개선을 실행함으로써 데이터 전달의 효율성을 유지할 수 있습니다. 반복 주기를 통해 새로운 데이터 리소스, 변화하는 사용자 요구 사항 또는 비즈니스 요구 사항을 더 쉽게 해결할 수 있으므로 데이터 관리 프로세스가 적절성을 유지할 수 있습니다. 데이터 변경 사항은 Git과 같은 버전 제어 시스템을 사용하여 문서화되므로 데이터 모델의 수정 사항을 추적하고 롤백을 간소화할 수 있습니다.
협업과 소통은 애자일의 핵심이며 DataOps는 이를 반영합니다. 엔지니어, 분석가, 비즈니스 팀이 협력하여 목표를 정의하고 파이프라인이 신뢰할 수 있고 사용 가능한 데이터의 형태로 비즈니스 가치를 제공할 수 있도록 합니다. 이해관계자, IT 및 데이터 과학자는 지속적인 피드백 루프에서 프로세스에 가치를 더하여 문제를 해결하고 더 나은 제품을 구축하며 신뢰할 수 있는 데이터 인사이트를 제공할 수 있는 기회를 갖게 됩니다.
예를 들어 사용자를 만족시키기 위해 제품을 업데이트하는 것이 목표인 경우, DataOps 팀은 조직 데이터를 검사하여 고객이 찾고 있는 것에 대한 인사이트를 얻고 해당 정보를 활용하여 제품 제공을 개선할 수 있습니다.
DataOps는 처음부터 무언가를 생성하는 대신 커뮤니케이션을 촉진하고, 프로세스를 자동화하고, 데이터를 재사용하여 조직 내에서 민첩성을 촉진합니다. 파이프라인 전반에 DataOps 원칙을 적용하면 데이터 품질이 향상되는 동시에 데이터 팀 구성원이 시간 소모적인 작업에서 벗어날 수 있습니다.
자동화는 테스트를 신속하게 처리하고 데이터 스택의 모든 계층에 걸쳐 엔드투엔드 관측 가능성을 제공할 수 있으므로 문제가 발생하면 데이터 팀에 즉시 경고가 전송됩니다. 이러한 자동화와 관측 가능성의 조합을 통해 데이터 팀은 다운타임 인시던트가 다운스트림 사용자 또는 활동에 영향을 미치기 전에 선제적으로 인시던트를 해결할 수 있습니다.
그 결과, 비즈니스 팀은 더 나은 품질의 데이터를 확보하고, 문제를 줄이며, 조직 전체에서 데이터 기반 의사 결정에 대한 신뢰를 구축할 수 있습니다. 이는 데이터 제품의 개발 주기를 단축하고 데이터 액세스의 민주화를 수용하는 조직적 접근 방식으로 이어집니다.
데이터 사용이 증가함에 따라 해당 데이터 사용 방법에 대한 규제 문제가 발생합니다. 일반 데이터 보호 규정(GDPR) 및 캘리포니아 소비자 개인정보 보호법(CCPA)과 같은 정부 규정으로 인해 기업이 데이터를 처리하는 방법과 수집 및 사용할 수 있는 데이터 유형이 복잡해졌습니다. DataOps와 함께 제공되는 프로세스 투명성은 파이프라인에 대한 직접 액세스를 제공하여 거버넌스 및 보안 문제를 해결하므로 데이터 팀은 누가 데이터를 사용하는지, 데이터가 어디로 가는지, 누가 업스트림 또는 다운스트림 권한을 가지고 있는지 관찰할 수 있습니다.
구현과 관련하여 DataOps는 원시 데이터를 정리하고 이를 사용할 수 있는 기술 인프라를 개발하는 것으로 시작합니다.
일단 조직에서 DataOps 프로세스를 실행하고 나면 협업이 핵심입니다. DataOps는 비즈니스 및 데이터 팀 간의 협업을 강조하여 개방적인 소통을 촉진하고 사일로를 허물고 있습니다. 애자일 소프트웨어 개발에서와 마찬가지로 데이터 프로세스는 더 빠르고 조정 가능한 청크로 분할되어 반복 속도가 빨라집니다. 자동화는 데이터 파이프라인을 간소화하고 인적 오류를 최소화하는 데 사용됩니다.
데이터 기반 문화를 구축하는 것도 중요한 단계입니다. 데이터 활용 능력에 투자하면 사용자가 데이터를 효과적으로 활용할 수 있으며, 데이터 품질을 개선하고 데이터 인프라 업그레이드의 우선 순위를 지정하기 위해 인사이트를 수집하는 지속적인 피드백 루프를 형성할 수 있습니다.
DataOps는 데이터 자체를 제품으로 취급하므로 이해관계자가 KPI를 조정하고 중요한 데이터에 대한 서비스 수준 계약(SLA)을 조기에 개발하는 데 참여하는 것이 중요합니다. 조직 내에서 좋은 데이터로 간주되는 것에 대한 합의를 찾으면 팀이 중요한 것에 집중할 수 있습니다.
자동화 및 셀프 서비스 툴은 사용자의 역량을 강화하고 의사 결정 속도를 향상합니다. 운영 팀이 비즈니스 팀의 임시방편적인 요청을 처리하여 의사 결정 속도를 늦추는 대신, 비즈니스 이해관계자는 항상 필요한 데이터에 액세스할 수 있습니다. 높은 데이터 품질을 우선시함으로써 기업은 조직의 모든 수준에서 신뢰할 수 있는 인사이트를 확보합니다.
다음은 구현과 관련된 몇 가지 모범 사례입니다.
이 라이프사이클은 데이터 품질을 개선하고, 분석 속도를 높이고, 조직 전체의 협업을 촉진하도록 설계되었습니다.
이 단계에는 데이터 품질 및 가용성 메트릭을 정의하기 위한 비즈니스, 제품 및 엔지니어링 간의 협업이 포함됩니다.
여기에서 데이터 엔지니어와 과학자는 애플리케이션을 구동할 데이터 제품과 머신 러닝 모델을 구축합니다.
이 단계에서는 코드 및 데이터 제품을 조직의 기존 기술 스택과 연결하는 데 중점을 둡니다. 자동 실행을 위해 데이터 모델을 워크플로우 자동화 툴과 통합하는 것과 같습니다.
엄격한 테스트를 통해 데이터 정확성이 비즈니스 요구 사항에 부합하는지 확인합니다. 테스트에는 데이터 무결성 및 완전성과 데이터가 비즈니스 규칙을 준수하는지 여부를 확인하는 작업이 포함될 수 있습니다.
데이터는 먼저 검증을 위해 테스트 환경으로 이동됩니다. 검증이 완료되면 데이터를 프로덕션 환경에 배포하여 애플리케이션 및 분석가에게 사용되도록 할 수 있습니다.
툴과 기술을 적절하게 적용하면 DataOps의 성공에 필요한 자동화를 지원할 수 있습니다. 5가지 핵심 영역에 적용된 자동화는 조직 내에서 견고한 DataOps 사례를 구축하는 데 도움이 됩니다. 또한 DataOps는 조직 전체의 데이터를 관리하기 위한 전체적인 프레임워크이기 때문에, 최고의 툴은 DataOps 팀에 더 많은 자유와 인사이트를 제공하는 자동화 및 기타 셀프 서비스 기능을 활용할 것입니다.
툴 구현은 DataOps 도입의 진행 상황을 보여주는 방법이지만, 프로세스를 성공적으로 구현하려면 전체적인 조직 비전이 필요합니다. 다른 요소에 해를 끼치는 단일 요소에 집중하는 기업은 DataOps 프로세스 구현의 이점을 누리기 어렵습니다. 툴링은 진행 중인 계획, 인력 및 프로세스를 대체하지 않습니다. 이미 강력한 데이터 우선 문화를 지원하고 유지하기 위해 존재합니다.
다음은 자동화를 통해 가장 큰 이점을 얻을 수 있는 영역입니다.
DataOps는 무엇보다도 조직의 데이터 아키텍처에 의존합니다. 데이터를 신뢰할 수 있나요? 데이터를 사용할 수 있나요? 오류를 빠르게 감지할 수 있나요? 데이터 파이프라인을 손상시키지 않고 변경할 수 있나요?
데이터 정리, 변환 및 표준화와 같은 데이터 큐레이션 작업을 자동화하면 분석 파이프라인 전반에 걸쳐 고품질 데이터가 보장되므로 수동 오류가 신속하게 제거되어 데이터 엔지니어가 더 전략적인 작업에 집중할 수 있습니다.
메타데이터 캡처 및 리니지 추적을 자동화하면 데이터의 출처, 변환 방법 및 사용 방법을 명확하게 이해할 수 있습니다. 이러한 투명성은 데이터 거버넌스에 매우 중요하며 사용자가 데이터 인사이트의 신뢰성을 이해하는 데 도움이 됩니다. DataOps 프로세스에서는 데이터에 대한 정보를 관리하는 접근 방식으로 활성 메타데이터를 점점 더 많이 사용합니다. 종종 정적이고 사일로화된 기존 메타데이터와 달리, 활성 메타데이터는 동적이며 데이터 스택 전반에 걸쳐 통합되어 데이터 자산에 대한 더욱 풍부하고 상황에 맞는 뷰를 제공합니다.
데이터 거버넌스와 관련하여 자동화는 파이프라인 내에서 데이터 품질 규칙과 액세스 제어를 적용합니다. 이를 통해 오류 또는 무단 액세스의 위험을 줄여 데이터 보안 및 규정 준수를 개선할 수 있습니다.
다양한 시스템에서 데이터 중복 제거 및 동기화와 같은 작업을 자동화하면 고객 또는 제품과 같은 핵심 비즈니스 엔티티에 대한 단일 정보 소스가 보장되며, 이는 효과적인 데이터 관리의 핵심입니다. 이를 통해 불일치 사항을 제거하고 분석 및 보고를 위한 데이터 신뢰성을 향상할 수 있습니다.
또한 자동화는 비즈니스 사용자에게 데이터 액세스 및 탐색을 위한 셀프 서비스 툴을 제공합니다. 셀프 서비스 상호 작용에 자동화를 적용함으로써 사용자는 IT에 의존하지 않고도 필요한 데이터를 찾고 준비할 수 있으므로 조직 전체에서 데이터 기반 의사 결정을 가속화할 수 있습니다.
강력한 DataOps 플랫폼을 통해 조직은 비효율적인 데이터 생성 및 처리 문제를 해결하고 오류 및 불일치로 인한 데이터 품질 저하 문제를 개선할 수 있습니다. 이러한 플랫폼이 제공하는 핵심 기능은 다음과 같습니다.
데이터 수집: 일반적으로 데이터 라이프사이클의 첫 번째 단계는 데이터 레이크 또는 데이터 웨어하우스로 데이터를 수집하여 파이프라인을 통해 사용 가능한 인사이트로 변환하는 것으로 시작됩니다. 조직에는 대규모로 수집을 처리할 수 있는 유능한 툴이 필요합니다. 조직이 성장함에 따라 데이터 수집을 위한 효율적인 솔루션이 필요합니다.
데이터 오케스트레이션: 조직 내 데이터의 양과 유형은 계속 증가할 것이며, 이러한 증가가 통제할 수 없을 정도의 규모가 되기 전에 관리하는 것이 중요합니다. 리소스는 무한하지 않으므로, 데이터 오케스트레이션은 여러 파이프라인 작업을 단일 엔드투엔드 프로세스로 구성하여 엔지니어가 수동으로 코딩할 필요 없이 데이터가 필요한 시점과 장소에서 플랫폼을 통해 예측 가능하게 이동할 수 있도록 하는 데 중점을 둡니다.
데이터 변환: 데이터 변환은 원시 데이터를 정리, 조작 및 분석을 위해 준비하는 곳입니다. 조직은 복잡한 모델을 더 빠르게 만들고 팀이 확장되고 데이터 볼륨이 증가함에 따라 안정적으로 관리할 수 있는 툴에 투자해야 합니다.
데이터 카탈로그: 데이터 카탈로그는 조직 내의 모든 데이터 자산에 대한 라이브러리와 같습니다. 데이터를 구성하고 설명하며 쉽게 찾고 이해할 수 있도록 합니다. DataOps에서 데이터 카탈로그는 원활한 데이터 운영을 위한 견고한 기반을 구축하는 데 도움이 될 수 있습니다. 데이터 카탈로그는 모든 데이터 요구 사항에 대한 단일 참조 지점 역할을 합니다.
데이터 관측성: 데이터 관측성이 확보되지 않았다면 조직은 적절한 DataOps 방식을 구현하고 있다고 할 수 없습니다. 관측 가능성은 생성되는 데이터 제품의 신뢰성과 정확성을 보호하고 업스트림 및 다운스트림 사용자가 신뢰할 수 있는 데이터를 활용할 수 있도록 합니다.
DataOps는 데이터 관측성의 5가지 핵심 요소를 기반으로 품질을 모니터링하고 가동 중단 시간을 방지합니다. DataOps 팀은 5가지 요소를 모니터링함으로써 데이터 상태를 개괄적으로 파악하고 품질 및 안정성에 영향을 미치는 문제를 사전에 해결할 수 있습니다. 최고의 관측 가능성 툴에는 엔지니어가 라이프사이클의 어느 시점에서든 조직의 데이터 상태를 이해할 수 있도록 자동화된 리니지가 포함되어야 합니다.
IBM watsonx.data를 통해 조직은 오픈 데이터 레이크하우스 아키텍처에 구축된 목적에 맞는 데이터 저장소를 활용하여 분석 및 AI를 확장함으로써 데이터가 어디에 있든 모든 데이터를 사용해 AI 워크로드를 확장할 수 있습니다.
Databand는 데이터 파이프라인 및 웨어하우스를 위한 관측성 소프트웨어로, 메타데이터를 자동으로 수집하여 과거 기준선을 확립하고 이상 징후를 감지하며 경고를 분류하여 데이터 품질 문제를 해결합니다. 지속적인 데이터 관측성을 통해 신뢰할 수 있고 안정적인 데이터를 제공하세요.
IBM Cloud Pak for Data는 데이터 분석, 구성 및 관리를 위한 통합 소프트웨어 구성 요소의 모듈형 세트입니다. 자체 호스팅 또는 IBM Cloud에서 매니지드 서비스로 사용할 수 있습니다.
지금 바로 IBM Databand로 사전 예방적 데이터 관측성을 구현하세요. 데이터 상태 문제가 발생했을 때 사용자보다 한발 앞서 파악할 수 있습니다.