데이터 디스커버리란 무엇인가요?

By Alexandra Jonker

데이터 디스커버리 정의

데이터 디스커버리는 여러 출처에서, 종종 서로 분리된 다양한 출처로부터 데이터를 수집하고, 평가하며, 탐색하는 프로세스입니다. 이는 조직이 숨겨져 있거나 사일로화된 데이터를 발견하도록 도와, 가치 있는 정보가 식별이나 분석에서 누락되지 않도록 보장합니다.

데이터 디스커버리 과정에서 데이터 전문가는 조직 전반의 데이터베이스, 애플리케이션, 내부 파일 및 기타 리포지토리에서 원시 데이터를 식별하고 추출합니다. 이들은 데이터의 특성, 형식, 계보, 품질, 그리고 데이터의 잠재적 활용 방안을 검토하는데, 이 과정을 데이터 프로파일링이라고 하며, 성공적인 데이터 수집을 위한 기반을 마련합니다. 데이터 디스커버리 과정에서 도출된 인사이트는 마케팅 전략, 고객 경험, 공급망 운영과 같은 영역에서 비즈니스 의사결정을 지원하고 효율화하는 데 활용됩니다.

탐색적 데이터 분석(EDA)은 데이터 디스커버리를 위한 널리 사용되는 접근 방식입니다. EDA에서는 통계적 방법과 알고리즘을 사용해 데이터 세트를 분석하고 주요 특성을 요약합니다. 이러한 결과는 데이터 과학자가 가치 있는 인사이트를 얻기 위해 데이터 소스를 어떻게 가장 효과적으로 처리해야 하는지를 판단하는 데 도움을 줍니다.

데이터 디스커버리는 조직이 모든 데이터 소스를 식별하고 활용하도록 돕는 것 외에도, 데이터 보안을 강화하고, 데이터 정확성을 개선하며, 특정 데이터 개인정보 보호 규정 준수를 지원합니다. 인공지능(AI)과 머신 러닝(ML) 기법이 결합되면, 조직은 데이터 자산에 대한 가시성과 제어력을 더욱 강화할 수 있습니다.

귀사의 팀은 다음 제로데이를 제때 포착할 수 있을까요?

Think 뉴스레터를 통해 AI, 사이버 보안, 데이터 및 자동화에 대한 선별된 뉴스를 제공하는 보안 리더들과 함께하세요. 받은 편지함으로 직접 제공되는 전문가 튜토리얼과 설명서를 통해 빠르게 배울 수 있습니다. IBM 개인정보 보호정책을 참고하세요.

데이터 디스커버리와 기존 데이터 분석 비교

처음에는 데이터 디스커버리와 데이터 분석이 같은 의미로 보일 수 있습니다. 그러나 이 둘은 서로 다른 데이터 관리 프로세스이며, 함께 사용할 때 가장 효과적으로 작동합니다.

데이터 디스커버리가 가장 먼저 이루어지는 경우가 많습니다. 이는 조직이 사일로화되거나 숨겨진 정보를 포함해 사용 가능한 모든 데이터를 찾고 이해하도록 돕는 탐색 단계입니다. 이 단계에서 분석가는 자신이 정확히 어떤 데이터를 찾고 있는지 명확히 알지 못할 수 있습니다.

데이터를 찾은 이후에야 데이터 분석을 시작할 수 있습니다. 이 과정에는 특정 기법과 쿼리를 사용해 데이터를 해석하고 의미 있는 인사이트를 도출하는 작업이 포함됩니다.

다음과 같은 비유를 생각해볼 수 있습니다. 데이터 디스커버리는 찬장 뒤쪽에 숨겨진 재료까지 포함해 주방에서 재료를 찾는 것과 유사합니다. 데이터 분석은 그렇게 찾아낸 재료를 활용해 영양가 있고 품질 높은 식사를 만드는 과정입니다. 디스커버리가 철저할수록 결과도 더 좋아집니다.

데이터 디스커버리가 왜 중요할까요?

데이터는 현대 비즈니스에서 핵심적인 요소입니다. 기업은 매일 부서, 비즈니스 단위, 지역을 아우르는 확장된 소스 에코시스템으로부터 방대한 양의 정보를 수집합니다. 이 데이터는 다양한 사용자가 처리하며, 서로 다른 데이터 리포지토리와 직원 장치 전반에 분산되어 저장됩니다.

그러나 데이터가 곳곳에 흩어져 있을수록 이를 찾고, 액세스하고, 활용하기는 더욱 어려워집니다. 실제로 기업 데이터의 68%가 활용되지 않는 것으로 추정됩니다. 모든 유형의 데이터를 분석하지 못하면 중요한 인사이트를 놓치고 새로운 기회를 탐색하지 못하게 됩니다. 예를 들어 고객 유지율을 개선할 핵심 정보가 회의 메모나 이메일 스레드에 숨겨져 있는데, 영업팀이 고객 관계 관리(CRM) 시스템의 데이터에만 의존한다면 어떨까요?

보유한 데이터가 무엇이며 어디에 위치하는지 알지 못하면, 개인정보를 규율하는 점점 늘어나는 데이터 개인정보 보호 규정을 준수하지 못하는 등 조직이 위험에 노출될 수 있습니다. 하지만 데이터 디스커버리는 데이터 개인정보 보호와 데이터 보안 모두와 관련된 이슈입니다. 민감한 데이터가 어디에 있는지 모른다면 이를 제대로 보호할 수도 없습니다.

데이터 디스커버리의 이점

데이터 디스커버리는 조직이 사용 가능한 모든 데이터를 탐색하고 활용하도록 도와 다음과 같은 이점을 제공합니다.

의사 결정 강화
데이터 정확성 및 품질 향상
데이터 보안 강화
철저한 규정 준수

의사 결정 강화

데이터 디스커버리는 아직 활용되지 않은 데이터를 발굴함으로써 데이터 탐색을 위한 새로운 경로를 제공합니다. 이해관계자는 숨겨진 패턴과 상관관계, 실행 가능한 인사이트, 새로운 시장 트렌드를 발견할 수 있습니다. 그 결과 기업은 보다 근거 있는 의사결정을 내리고 성과를 최적화하여 운영 효율성을 달성할 수 있습니다.

데이터 정확성 및 품질 향상

조직의 데이터 인벤토리를 전체적으로 조망하면, 데이터 분석가는 데이터 세트 내의 불일치 데이터나 이상치와 같은 데이터 품질 문제를 더 쉽게 식별할 수 있습니다. 더 높은 정확도를 달성하면 데이터 분류 과정에서의 오탐과 미탐을 최소화하는 데 도움이 됩니다.

데이터 보안 강화

데이터 디스커버리는 조직 내의 모든 민감한 데이터(개인 식별 정보(PII), 지적 재산 등)가 식별되고 위치가 파악되도록 지원합니다. 이를 통해 보안 팀은 맞춤형 사이버 보안 조치를 보다 쉽게 적용할 수 있습니다. (자세한 내용은 ‘데이터 보안에서의 데이터 디스커버리’를 참고하세요.)

철저한 규정 준수

모든 데이터의 위치를 파악하면 조직은 데이터 계보를 이해하고, 민감한 정보의 보호, 공유, 액세스와 관련된 구체적인 규칙을 적용할 수 있습니다. 예를 들어 데이터 디스커버리는 데이터가 일반 데이터 보호 규정(GDPR) 또는 California Consumer Privacy Act(CCPA)의 적용 대상에 해당하는지를 조직이 판단하는 데 도움을 줄 수 있습니다.

데이터 보안에서의 데이터 디스커버리

발견되지 않고 관리되지 않는 데이터, 즉 흔히 섀도 데이터라고 불리는 데이터는 특히 민감한 정보를 포함할 경우 심각한 보안 위험을 초래합니다. IBM의 2024 데이터 유출 비용(CODB) 보고서에 따르면, 섀도 데이터가 관련된 데이터 침해는 전체 사고의 3분의 1을 차지하며, 평균 비용은 527만 달러로 보고서에 산정된 평균 침해 비용보다 16% 더 높습니다.

조직의 모든 데이터를 보호하는 핵심은 데이터가 네트워크에 어떻게, 어디로 유입되는지와 어떻게, 어디에 공유되고 저장되는지를 이해하는 것입니다. 따라서 강력한 데이터 디스커버리 프로세스는 데이터 보안과 데이터 보호 모두에서 핵심적인 요소입니다. AI와 ML을 활용해 민감한 데이터를 포함한 파일을 자동으로 식별하도록 시스템을 학습시키면 이러한 노력을 더욱 강화할 수 있습니다.

데이터 디스커버리 관행은 조직의 전체 공격 표면을 줄이는 데에도 도움이 됩니다. 공격 표면이란 해커가 민감한 데이터에 무단으로 액세스하거나 사이버 공격을 감행하는 데 사용할 수 있는 조직의 모든 취약점, 경로, 수단을 의미합니다. 데이터 디스커버리를 통해 사용되지 않거나 중복된 데이터가 제거되고, 가장 필요한 민감한 데이터만 남게 됩니다. 조직은 이후 이러한 핵심 자산을 중심으로 데이터 보안 조치의 우선순위를 정하고 맞춤화할 수 있습니다.

데이터 디스커버리는 어떻게 작동하나요?

데이터 디스커버리는 기술적 프로세스, 툴, 전략의 결합이며, 다음과 같은 단계로 구분할 수 있습니다.

목표 범위 설정
데이터 수집 및 통합
Data preparation
데이터 시각화
데이터 분석

목표 범위 설정

첫 번째 단계는 일반적으로 데이터 디스커버리 프로세스의 목표를 정의하는 작업을 포함합니다. 이러한 목표는 조직의 전반적인 데이터 전략과 일치해야 합니다. 이 단계에서 최고경영진과 비즈니스 단위 리더는 어떤 인사이트를 도출하고자 하는지 함께 결정하며, 이는 데이터 탐색의 방향을 제시합니다.

데이터 수집 및 통합

다음으로 데이터는 데이터베이스 쿼리, 원격 파일 가져오기, 애플리케이션 프로그래밍 인터페이스(API)를 통한 데이터 수집과 같은 추출 방법을 사용해 다양한 소스에서 수집됩니다. 수집된 데이터는 수집, 통합, 변환 과정을 거쳐 통합되고 일관된 형식으로 정리되며, 조직 내 데이터 자산의 상세 인벤토리인 데이터 카탈로그에 저장됩니다.

데이터 준비

데이터가 수집되고 결합된 후에는 오류, 불일치 및 기타 데이터 무결성 문제를 방지하기 위해 다양한 품질 보증 프로세스를 거칩니다. 이러한 준비 과정에는 데이터 검증, 데이터 정제, 표준화 기법이 포함될 수 있습니다.

데이터 시각화

데이터 팀은 준비된 데이터를 기반으로 그래프, 차트, 대시보드, 인포그래픽과 같은 시각적 표현을 생성하여 복잡한 데이터 관계를 사용자 친화적인 인터페이스로 표시할 수 있습니다.

데이터 분석

데이터 시각화 툴은 셀프 서비스 분석을 지원할 수도 있습니다. 이러한 툴을 통해 비기술 사용자도 시각화 자료에 액세스하고 분석할 수 있으며, 데이터 기반 의사결정을 촉진할 수 있습니다. 이 단계에서는 예측 모델링과 기타 고급 기법을 활용해 예측을 생성하는 고급 분석이 적용될 수도 있습니다.

전체 프로세스 전반에 걸쳐 강력한 데이터 거버넌스는 데이터 무결성과 데이터 보안을 보장하는 데 중요한 역할을 합니다. 이는 데이터 수집, 소유권, 저장, 처리 및 사용에 대한 정책, 표준, 절차를 정의하고 구현합니다.

데이터 거버넌스에 대해 자세히 알아보기

AI 및 ML 데이터 디스커버리 툴

데이터 디스커버리에 AI, ML 및 자연어 처리(NLP)를 활용하면 프로세스에 속도와 지능을 모두 더할 수 있습니다. 이러한 기술은 조직이 데이터에 대해 더 높은 가시성과 제어력을 확보하도록 지원합니다. 주요 예시와 활용 사례는 다음과 같습니다.

자동화된 데이터 디스커버리: 이러한 툴은 네트워크 장치와 데이터 스토리지 시스템을 자동으로 스캔하고, 새로운 데이터와 메타데이터를 거의 실시간으로 인덱싱하여 자산을 더 빠르게 식별할 수 있도록 합니다.
자동화된 데이터 분류: 이 기능은 민감도 수준, 데이터 액세스 제어, 규정 준수 규칙과 같은 사전 정의된 규칙을 기반으로 신규 데이터의 태깅을 자동화합니다.
지능형 검색: AI 기반 검색은 NLP를 사용해 사용자 검색 쿼리를 해석하고 의도를 이해한 후 관련 데이터 결과를 제공합니다. AI 어시스턴트는 직관적인 자연어 기반 안내를 제공할 수 있습니다.
비정형 데이터를 위한 NLP: 대규모 언어 모델(LLM)을 포함한 NLP 툴은 문서, 이메일, 채팅 기록과 같은 비정형 데이터 소스에서 구조화된 데이터를 추출할 수 있습니다.

AI, ML, NLP를 데이터 디스커버리 워크플로에 통합하면 인사이트 도출까지의 시간을 단축하고 정확성을 높이며, 규제 준수를 강화하는 데에도 도움이 됩니다. 데이터 규모가 계속 증가함에 따라, AI 기반 데이터 디스커버리는 필수적인 역량이자 경쟁 우위 요소가 될 것입니다.

작성자

Alexandra Jonker

Staff Editor

IBM Think