데이터 카탈로그는 메타데이터와 데이터 관리 도구를 사용하여 데이터 자산을 구성해 데이터 분석가, 데이터 과학자, 데이터 관리자 등의 사용자가 분석이나 비즈니스 사용 사례에 적합한 데이터를 빠르게 찾을 수 있도록 합니다. 많은 데이터 카탈로그가 자연어 검색을 지원해, 사용자는 코드나 SQL 쿼리를 작성하지 않고도 데이터를 찾을 수 있습니다.
데이터 카탈로그는 일반적으로 다음과 같은 다양한 데이터 자산을 포함합니다.
강력한 데이터 카탈로그에는 각 데이터 자산의 메타데이터 수집 및 큐레이션을 위한 메타데이터 관리 기능도 포함되어 있습니다. 이러한 기능을 사용하면 데이터를 더 쉽게 식별, 평가 및 효과적으로 사용할 수 있습니다. 카탈로그는 또한 데이터 거버넌스 도구를 제공하여 데이터 품질, 데이터 무결성 및 데이터 보안에 대한 보호를 지원합니다.
메타데이터는 "데이터에 대한 데이터"입니다. 데이터의 내용 그 자체와는 분리된 데이터에 대한 정보로, 작성자, 생성 날짜 또는 파일 크기 등이 포함됩니다. 메타데이터를 사용하면 데이터를 더 쉽게 검색, 구성 및 사용할 수 있습니다.
메타데이터의 전형적인 예로는 도서관의 카드 카탈로그나 온라인 카탈로그가 있습니다. 이러한 각 카드 또는 목록에는 책에 대한 정보(제목, 저자, 주제, 출판 날짜, 판본, 도서관 내 위치 또는 개요)가 포함되어 있습니다.
이런 정보를 통해 독자는 책을 더 쉽게 찾고 평가할 수 있습니다. 예를 들어, 최근의 책인가요 또는 오래 된 책인가요? 내가 찾고 있는 정보가 포함되어 있나요? 신뢰하는 저자의 작품이거나 좋아하는 작가의 작품인가요? 마찬가지로 메타데이터를 사용하면 데이터 사용자가 조직의 데이터를 더 쉽게 찾고 평가할 수 있습니다.
서로 다른 유형의 메타데이터는 서로 다른 기능을 제공합니다. 데이터 카탈로그는 일반적으로 다음과 같은 여러 클래스의 메타데이터를 다룹니다.
기술 메타데이터는 파일 유형, 인코딩 정보, 스키마 및 스토리지 위치와 같은 데이터의 기술적 세부 정보를 설명합니다. 이는 사용자에게 데이터로 작업하는 방법(예: 분석을 위해 변환이 필요한 경우)을 알려줍니다.
운영 메타데이터는 데이터 자산의 생성 및 사용 상황을 설명합니다. 예를 들어, 여기에는 언제, 어떻게, 누가 액세스, 사용, 업데이트 또는 변경했는지에 대한 정보가 포함됩니다.
관리 메타데이터는 데이터 사용 및 보존 정책을 정의합니다. 이러한 유형의 메타데이터는 데이터 거버넌스에 사용되며 조직이 법률 및 규정 및 내부 정책을 준수하도록 도움을 줄 수 있습니다.
비즈니스 메타데이터는 데이터 자산의 비즈니스 맥락과 조직과의 관련성을 설명합니다. 이 메타데이터는 데이터 전문가와 비즈니스 사용자 모두 쉽게 이해할 수 있습니다.
일반적으로 데이터 카탈로그에는 태그, 연관성, 등급 및 주석으로 메타데이터를 선별하고 보강하는 메타데이터 관리 도구가 있습니다.
현대 조직의 데이터 환경은 점점 더 복잡해지고 있습니다. 자산은 다양한 클라우드 환경 및 온프레미스 시스템을 출처로 분산된 팀, 지역 및 플랫폼에서 발생할 수 있습니다. 데이터 카탈로그는 전문 기술적 지식이나 노력 없이도 모든 사용자가 이 모든 데이터를 쉽게 탐색하고 평가하며 활용할 수 있도록 합니다.
다음 비유를 예로 들어보자면, Digital Library 시스템은 독자가 특정 책을 찾기 위해 서가를 돌아다니는 시간과 노력을 덜어줍니다. 데이터 카탈로그도 유사한 목적으로 사용되어 사용자가 방대하고 정리되지 않은 데이터 세트를 탐색하는 대신 필요한 데이터만 빠르게 찾을 수 있도록 도와줍니다. Digital Library 카탈로그가 독자를 첫 페이지에 더 빨리 이동시키는 것처럼, 데이터 접근이 개선되면 조직 전체의 인사이트 생성 이니셔티브의 효율성이 크게 향상됩니다.
데이터 카탈로그는 데이터 거버넌스, 위험 완화 및 규정 준수에 중요한 역할을 하며, 특히 위반을 방지하는 데 중요합니다. 이 분야에서 활용할 수 있는 기능은 민감한 데이터를 자동으로 분류하는 것부터 데이터 이상 현상이 발견되었을 때 알림을 보내는 것까지 다양합니다
데이터 카탈로그를 통해 데이터 전문가는 IT 팀과 데이터 엔지니어에 의존하거나 규정 준수 및 거버넌스 문제의 위험 없이 독립적으로 데이터에 액세스할 수 있습니다. 이러한 요소는 전 조직에 도움이 되는 민첩하고 자급자족적인 데이터 환경을 조성합니다.
데이터 카탈로그와 데이터 사전은 용도는 다르지만 함께 활용되어 데이터를 더욱 유용하게 만듭니다.
데이터 카탈로그는 조직 내의 모든 데이터 자산에 대한 광범위한 개요와 사용자가 데이터 세트를 검색하고 평가하는 데 도움이 되는 비즈니스 컨텍스트를 제공합니다.
반면, 데이터 사전은 개별 데이터 세트의 구조와 내용을 정의합니다. 여기에는 필드 이름, 데이터 유형, 허용되는 값, 범위 및 형식과 같은 세부 정보가 포함됩니다. 또한 데이터 필드가 다양한 데이터 프로젝트, 파일 및 프로그램에서 표준화되도록 합니다.
데이터 카탈로그는 다음과 같이 조직에서 데이터 디스커버리, 거버넌스 및 사용을 지원하는 다양한 이점을 제공합니다.
데이터 카탈로그는 셀프 서비스 분석을 가능하게 하여 데이터 분석가가 데이터를 더 쉽게 찾고, 액세스하고, 준비하고, 신뢰할 수 있도록 하여 전체 데이터 분석 프로세스를 가속화합니다.
데이터 카탈로그는 사용자와 IT 간에 최적의 분업을 생성함으로써 병목 현상을 줄입니다. 데이터 시민은 독립적으로 데이터에 액세스하고 분석할 수 있으므로 IT 팀은 전략적이고 우선 순위가 높은 작업에 집중할 수 있습니다.
신뢰할 수 있는 중앙 집중식 컨텍스트 데이터가 쉽게 접근 가능하여, 데이터 전문가가 더 빠르게 대응하고 더 나은 정보에 입각한 의사 결정을 내릴 수 있으므로 비즈니스 인텔리전스(BI) 및 빅 데이터 지표를 충족하는 데 도움이 됩니다.
데이터 카탈로그는 거버넌스를 촉진하고 단순화하며 자동화함으로써 분석가가 업계 및 데이터 프라이버시 규정을 준수하면서 사용 권한이 부여된 데이터를 사용하고 있다는 확신을 줍니다.
데이터 카탈로그는 조직의 데이터 소스(예:데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스) 전체에서 대량의 사일로화된 데이터를 통합할 수 있습니다. 이러한 사일로를 허물면 이해 관계자 간의 광범위한 데이터 접근성과 협업이 촉진됩니다.
최신 데이터 카탈로그는 데이터 소비자가 기업 데이터를 책임감 있게 찾고 이해하며 활용할 수 있도록 돕는 다양한 도구와 기능을 제공합니다. 주요 기능은 다음과 같습니다.
데이터 인텔리전스가 지원하는 AI 기반 데이터 카탈로그는 수천 개의 데이터 자산에 걸쳐 실시간으로 기술 메타데이터 보강을 자동화할 수 있습니다.
고급 데이터 분류 기술을 활용하여 AI 데이터 카탈로그는 민감한 데이터를 식별하고 태그를 지정하며, 액세스 제어와 같은 데이터 프라이버시 보호 및 보안 규칙을 적용할 수 있습니다.
