데이터 큐레이션이란 무엇인가요?

두 대의 대형 컴퓨터 모니터 앞에서 노트북으로 타이핑하는 남자

작성자

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

데이터 큐레이션이란 무엇인가요?

데이터 큐레이션은 사람들이 필요에 따라 데이터를 찾고, 접근하고, 사용하고, 재사용할 수 있도록 데이터 세트를 생성하고 관리하는 프로세스입니다. 이는 데이터 자산(가치 있는 데이터 모음)을 중앙 리포지토리에 추가하여 자산 메타데이터를 통합하고, 추가 정보를 통해 보강하며, 데이터 수명 주기 전반에 걸쳐 데이터 품질을 분석하고 개선하는 작업을 포함합니다.
 

오늘날 조직들은 매일 4억 테라바이트 이상의 엄청난 양의 데이터를 생성하고 있습니다. 이러한 데이터는 대부분 매우 유용하지만, 이는 기업이 이를 성공적으로 이해하고 활용할 수 있는 경우에만 그러합니다.

효과적인 데이터 관리의 일환으로 데이터 큐레이션은 기업이 엔터프라이즈 데이터에서 중요한 인사이트를 도출하고 이를 의사 결정에 활용하는 데 도움을 줍니다. 잘 선별된 데이터는 인공 지능(AI) 이니셔티브의 성능을 개선하고 데이터 관리 및 데이터 개인정보 보호 요건에 대한 규제 준수를 보장하는 데에도 매우 중요한 역할을 합니다.

기업 외부에서도 데이터 큐레이션은 연구 및 학술 분야에서 핵심적인 프로세스입니다. 예를 들어, 연구 데이터를 큐레이션하면 개발자, 과학자, 의료 전문가 및 기타 연구자 간의 데이터 공유와 아카이빙을 개선할 수 있습니다.

데이터 큐레이션 프로세스는 수작업으로 수행할 수도 있고, 자동화 툴을 활용하여 대규모로 큐레이션 작업을 실행하도록 설계된 소프트웨어를 통해 수행할 수도 있습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

데이터 큐레이션이 중요한 이유는 무엇인가요?

본질적으로 데이터 큐레이션은 기업이 데이터에서 가치를 발견할 수 있도록 지원합니다. 또한 기하급수적으로 증가하는 데이터 성장 관리, 효과적이고 책임감 있는 인공 지능 이니셔티브 지원, 규제 준수 유지, 데이터 활용 가능성 확보에도 기여합니다.

데이터 볼륨 증가

데이터 양의 기하급수적인 증가는 조직에 그 어느 때보다 비즈니스 관련 데이터를 많이 제공하고 있으며, 일부는 다양한 데이터 원본에서 테라바이트 또는 페타바이트 규모의 데이터 세트를 축적하고 있습니다. 거시적인 관점에서 보면 2024년 한 해에 전 세계적으로 약 149제타바이트의 데이터가 생성되었으며, 이 수치는 2028년까지 두 배 이상 증가할 것으로 예상됩니다.

"빅데이터"라고 알려진 이러한 대규모이고 복잡한 데이터 세트에 대한 품질 보증 및 데이터 검색을 수행하는 일은 쉽지 않습니다. 그러나 이는 매우 중요한 작업으로, 기업 데이터는 점점 더 가치 있는 인사이트의 원천으로 입증되고 있습니다. 데이터에 주석을 달고 구성하여 데이터 기반 의사 결정을 지원하면 모든 산업 분야에서 경쟁력을 높이고 성과를 향상시킬 수 있습니다.

효과적인 인공 지능

데이터 품질과 사용성 문제를 해결하는 일은 특히 기업이 인공 지능 기반 기능을 전략적 우선순위로 채택함에 따라 더욱 시급해졌습니다. AI 시스템은 비즈니스를 혁신하고 생산성을 높일 수 있는 잠재력을 가지고 있지만, 데이터 요구 사항은 상당합니다. 효과적으로 작동하려면 고품질 데이터가 필요합니다. 

저품질 데이터는 인공 지능 모델의 성능 저하를 초래하며, "잘못된 입력이 잘못된 결과를 낳는" 상황으로 이어질 수 있습니다. 누락된 값, 이상치 또는 불일치와 같은 데이터 품질 문제가 포함된 데이터 세트는 분석을 왜곡하고 잘못된 결과를 초래할 수 있습니다.

규정 준수

데이터 큐레이션은 또한 AI 맥락에서 규제 준수를 보장하는 데에도 도움이 됩니다. 민감한 정보를 다루는 의료 및 금융 서비스와 같은 많은 산업에서는 데이터를 수집, 처리, 저장 및 보호하는 방법을 규정하는 변화하는 규제 환경을 관리해야 합니다. 

효과적인 데이터 큐레이션 관행은 데이터가 이러한 규칙에 따라 수집, 저장, 처리 및 라벨링되도록 지원합니다. 예를 들어, EU AI 법은 고위험 AI 시스템이 훈련, 검증 및 테스트 데이터가 특정 품질 기준을 충족하도록 엄격한 데이터 거버넌스 관행을 채택하도록 요구합니다. 예를 들어, 데이터 수집 프로세스에 대한 효과적인 거버넌스는 필수적입니다.

데이터 재사용성

데이터 큐레이션은 또한 고품질 데이터 세트의 재사용 가능성을 보장하는 데에도 중요합니다. 예를 들어, 데이터 큐레이션을 통해 조직은 비즈니스에 맞춤화된 중앙 용어집을 생성하고 유지할 수 있습니다. 이 신뢰할 수 있는 단일 소스를 통해 조직 전체의 사용자가 데이터를 더 잘 이해하고 사용할 수 있습니다. 데이터가 접근 가능하고 보편적으로 활용 가능할 경우, 사용자는 인사이트를 얻기 위해 반복적으로 데이터를 활용하게 됩니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

데이터 큐레이션의 핵심 단계는 무엇인가요?

조직마다 데이터 큐레이션 관행은 다를 수 있지만, 연구자들은 빅데이터 수명 주기 전반에서 데이터 큐레이터, 데이터 엔지니어, 데이터 과학자, 데이터 스튜어드 및 기타 데이터 관리 전문가들이 일반적으로 수행하는 큐레이션 활동을 식별했습니다.1 여기에는 다음이 포함됩니다.

  • 계획 수립
  • 설명
  • 대비
  • 보증
  • 스토리지 및 보존
  • 검색 및 액세스

계획 수립

데이터 수집, 생산 및 수집을 위한 전략과 기준을 설정합니다. 데이터 수집에는 비정형 데이터용 데이터베이스뿐만 아니라 정형 데이터베이스와 애플리케이션 프로그래밍 인터페이스(API) 를 포함한 다양한 소스에서 데이터를 획득하는 작업이 포함됩니다. 데이터 큐레이션의 계획 단계에서는 데이터 무결성과 데이터보안을 보장하는 데 도움이 되는 데이터 거버넌스도 고려할 수 있습니다.

설명

작성자, 생성 날짜 또는 파일 크기와 같은 데이터 포인트 또는 데이터 세트를 설명하는 정보인 메타데이터를 생성, 수집, 보존 및 유지 관리합니다. 성공적인 메타데이터 관리는 데이터를 더 쉽게 찾을 수 있도록 하고, 데이터 리니지 추적을 가능하게 하며, 시스템 상호 운용성을 개선하는 데 도움이 될 수 있습니다.

준비

데이터 준비 방법을 활용합니다. 예를 들어, 데이터 정리는 원시 데이터 세트에서 오류와 불일치를 식별하고 수정하는 프로세스입니다. 데이터 변환은 정제된 원시 데이터를 분석에 사용할 수 있는 형식으로 변환하는 것입니다. 또한 민감한 데이터의 익명화는 데이터 개인정보 보호 및 규정 준수를 보장하는 데 도움이 됩니다.

보증

데이터 품질을 평가 및 검증하고, 데이터 출처를 추적하고, 민감한 데이터를 보호할 수 있도록 지원합니다. 데이터 품질은 정확성, 완전성 및 일관성과 같은 지표를 통해 분류할 수 있습니다. 한편, 데이터 출처를 추적하면 데이터의 신뢰성을 확인하고 데이터 공급자로부터 필요한 사용 권한을 얻었는지 확인할 수 있습니다.

스토리지 및 보존

데이터 처리 장치에서 데이터 레이크데이터 웨어하우스와 같은 데이터 저장소 및 데이터 스토리지 시스템으로 데이터를 전송합니다. 데이터 보존 시 고려사항에는 다양한 유형의 데이터를 저장하고 데이터 보안을 보장하는 내용이 포함될 수 있습니다.

검색 및 액세스

분류 체계를 개발하고, 메타데이터를 표준화하고, 데이터 검색 방법을 확립하여 데이터를 검색 및 액세스할 수 있도록 합니다.

데이터 큐레이션 소프트웨어 솔루션

수작업 프로세스는 데이터 큐레이션을 느리고 번거로우며 비효율적인 작업으로 만들 수 있습니다. 그러나 올바른 데이터 거버넌스 및 데이터 관리 솔루션은 기업이 데이터 큐레이션 워크플로를 자동화하고 데이터 파이프라인을 최적화하는 데 도움이 될 수 있습니다.

주요 솔루션에는 다음과 같은 기능이 포함될 수 있습니다.

관리형 데이터 카탈로그

데이터 카탈로그는 조직의 모든 데이터 자산에 대한 자세한 목록으로, 데이터 전문가가 필요한 데이터를 빠르게 찾을 수 있도록 설계되었습니다. 관리형 데이터 카탈로그는 데이터 분류 및 마스킹 기능을 사용하여 안전한 데이터 처리를 가능하게 합니다.

선별된 용어집

산업별 비즈니스 용어집을 사용하면 데이터 분류, 규정 준수 및 기타 거버넌스 활동을 개선할 수 있습니다.

AI 기반 메타데이터 강화

메타데이터 강화를 위해 대규모 언어 모델(LLM)을 배포하여 대량의 데이터 자산에 더 많은 컨텍스트, 라벨 또는 설명을 한 번에 추가할 수 있습니다.

지능형 검색

지능형 검색은 데이터 접근성을 개선하고 사일로를 제거할 수 있습니다. AI를 기반으로 작동하여 사용자가 형식에 관계없이 기업 내부 또는 외부 어디에서든 정보를 추출할 수 있도록 지원하며, 필요한 데이터를 빠르고 쉽게 찾을 수 있도록 합니다.

데이터 큐레이션 사용 사례

데이터 큐레이션은 다양한 분야와 학문에서 중요한 역할을 합니다. 사용 사례는 다음과 같습니다.

의료 연구의 발전

선별된 데이터는 질병 치료의 발전과 혁신을 촉진하는 데 도움이 될 수 있습니다. 예를 들어, 미국에 본사를 둔 한 의료 클리닉은 만성 신경 질환인 다발성 경화증(MS)에 중점을 둔 데이터 세트를 선별하기 위해 AI 건강 데이터 플랫폼과의 파트너십을 최근 발표했습니다.

이 프로젝트의 목적은 3,000명 이상의 환자로부터 수집한 데이터를 포함하여 질병 아형, 질병 진행 경과 등과 관련된 데이터 기반 인사이트를 개발하는 것입니다.2

AI의 보험 규정 준수 유지

데이터 큐레이션은 조직이 AI를 도입하여 관련 규정 및 요구 사항을 준수하도록 하는 데 도움이 될 수 있습니다.

예를 들어, 보험 업계는 현대화를 위해 AI와 머신 러닝 기술을 광범위하게 도입했습니다. 그러나 업계의 AI 채택을 둘러싼 규제 환경은 복잡하고 역동적입니다. 솔벤시 II 지침과 같은 관련 법률에는 "보험 인수 및 준비금 산정 프로세스에 필요한 관련 데이터의 적정성 및 품질"에 대한 보험사들의 엄격한 정책이 포함되어 있습니다. 또한 이러한 규정은 AI 시스템을 테스트하고 학습시키는 데 사용되는 데이터가 완전하고 정확하며 적절해야 한다고 요구합니다.3

소비자 마케팅 개인화

디지털 및 오프라인 소매업체는 고객 데이터를 세분화하는 프로세스를 통해 고객의 특성, 행동 및 선호도에 따라 그룹으로 조직하여 데이터를 선별하는 경우가 많습니다. 이를 통해 소매업체는 프로모션, 제품 추천 및 기타 개인화된 마케팅 활동을 통해 다양한 고객 그룹을 보다 효과적으로 타기팅할 수 있습니다.

예를 들어, 소매 이메일 마케팅 캠페인에 대한 분석 결과, 세분화된 이메일은 세분화되지 않은 이메일보다 15% 더 자주 읽히는 것으로 나타났습니다.4

관련 솔루션
IBM Knowledge Catalog

지능형 카탈로그 작업과 정책 관리를 통해 AI와 분석에 사용할 데이터를 활성화하세요. IBM Knowledge Catalog는 데이터 디스커버리, 데이터 품질 관리, 데이터 보호를 자동화하기 위한 데이터 카탈로그를 제공하는 데이터 거버넌스 소프트웨어입니다.

Knowledge Catalog 살펴보기
IBM 데이터 인텔리전스 솔루션

원시 데이터를 실행 가능한 인사이트로 신속하게 변환하고 데이터 거버넌스, 품질, 리니지 및 공유를 통합하며, 안정적이고 컨텍스트화된 데이터로 데이터 소비자를 지원할 수 있습니다.

데이터 인텔리전스 솔루션 알아보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 기업 데이터의 가치를 극대화해 비즈니스에 이득이 되는 인사이트 중심의 조직을 구축하세요.

분석 서비스 살펴보기
다음 단계 안내

데이터와 지식 자산 및 그 관계를 클라우드 또는 온프레미스 어디서든 찾고 이해하며, 큐레이션하고 액세스할 수 있습니다. IBM Knowledge Catalog는 데이터 디스커버리, 데이터 품질 관리, 데이터 보호를 자동화하기 위한 데이터 카탈로그를 제공하는 데이터 거버넌스 소프트웨어입니다.

IBM Knowledge Catalog 살펴보기 데이터 인텔리전스 솔루션 살펴보기
각주

Big data curation framework: Curation actions and challenges.” Journal of Information Science. 2022년 11월 11일.

2 “Exclusive: Century Heath, Nira Medical partner to provide AI-curated EHR data.” MobiHealthNews. 2025년 1월 14일.

Consultation Paper: On Opinion on Artificial Intelligence Governance and Risk Management.” European Insurance and Occupational Pensions Authority (EIOPA). 2025년 2월 10일.

4Sophisticated email segmentation boosts open rates, engagement: report.” Retail Dive. 2025년 3월 28일 액세스.