데이터 강화란 무엇인가요?

작성자

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

데이터 강화란 무엇인가요?

데이터 강화는 내부 또는 외부 소스의 추가 정보를 데이터 세트에 보완하여 데이터 품질과 활용성을 향상시키는 기술입니다.

조직은 그 어느 때보다 많은 데이터를 수집하고 있지만, 이러한 데이터에는 컨텍스트나 의미가 부족한 경우가 많습니다. 데이터 강화는 원시 데이터 또는 정형 데이터 세트 형태와 관계없이 기존 데이터 포인트에 대한 이해를 높이고 이러한 공백을 메우는 데 도움을 줍니다. 이와 같은 방식으로 데이터를 보강하면 이해하기 어려운 데이터 세트를 유의미한 인사이트로 전환할 수 있으며, 조직이 더 정보에 기반한 의사결정을 내릴 수 있도록 지원합니다.

데이터 강화 방식은 종종 기업의 데이터 관리 및 마스터 데이터 관리 프로그램의 일부로 활용됩니다. 조직은 비즈니스 요구 사항과 데이터 소스에 따라 인구통계, 기업 정보 및 지리 정보 강화와 같은 다양한 유형의 데이터 강화를 수행합니다. 데이터 팀이 수동으로 데이터 강화를 수행할 수도 있지만, 인공지능(AI) 및 자동화는 데이터 강화 프로세스 최적화에 도움을 줍니다.

데이터 강화의 일반적인 활용 사례는 마케팅 전략 분야에서 많이 나타나지만, 데이터 강화 프로세스는 사이버 보안, 헬스케어 및 도시 계획과 같은 분야에서도 중요한 역할을 할 수 있습니다. 데이터 강화는 머신 러닝 모델 성능 향상에도 점점 더 중요한 역할을 하고 있으며, 보다 정확한 예측을 위해 컨텍스트와 더욱 완전한 데이터를 제공합니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

데이터 강화가 중요한 이유는 무엇인가요?

부분적으로만 채색된 캔버스를 떠올려 보세요. 아래쪽 절반은 바다를 표현한 파란 붓 터치로 덮여 있고, 가운데에는 호기심을 자아내는 황금빛 조각 몇 개가 떠 있습니다. 하지만 그림이 완성되면, 그 조각들이 빛의 반사라는 사실이 분명해집니다. 완성된 그림은 물 위로 해가 지는 장면을 묘사하고 있습니다.

완성되지 않은 캔버스 자체도 하나의 예술 작품일 수 있지만, 동시에 더 큰 가능성을 지니고 있습니다. 데이터 강화를 통해 개선된 데이터 세트도 마찬가지입니다.

예를 들어 이름과 전화번호만 포함된 고객 데이터 테이블에 이메일 주소를 추가해 데이터를 강화하면, 더욱 강력한 고객 접점 툴이 됩니다. 거리 주소 데이터 세트에 지리 좌표를 추가해 데이터를 강화하면 해당 지역의 토지 이용에 대한 더 깊은 분석 정보를 얻을 수 있습니다.

기업이 방대한 양의 원시 데이터와 비정형 데이터를 지속적으로 생성하고 수집함에 따라 데이터 강화의 중요성도 더욱 커지고 있습니다. 원시 데이터와 비정형 데이터가 많아질수록 데이터 세트 내 공백과 누락된 컨텍스트도 증가합니다. 하지만 데이터 강화를 통해 조직은 이러한 데이터를 더 많은 의미를 부여하는 다른 데이터 포인트와 연관시킬 수 있으며, 이를 통해 데이터 자산에 대한 투자 수익을 더욱 높일 수 있습니다.

데이터 강화의 이점은 무엇인가요?

데이터 강화는 다음과 같은 다양한 이점을 제공합니다.

더 높은 데이터 정확성: 데이터 강화는 불완전한 우편 주소 또는 누락된 직함과 같은 기존 데이터의 공백을 채울 수 있습니다.

향상된 신뢰: 산업 분류 코드로 강화된 기업명 데이터 세트와 같이 데이터의 다양한 차원을 확인함으로써 사용자는 목적에 맞는 올바른 데이터 포인트에 액세스하고 있다는 확신을 가질 수 있습니다.

향상된 AI 성능: 머신 러닝 및 생성형 AI 모델을 포함한 인공지능은 고품질의 완전한 데이터를 제공받을 때 가장 효과적으로 작동합니다.

의사결정을 위한 분석 정보: 데이터 강화를 통해 구축된 포괄적인 데이터 세트는 기업이 시장 수요, 가격 책정 등과 관련된 새로운 패턴과 기회를 발견하는 데 도움을 줄 수 있습니다. 예를 들어 고객 분석 정보는 고객 선호도를 기반으로 한 타겟 마케팅 활동에 활용될 수 있습니다.

규제 준수 지원: 데이터 강화, 특히 메타데이터 강화는 데이터 개인정보 보호 규정 및 일반 데이터 보호 규정(GDPR)과 같은 법률의 적용을 받는 민감한 정보를 보다 쉽게 추적할 수 있도록 지원합니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

데이터 강화와 데이터 향상의 차이점은 무엇인가요?

“데이터 강화”와 “데이터 향상”이라는 용어는 종종 혼용되지만, 서로 다른 프로세스입니다. 두 방식 모두 데이터 품질을 향상시킬 수 있지만, 데이터 향상은 기존 데이터를 개선하는 데 더 중점을 두는 반면 데이터 강화는 데이터 세트에 새롭고 추가적인 데이터 포인트를 덧붙이는 데 중점을 둡니다.

데이터 향상에서는 데이터 정제 및 업데이트가 핵심 기능입니다. 열 내 누락된 값을 보완하거나 오래된 정보를 업데이트하기 위해 일부 새로운 데이터를 추가해야 할 수 있지만, 새롭게 추가되는 데이터의 규모는 데이터 강화 수준에 이르지는 않습니다.

데이터 강화를 통해 기존 데이터 세트에 새로운 필드가 추가되는 경우가 많습니다. 데이터 향상과 마찬가지로 데이터 정제도 프로세스의 일부이지만, 여기서는 새로운 정보를 추가하기 위한 준비 작업으로 수행됩니다. (아래 “데이터 강화의 주요 단계”를 참조하세요.)

데이터 강화 유형

조직은 일반적으로 기존 데이터 세트에 정보를 추가하기 위해 다음과 같은 데이터 강화 유형 중 하나 이상을 사용합니다.

행동 데이터 강화: 모바일 앱 및 소셜 미디어 계정을 포함한 제품, 서비스 및 다양한 커뮤니케이션 채널에 대한 고객 행동 및 참여 데이터입니다.

연락처 데이터 강화: 전화번호, 이메일 주소, 소속 기업 및 소셜 미디어 프로필을 포함한 연락처 목록 강화용 정보입니다.

인구통계 데이터 강화: 연령, 성별, 민족, 결혼 여부 및 소득과 같은 특성입니다. 사회인구통계 강화라고도 합니다.

기업 정보 강화: 산업군, 규모, 매출 및 위치와 같은 기업 관련 세부 정보입니다.

지리 정보 강화: 거리 주소, 우편번호, 국가 및 지리 좌표와 같은 엔티티 위치 정보입니다.

심리 특성 데이터 강화: 개인의 라이프스타일, 관심사, 태도 및 신념에 대한 데이터입니다.

기술 정보 강화: 애플리케이션, 툴, 하드웨어, 소프트웨어 및 IT 인프라를 포함해 개인 또는 조직이 사용하는 기술 유형에 대한 데이터입니다.

데이터 강화의 주요 단계

데이터 강화 프로세스는 조직마다 다를 수 있지만, 일반적으로 다음과 같은 공통 단계가 있습니다.

데이터 정제

표준화(형식 일관성 보장) 및 데이터 중복 제거와 같은 기술을 사용하여 강화 대상 데이터 세트를 정제합니다.

강화 기회 식별

데이터 세트에 추가하면 가치가 있을 정보 유형을 결정합니다.

데이터 소싱

새로운 데이터의 소스를 결정하고 필요에 따라 내부 및 외부 소스 중에서 선택합니다.

데이터 통합

데이터 통합 소프트웨어와 같은 툴을 사용하여 새로운 데이터를 대상 데이터 세트에 추가합니다.

데이터 강화에는 어떤 데이터 소스가 사용되나요?

조직은 퍼스트 파티 데이터(고객으로부터 직접 수집한 데이터)를 포함한 내부 데이터뿐 아니라 타사 소스의 데이터를 활용해 데이터 강화를 수행할 수 있습니다.

내부 소스 데이터를 활용하려는 기업은 사일로화된 데이터라는 장애물에 직면할 수 있습니다. 다행히도 기업은 서로 다른 소스의 데이터를 결합하고 이를 통합되고 사용 가능한 형식으로 변환하는 과정인 데이터 통합을 통해 이러한 사일로를 해소할 수 있습니다. 예를 들어 조직은 고객 관계 관리(CRM) 시스템과 마케팅 데이터베이스의 데이터를 통합하여 고객 데이터 세트를 강화할 수 있습니다.

기업은 무료 공공 데이터 소스 및 타사 데이터 공급자와 같은 외부 데이터 소스를 활용할 수도 있습니다. 공공 데이터 소스에는 정부 데이터 세트(예: 인구 조사 데이터, 고용 보고서)가 포함되며, 타사 데이터 공급자는 연락처 데이터, 인구통계 데이터 및 기업 정보 데이터 등 다양한 데이터를 수집 및 판매합니다. 타사 데이터를 선택할 때 기업은 신뢰할 수 있는 소스 및 공급자와만 협력해야 하며, 이를 통해 데이터가 정확하고 최신 상태이며 품질 기준을 충족한다는 확신을 가질 수 있습니다.

데이터 강화 프로세스의 일부로 수집 및 저장되는 모든 데이터는 GDPR 및 건강 보험 양도 및 책임에 관한 법률(HIPAA)과 같은 데이터 개인정보 보호 및 보안 규정을 준수하여 관리되어야 합니다.

데이터 강화 툴

데이터 기반 의사결정과 AI 관련 데이터 요구 사항이 증가함에 따라 고품질 데이터 및 데이터 강화 툴에 대한 수요도 함께 증가하고 있습니다. 데이터 강화 솔루션의 글로벌 시장 규모는 2023년 약 $24억에서 2030년에는 약 $46억에 이를 것으로 전망됩니다.

AI 도입은 데이터 강화 솔루션 사용 확대를 촉진하는 동시에 가장 발전된 데이터 강화 툴의 기반 기술 역할도 하고 있습니다. 일반적인 데이터 강화 툴 및 솔루션 유형은 다음과 같습니다.

데이터 통합 솔루션: 데이터 통합 솔루션은 데이터 강화뿐 아니라 데이터 정제 및 기타 데이터 수정 작업을 포함하는 추출, 변환 및 로드(ETL) 프로세스를 지원합니다. (데이터 통합 솔루션은 데이터 강화 이후에도 강화된 데이터를 데이터 웨어하우스 및 기타 분석 대상 시스템에 로드하여 운영에 활용할 수 있다는 점도 중요합니다.)

개방형 데이터 레이크하우스: 주요 데이터 레이크하우스 솔루션은 비정형 데이터의 수집 및 강화를 자동화하고 이를 정형 데이터와 통합할 수 있습니다.

데이터 거버넌스 소프트웨어: 고급 데이터 거버넌스 소프트웨어는 메타데이터 강화를 위해 대규모 언어 모델(LLM)을 활용하며, 추가 컨텍스트, 레이블 또는 설명을 통해 기술 메타데이터를 강화합니다.

에이전틱 강화 워크플로 솔루션: AI 에이전트는 데이터 강화 프로세스를 더욱 간소화할 수 있습니다. 에이전틱 데이터 강화의 한 모델에서는 사용자가 스프레드시트를 생성하면 애플리케이션 프로그래밍 인터페이스(API)가 트리거되어 웹에서 관련 실시간 데이터를 검색하고 수집합니다. 새로운 정보는 LLM에 의해 처리된 후 스프레드시트에 추가됩니다.¹

데이터 강화 활용 사례

데이터 강화는 다양한 분야와 산업에서 활용됩니다.

마케팅 및 영업

마케팅 팀과 영업 팀은 특히 행동 데이터 강화, 인구통계 데이터 강화 및 기업 정보 강화를 자주 활용합니다. 이들은 강화된 데이터를 활용해 고객 프로필을 구축하고, 세분화 전략을 지원하며, 맞춤형 마케팅 캠페인을 생성하고, 개인화된 고객 경험을 제공합니다.

도시 계획

고품질 공간 데이터는 도시 계획 및 개발에 매우 중요합니다. 지오코딩이라고 하는 지리 정보 강화 방식은 거리 주소에서 위도와 경도 값을 추출하여 도시 계획 담당자가 위치를 더욱 정확하게 식별할 수 있도록 지원합니다.

헬스케어 및 생명 과학

웨어러블 장치, 건강 및 피트니스 앱 및 기타 건강 모니터링 기술은 환자 및 연구 데이터 세트를 강화하기 위한 새로운 정보 소스로 활용되고 있습니다. 이러한 데이터 강화는 의료 전문가가 환자 치료를 개선하고 연구자가 중요한 패턴과 분석 정보를 발견하는 데 도움을 줄 수 있습니다.