데이터 획득이란 무엇인가요?

오른쪽으로 퍼져 나가는 파란색의 뒤섞인 점들과 선들

작성자

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

데이터 획득이란 무엇인가요?

데이터 획득은 다양한 방법을 사용하여 다양한 소스에서 데이터를 얻는 과정입니다. 이는 데이터 수집 파이프라인의 중요한 단계로, 그 다음으로는 데이터 검증, 변환, 로딩 과정으로 이어집니다.
 

데이터 기반 의사 결정 , 데이터 분석 및 인공 지능(AI)과 같은 현대 비즈니스의 기본은 모두 대량의 고품질 데이터가 확보되어야만 가능합니다. 데이터 획득은 이러한 정보에 입각한 의사 결정과 기술을 가능하게 하는 데이터를 검색합니다. 개념 자체는 간단해 보일 수 있지만, 특히 빅데이터 시대에는 데이터를 수집하는 일이 복잡할 수 있습니다.

오늘날의 데이터 세트는 방대하고 복잡합니다. 그 양이 테라바이트 또는 페타바이트에 달할 수 있고, 정형 또는 비정형 형식으로 제공되며, 다양한 소스에 걸쳐 저장됩니다. 이러한 복잡성으로 인해 데이터 획득 프로세스 전반에 걸쳐 데이터 볼륨, 거버넌스보안을 관리하는 데 어려움이 있습니다.

하지만 효과적으로 수행될 경우, 데이터 획득 과정은 전략적 이니셔티브를 위한 고품질의 연료를 공급하는 파이프라인이 될 수 있습니다. 실제로 Harvard Business Review의 연구에 따르면 빅데이터와 AI를 성공적으로 활용하는 조직은 운영 효율성, 매출 성장 및 고객 경험을 비롯한 주요 비즈니스 지표에서 동종 업체보다 우수한 성과를 보였습니다.1

데이터 획득의 다른 정의

'데이터 획득'이라는 용어는 구체적으로 실제 세계의 조건(일반적으로 센서 데이터)을 측정하는 물리적 또는 전기적 신호의 수집을 의미할 수도 있습니다. 온도 측정, 압력 및 기타 물리적 현상을 예로 들 수 있습니다.

이러한 신호는 데이터 획득 장치(DAQ 장치)를 사용해 처리되고, 사용 가능한 디지털 값으로 변환됩니다 이러한 사용은 환경 모니터링, 산업 자동화, 과학 연구와 같은 분야에서 흔히 이루어집니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

데이터 획득의 네 가지 방법은 무엇인가요?

미국 지질조사국에 따르면 데이터 획득 방법으는 다음과 같이 네 가지가 있습니다.2

  • 새로운 데이터 수집
  • 레거시 데이터 변환 또는 전환
  • 데이터 공유 또는 교환
  • 구매 데이터
새로운 데이터 수집

데이터 수집에는 설문조사, 인터뷰, 센서 또는 사물인터넷(IoT) 장치와 같은 직접적인 수단을 통해 원본 데이터를 생성하는 작업이 있습니다. 기업에서는 시장 조사나 운영 모니터링을 위해 이 접근 방식을 자주 사용합니다.

레거시 데이터 변환 또는 전환

이 방법은 조직의 레거시 데이터를 추출하여 표준화되고 사용 가능한 형식으로 변환하는 데 중점을 둡니다. 이 프로세스는 단순한 필드 변환(예: 날짜 변환)부터 고급 데이터 과학 전문 지식이 필요한 복잡한 정규화 작업에 이르기까지 다양할 수 있습니다.

데이터 공유 또는 교환

데이터 교환은 시스템과 조직 간 데이터 전송을 말합니다. 이는 오픈 데이터 정부 프로그램, 도시 데이터 교환 및 상업 데이터 제공 업체를 통해 이루어질 수 있습니다. 기술 교환 메커니즘에는 애플리케이션 프로그래밍 인터페이스(API), 파일 전송스트리밍 파이프라인 및 클라우드 기반 플랫폼이 포함됩니다.

구매 데이터

조직은 데이터 마켓플레이스에서 외부 데이터를 구매할 수도 있습니다. 이러한 플랫폼은 구매자와 판매자 간의 격차를 해소하여 상업적 가용성, 접근성 및 확장 가능한 이점을 제공합니다. 또한 바로 사용할 수 있는 엄선된 데이터 제품을 통해 데이터 수집의 오버헤드를 줄일 수 있습니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

일반적인 데이터 소스

조직은 무한에 가까운 다양한 출처로부터 데이터를 수집할 수 있습니다. 데이터는 정형 및 비정형일 수 있으며, 내부 또는 외부에 있을 수 있습니다. 가장 일반적인 데이터 소스는 다음과 같습니다.

  • 비즈니스 애플리케이션: 전사적 자원 관리(ERP), 고객 관계 관리(CRM) 및 기타 시스템의 데이터

  • 소셜 미디어: 소셜 미디어 플랫폼의 실시간 상호 작용 데이터

  • 오픈 데이터: 연구 및 정책 결정에 사용되는 학술 기관 및 정부의 데이터 세트

  • 공개 데이터: 인구 조사 및 경제 데이터와 같은 정부 및 조직의 데이터

  • 거래 데이터: 판매 기록, 송장 및 지불 정보

  • 설문조사: 고객 피드백 또는 조사 설문지를 통해 수집된 데이터

  • 웹 분석: 페이지 조회수 및 전환과 같은 웹사이트 상호 작용의 데이터

  • IoT 기기: 스마트 미터기나 가전 제품 등 연결된 기기의 실시간 데이터

데이터 획득 과제 및 고려 사항

데이터를 수집하는 조직은 획득 프로세스 전반에 걸쳐 다음과 같은 몇 가지 고려 사항을 염두에 두어야 합니다.

  • 데이터 개인정보 보호 및 보안
  • 데이터 품질
  • 데이터 호환성
  • 비즈니스 요구 사항과 비용 비교

데이터 프라이버시 및 보안

데이터 개인정보 보호(정보 프라이버시라고도 함)는 조직이 개인 데이터를 수집, 저장 및 사용하는 방법을 사람들이 제어할 수 있어야 한다는 개념입니다. 기업 인수 과정에서 조직은 이메일 주소나 생체 인증 데이터와 같은 사용자 정보를 수집할 수 있습니다. 이러한 데이터를 처리하기 전에 사용자의 동의를 얻고 데이터가 오용되지 않도록 보호하며 사용자에게 데이터를 적극적으로 관리할 수 있는 도구를 제공하는 것이 중요합니다.

많은 기업은 일반 데이터 보호 규정(GDPR)과 같은 규정에 따라 이러한 관행을 따라야 할 법적 의무가 있습니다. 비록 공식적인 데이터 개인정보 보호 법률이 없더라도, 데이터 개인정보 보호 조치를 도입하면 여러 이점이 있습니다. 사용자의 개인정보를 보호하는 관행과 도구는 많은 경우 무단 액세스, 손상 또는 도난으로부터 디지털 정보를 보호하는 데 도움이 됩니다.

데이터 품질

다양한 소스에서 데이터를 획득하는 조직이라면 데이터 품질을 보장하는 것이 최우선 과제가 되어야 합니다. 데이터 품질은 데이터 세트가 정확성, 완전성, 유효성, 일관성, 고유성, 적시성 및 의도된 목적과의 관련성에 대한 기준을 얼마나 잘 충족하는지를 나타냅니다. 고품질 데이터는 비즈니스 목표에 부합하는 정확하고 공정하며 효과적인 의사결정을 지원합니다.

데이터 품질 관리는 일상 운영을 넘어서는 중요한 역할을 합니다. 고품질 교육 데이터는 인공 지능 및 자동화를 효과적으로 채택하는 데 핵심입니다. 그러나 잘 알려진 AI 격언인 ‘쓰레기를 넣으면 쓰레기가 나온다(garbage in, garbage out)’는 모든 상황에 적용되며, 저품질 데이터는 항상 저품질 결과를 초래합니다.

데이터 호환성

조직이 다양한 소스에서 데이터 세트를 확보하는 경우 시스템에 로드하기 전에 호환성 문제를 해결해야 합니다. 데이터 정리 관행과 표준화는 데이터가 일관된 형식과 구조를 유지하도록 하여, 이후 단계에서 데이터를 더 쉽게 이해하고 분석할 수 있도록 합니다. 예를 들어, 거리 이름에는 일반적으로 North(북) 또는 West(서)와 같은 방향이 포함됩니다. 표준화는 이러한 값의 형식을 'N' 또는 'W'로 지정합니다.

규제가 심한 산업(예: 금융 또는 의료)의 조직은 추가적인 데이터 표준 규칙 및 규정을 준수해야만 할 수도 있습니다. 예를 들어, 건강 보험 양도 및 책임에 관한 법률(HIPAA)은 진단 및 의료 절차에 대한 표준 코드 세트를 확립하여 의료 데이터의 공통 언어를 만들었습니다.

비즈니스 요구 사항과 비용 비교

데이터를 획득하기 전에 조직은 데이터 요구 사항을 명확히 하고, 획득 비용이 정당한지 판단해야 합니다. 데이터 정리 및 표준화와 관련된 비용 외에도 기업은 가격, 라이선스 비용(해당되는 경우) 및 구매 계약에 명시된 추가 비용을 고려해야 합니다.

효율적인 데이터 획득을 위해서는 데이터를 처리, 관리 및 저장할 수 있는 강력한 데이터 인프라도 필요합니다. 조직은 획득한 데이터를 적절하게 저장, 관리 및 사용하기 위해 데이터 스토리지, 분석, 보안 및 거버넌스와 같은 영역에 투자해야 할 수 있습니다.

데이터 획득은 데이터 수집과 같은 의미인가요?

종종 같은 의미로 사용되기도 하지만 데이터 획득과 데이터 수집은 서로 다른 의미를 갖습니다.

데이터 수집은 일반적으로 데이터 과학자와 분석가가 수행하는 다양한 소스에서 직접 원시 정보를 수집하는 프로세스입니다. 반면, 데이터 획득은 데이터 수집을 포함하는 더욱 광범위한 용어입니다. 또한 데이터 획득에는 파트너십, 라이선스 계약, 데이터 구매 및 레거시 데이터 변환과 같은 추가 방법을 통해 데이터를 얻는 것도 포함됩니다.

머신 러닝에서 데이터 획득이란 무엇인가요?

최고 성과를 내는 CEO의 72%에 따르면 경쟁 우위를 확보하려면 최첨단 생성형 AI를 보유해야 한다고 합니다. 하지만 아무리 정교한 머신러닝 알고리즘이라도 그 알고리즘이 학습한 데이터의 품질에 따라 그 효과가 결정됩니다. AI 시스템이 학습하고, 조정하고, 실제 가치를 제공하려면 고품질 데이터가 필수적입니다.

그러나 실제로는 AI 모델을 학습시키기에 충분한 관련 데이터를 획득하는 것이 어려울 수 있습니다. 프라이버시 문제, 높은 비용, 그리고 법적 또는 규제적 제약 때문에, 웹 스크래핑이나 공개 데이터 세트와 같은 가치 있는 데이터 획득 방법 및 소스에 대한 접근이 제한될 수 있습니다. 경우에 따라 규제로 인해 AI 활용을 위한 특정 유형의 데이터 수집이 전면 금지될 수 있습니다.

이러한 문제를 해결하기 위해 많은 조직이 실제 데이터를 모방하여 인공적으로 생성된 데이터인 합성 데이터로 눈을 돌리고 있습니다. 통계적 방법이나 딥러닝, 생성형 AI 같은 첨단 인공 지능 기술을 활용해 생성되는 합성 데이터를 통해 맞춤화 기능이 향상되고 데이터를 더 효율적으로 획득할 수 있으며 데이터 개인정보 보호가 강화되고 전반적으로 더 풍부한 정보 확보할 수 있습니다.

관련 솔루션
IBM StreamSets

직관적인 그래픽 인터페이스를 통해 스트리밍 데이터 파이프라인을 생성하여 하이브리드 및 멀티클라우드 환경 전반에서 완벽한 데이터 통합을 촉진합니다.

StreamSets 살펴보기
IBM watsonx.data™

watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.

watsonx.data 알아보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.

분석 서비스 알아보기
다음 단계 안내

탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.

데이터 관리 솔루션 살펴보기 watsonx.data 알아보기
각주

1Big on data: Study shows why data-driven companies are more profitable than their peers,” Harvard Business Review study conducted for Google Cloud, 2023년 3월 24일.

2Data Acquisition Methods,” 미국 지질조사국.