데이터 랭글링은 데이터 과학, 머신 러닝(ML) 및 기타 데이터 기반 애플리케이션에 사용할 원시 데이터를 정리, 구조화 및 보강하는 프로세스입니다.
데이터 정리 또는 데이터 준비라고도 하는 데이터 랭글링은 누락된 값, 중복, 이상값 및 서식 불일치와 같은 데이터 품질 문제를 해결하는 방법입니다. 데이터 랭글링의 목표는 원시 데이터, 비정형 데이터 또는 문제가 있는 데이터를 효과적으로 분석할 수 있는 정제된 데이터 세트로 변환하는 것입니다. 데이터 랭글링은 데이터 과학자, 데이터 분석가 및 기타 비즈니스 사용자가 정보에 입각한 의사 결정을 지원하는 방식으로 데이터를 적용하는 데 도움이 됩니다.
오늘날 조직은 다양한 소스로부터 수많은 데이터에 액세스할 수 있습니다. 그러나 이러한 원시 데이터는 지저분하거나 일관성이 없거나 다양한 프로세스 및 툴과 함께 사용하기에 적합하지 않아 가치 있는 인사이트로 전환하기 어려울 수 있습니다. 적절한 데이터 랭글링이 없으면 데이터 분석 결과가 오해의 소지가 생겨날 수 있습니다. 기업은 부정확한 결론을 도출하고 잘못된 비즈니스 결정을 내릴 수 있습니다.
데이터 랭글링은 고품질 결과를 지원하는 핵심적인 방법입니다. 일련의 단계를 통해 데이터를 변환하고 매핑하여 의도한 애플리케이션에 맞게 명확하고 일관되며 신뢰할 수 있고 유용하게 만듭니다. 결과 데이터 세트는 머신 러닝 모델 구축, 데이터 분석 수행, 데이터 시각화 생성, 비즈니스 인텔리전스 보고서 생성, 정보에 입각한 경영진 의사 결정과 같은 작업에 사용됩니다.
인공 지능(AI)을 비롯한 데이터 기반 기술이 더욱 발전함에 따라 데이터 랭글링의 중요성이 더욱 커지고 있습니다. AI 모델의 성능은 모델이 학습한 데이터에 따라 달라집니다.
데이터 랭글링 프로세스는 모델을 개발하고 개선하는 데 사용되는 정보가 정확한지 확인하는 데 도움이 됩니다. 깔끔하고 잘 구조화된 데이터는 사람과 알고리즘이 이해하기 쉽기 때문에 해석 가능성이 향상됩니다. 또한 데이터 통합을 지원하여 서로 다른 소스의 정보를 더 쉽게 통합하고 상호 연결할 수 있습니다.
데이터 랭글링 프로세스에는 일반적으로 다음과 같은 단계가 포함됩니다.
이 초기 단계에서는 데이터 소스와 데이터 형식을 포함한 전체 데이터 세트의 품질을 평가하는 데 중점을 둡니다. 데이터가 데이터베이스, 애플리케이션 프로그래밍 인터페이스(API), CSV 파일, 웹 스크래핑 또는 기타 소스에서 제공되나요? 어떻게 구성되어 있나요? 어떻게 사용되나요?
발견 프로세스는 누락된 데이터, 형식 불일치, 오류 또는 편향 및 분석을 왜곡할 수 있는 이상값과 같은 품질 문제를 강조하고 해결합니다. 조사 결과는 일반적으로 데이터 품질 보고서 또는 통계, 분포 및 기타 결과를 포함하는 데이터 프로파일링 보고서로 알려진 보다 기술적인 문서로 문서화됩니다.
데이터 변환이라고도 하는 데이터 구조화 단계에서는 데이터를 분석에 적합하도록 통합된 형식으로 구성하는 데 중점을 둡니다. 여기에는 다음이 포함됩니다.
데이터 정리에는 누락된 값 처리, 중복 제거, 오류 또는 불일치 수정이 포함됩니다. 이 프로세스에는 '노이즈가 있는' 데이터를 평활화하는 작업, 즉 데이터의 무작위 변이 또는 기타 문제의 영향을 줄이는 기술을 적용하는 작업도 포함될 수 있습니다. 정리할 때는 불필요한 데이터 손실이나 과도한 정리로 인해 귀중한 정보가 제거되거나 데이터가 왜곡되지 않도록 하는 것이 중요합니다.
데이터 강화에는 기존 데이터 세트에 새로운 정보를 추가하여 가치를 높이는 작업이 포함됩니다. 데이터 보강이라고도 하는 이 작업에는 어떤 추가 정보가 필요하고 어디서 얻을 수 있는지 평가하는 작업이 포함됩니다. 그런 다음 추가 정보를 기존 데이터 세트와 통합하고 원본 데이터와 동일한 방식으로 정리해야 합니다.
데이터 강화에는 의도한 사용 사례와 관련된 인구 통계, 지리, 행동 또는 환경 데이터를 가져오는 것이 포함될 수 있습니다. 예를 들어, 데이터 랭글링 프로젝트가 공급망 운영과 관련된 경우 날씨 정보로 배송 데이터를 강화하면 지연을 예측하는 데 도움이 될 수 있습니다.
이 단계에는 랭글링된 데이터의 정확성과 일관성을 검증하는 작업이 포함됩니다. 첫째, 검증 규칙은 비즈니스 로직, 데이터 제약 조건 및 기타 문제를 기반으로 설정해야 합니다. 그런 다음 다음과 같은 검증 기술이 적용됩니다.
철저한 검증을 거친 후 기업은 랭글링된 데이터를 게시하거나 애플리케이션에서 사용할 수 있도록 준비할 수 있습니다. 이 프로세스에는 데이터를 데이터 웨어하우스에 로드하거나, 데이터 시각화를 생성하거나, 머신 러닝 알고리즘과 함께 사용할 특정 형식으로 데이터를 내보내는 작업이 포함될 수 있습니다.
데이터 랭글링 프로세스는 특히 복잡한 데이터의 양이 계속 증가함에 따라 시간이 많이 소요될 수 있습니다. 실제로 연구에 따르면 데이터를 준비하고 사용 가능한 형태로 변환하는 작업은 데이터 분석가의 시간 중 45~80%를 차지한다고 합니다. 1 2
데이터 랭글링에는 프로그래밍 언어, 데이터 조작 기술 및 전문 툴에 대한 일정 수준의 기술 전문 지식이 필요합니다. 하지만 궁극적으로는 데이터 품질이 향상되고, 보다 효율적이고 효과적인 데이터 분석이 가능해집니다.
조직에서는 다양한 도구와 기술을 사용하여 다양한 소스에서 데이터를 수집하고 이를 전반적인 비즈니스 요구 사항을 지원하는 데이터 파이프라인에 통합합니다. 여기에는 다음이 포함됩니다.
Python과 R은 데이터 마이닝, 조작 및 분석을 포함한 데이터 랭글링 작업에 널리 사용됩니다. 구조화된 쿼리 언어(SQL)는 관계형 데이터베이스 및 데이터 관리 작업에 필수적입니다.
데이터 랭글러는 특히 소규모 데이터 세트의 기본적인 데이터 정리 및 조작을 위해 Microsoft Excel 및 Google 스프레드시트와 같은 툴을 사용합니다.
데이터 랭글링 툴은 데이터 정리 및 데이터 변환을 위한 시각적 인터페이스를 제공하여 워크플로를 간소화하고 작업을 자동화하는 데 도움이 됩니다. 예를 들어, IBM 플랫폼에서 제공하는 데이터 정제 툴은 원시 데이터를 데이터 분석 및 기타 목적에 사용할 수 있는 형태로 빠르게 변환할 수 있습니다.
빅데이터 플랫폼은 다양한 양과 종류의 빅데이터를 처리하는 데 필요한 툴과 능력을 제공함으로써 대규모의 복잡한 데이터 세트를 처리하는 데 도움이 됩니다. Apache Hadoop 및 Apache Spark와 같은 플랫폼은 대규모 데이터 세트를 랭글링하는 데 사용됩니다. 이들은 빅데이터 기술을 사용하여 고품질 데이터 분석 및 의사 결정에 사용할 수 있는 형태로 정보를 변환합니다.
AI는 자동화와 고급 분석을 통해 데이터 랭글링을 지원합니다. 머신 러닝 모델과 알고리즘은 이상값 탐지 및 확장 등의 문제에 도움이 될 수 있습니다. 다른 AI 툴은 대규모 데이터 세트를 빠르게 처리하고, 실시간 변환을 처리하며, 패턴을 인식하여 정리 작업을 안내할 수 있습니다. 자연어 처리(NLP) 인터페이스를 통해 사용자는 데이터와 직관적으로 상호 작용할 수 있으므로 기술적 장벽을 줄일 수 있습니다.
모든 링크는 ibm.com 외부에 있습니다.
1 State of Data Science, Anaconda, 2020년 7월.
2 Hellerstein et al. Principles of Data Wrangling. O'Reilly Media. 2017년 7월.
데이터 과학 도구와 솔루션을 활용하여 패턴을 파악하고 데이터, 알고리즘, 머신 러닝, AI 기술을 활용하여 예측을 구축합니다.
더 나은 의사 결정을 위한 AI 기반 인사이트인 Cognos Analytics 12.0을 소개합니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.