탐색형 데이터 분석

menu icon

탐색형 데이터 분석

데이터 세트의 분석과 요약에 사용되는 방법인 탐색형 데이터 분석에 대해 알아야 할 모든 사항들을 살펴봅니다.

탐색형 데이터 분석이란?

탐색형 데이터 분석(EDA)은 데이터 사이언티스트가 종종 데이터 시각화 방법을 사용하여 데이터 세트를 분석 및 조사하고 이의 주요 특징을 요약하는 데 사용됩니다. 이는 데이터 소스를 조작하여 필요한 응답을 얻을 수 있는 최상의 방법을 판별할 수 있도록 지원함으로써, 데이터 사이언티스트가 보다 손쉽게 패턴을 발견하고 이상 항목을 감지하며 가설을 검증하거나 가정을 확인할 수 있도록 도와줍니다.

EDA는 주로 공식적 모델링이나 가설 검증 태스크를 넘어서 데이터가 무엇을 드러낼 수 있는지를 확인하는 데 사용되며, 데이터 세트 변수와 이들 간의 관계를 보다 잘 파악할 수 있도록 지원합니다. 이는 또한 데이터 분석을 위해 고려 중인 통계 기술이 적절한지 여부를 판별하는 데도 도움이 될 수 있습니다. 1970년대에 미국인 수학자인 John Tukey에 의해 최초 개발된 EDA 기법은 오늘날 데이터 감지 프로세스에서 지속적으로 널리 사용되고 있는 방법입니다.

데이터 사이언스에서 탐색형 데이터 분석의 중요성

EDA의 주요 목적은 어떤 가정을 하기 전에 데이터를 살펴볼 수 있도록 지원하는 것입니다. 이는 명백한 오류를 식별함은 물론, 데이터 내의 패턴을 보다 잘 파악하고, 아웃라이어 또는 이례적 이벤트를 감지하며, 변수들 간에 흥미로운 관계를 찾을 수 있도록 지원합니다.

데이터 사이언티스트들은 탐색형 분석을 사용함으로써 자신이 생성한 결과가 유효하며 원하는 비즈니스 결과와 목표에 적용 가능하도록 보장합니다. EDA는 또한 이해 당사자들이 올바른 질문을 하고 있는지를 확인함으로써 이들을 지원합니다. EDA는 표준 편차, 범주형 변수 및 신뢰 구간에 대한 질문에 답변할 수 있도록 도와줍니다. 일단 EDA가 완료되고 인사이트가 추출되면, 해당 기능은 머신 러닝을 포함한 보다 정교한 데이터 분석이나 모델링에 사용될 수 있습니다.

탐색형 데이터 분석 툴

EDA 툴을 사용하여 수행할 수 있는 특정 통계 기능과 기술은 다음과 같습니다.

  • 많은 변수가 포함된 고차원 데이터의 그래픽 표현을 구축하는 데 도움이 되는 클러스터링 및 차원 축소 기술.
  • 요약 통계를 사용하여 원시 데이터 세트의 각 필드에 대한 일변량 시각화.
  • 데이터 세트의 각 변수와 사용자가 바라보는 대상 변수 간의 관계를 평가할 수 있도록 허용하는 이변량 시각화 및 요약 통계.
  • 데이터의 다수의 필드 간의 상호작용을 맵핑하고 파악하기 위한 다변량 시각화.
  • K-평균 클러스터링은 각 그룹의 중심으로부터의 거리에 따라 데이터 포인트가 K 그룹, 즉 클러스터 수에 지정되는 비감독형 학습의 클러스터링 방법입니다. 특정 중심에 최인접한 데이터 점들은 동일 카테고리 하에 클러스터링됩니다. K-평균 클러스터링은 시장 세분화, 패턴 인식 및 이미지 압축에서 흔히 사용됩니다.
  • 선형 회귀와 같은 예측 모델은 통계와 데이터를 사용하여 결과를 예측합니다.

탐색형 데이터 분석의 유형

네 가지의 기본 EDA 유형이 있습니다.

  • 일변량 비그래픽. 이는 분석 중인 데이터가 단지 하나의 변수로 구성되는 가장 단순한 데이터 분석 양식입니다. 단일 변수이므로, 이는 원인이나 관계를 다루지 않습니다. 일변량 분석의 기본 목적은 데이터를 기술하고 내부에 존재하는 패턴을 찾는 것입니다.
  • 일변량 그래픽. 비그래픽 방법은 데이터의 전체 모습을 제공하지 않습니다. 따라서 그래픽 방법이 요구됩니다. 일변량 그래픽의 일반적인 유형은 다음과 같습니다.
    • 모든 데이터 값과 분포 양상을 보여주는 경엽(Stem-and-leaf) 도표.
    • 각 막대가 값 범위에 대한 케이스의 비율(계수/총계) 또는 빈도(계수)를 나타내는 막대 도표인 히스토그램.
    • 최소, 첫 번째 사분위수, 중앙값, 세 번째 사분위수 및 최대값에 대한 5자리 숫자 요약을 그래픽으로 묘사하는 상자 도표.
  • 다변량 비그래픽: 다변량 데이터는 둘 이상의 변수에서 발생합니다. 다변량 비그래픽 EDA 기술은 일반적으로 교차표 또는 통계를 통해 데이터의 둘 이상의 변수 간의 관계를 나타냅니다.
  • 다변량 그래픽: 다변량 데이터는 그래픽을 사용하여 둘 이상의 데이터 세트 간 관계를 표시합니다. 가장 많이 사용되는 그래픽은 각 그룹이 변수 중 하나의 한 레벨을 나타내고 그룹 내의 각 막대는 다른 변수의 레벨을 나타내는 그룹형 막대 도표 또는 막대 차트입니다.

다변량 그래픽의 기타 일반적인 유형은 다음과 같습니다.

  • 한 변수가 다른 변수의 영향을 받는 정도를 표시하기 위해 가로와 세로축에 데이터 점을 플로팅하는 데 사용되는 분산 도표.
  • 요인과 응답 간의 관계를 그래픽으로 표시하는 다변량 차트.
  • 시간에 따라 플로팅된 데이터의 선 그래프인 실행 차트.
  • 2차원 도표에서 다수의 원(버블)을 표시하는 데이터 시각화인 버블 차트.
  • 값이 색상으로 표시되는 데이터의 그래픽 표현인 히트 맵.

탐색형 데이터 분석 툴

EDA 생성에 사용되는 가장 일반적인 데이터 사이언스 툴 중 일부는 다음과 같습니다.

  • Python: 동적 시맨틱을 통해 해석된 오브젝트 지향 프로그래밍 언어. 동적인 타이핑 및 동적 바인딩과 결합된 고급 내장형 데이터 구조로 인해, 이는 신속한 애플리케이션 개발을 위해서는 물론 기존 컴포넌트를 함께 연결하기 위한 스크립팅 또는 접착형 언어로 사용하기에도 매우 매력적입니다. Python 및 EDA를 함께 사용하면 데이터 세트에서 누락된 값을 식별할 수 있으며, 머신 러닝의 경우 누락된 값의 처리 방법을 결정할 수 있도록 하므로 이는 매우 중요합니다.
  • R: "R Foundation for Statistical Computing"에서 지원하는 통계 컴퓨팅 및 그래픽을 위한 오픈 소스 프로그래밍 언어 및 무료 소프트웨어 환경. R 언어는 통계적 관측과 데이터 분석을 개발하는 데 있어서 데이터 사이언스 분야의 통계학자들 사이에 널리 사용되고 있습니다.

이러한 접근 방식의 차이점을 보다 자세히 알아보려면 "Python 대 R: 차이점"을 참조하세요.

IBM 및 탐색형 데이터 분석

IBM의 Explore 프로시저는 모든 케이스에 대해 또는 케이스 그룹에 대해 별도로 데이터에 대한 다양한 시각적 및 수치적 요약을 제공합니다. 종속 변수는 스케일 변수여야 하지만, 그룹화 변수는 서수 또는 명목수일 수 있습니다.

IBM의 Explore 프로시저를 사용하면 다음이 가능합니다.

  • 화면 데이터
  • 아웃라이어 식별
  • 가정 검사
  • 케이스 그룹 간에 차이를 특성화합니다.

IBM의 Explore 프로시저에 대한 자세한 내용은 여기를 참조하세요. 탐색형 데이터 분석에 대한 자세한 정보를 보려면 IBM ID에 등록하고 IBM Cloud 계정을 만드세요.