탐색적 데이터 분석이란 무엇인가요?

EDA란 무엇인가요?

탐색적 데이터 분석(EDA)은 데이터 과학자가 데이터 세트를 분석 및 조사하고 주요 특성을 요약하는 데 사용하며, 종종 데이터 시각화 방법을 사용합니다.

EDA는 필요한 답변을 얻기 위해 데이터 소스를 가장 잘 조작하는 방법을 결정하는 데 도움이 되므로 데이터 과학자가 더 쉽게 패턴을 발견하고, 이상 징후를 발견하고, 가설을 테스트하고, 가정을 확인할 수 있습니다.

EDA는 주로 공식 모델링 또는 가설 테스트 작업 외에 데이터가 무엇을 드러낼 수 있는지 확인하는 데 사용되며 데이터 세트 변수와 이들 간의 관계를 더 잘 이해할 수 있도록 합니다. 또한 데이터 분석을 위해 고려 중인 통계 기법이 적절한지 판단하는 데도 도움을 줄 수 있습니다. 1970년대 미국 수학자 존 튜키(John Tukey)가 처음 개발한 EDA 기술은 오늘날에도 데이터 디스커버리 프로세스에서 널리 사용되는 방법입니다.

EDA가 데이터 과학에서 중요한 이유는 무엇인가요?

EDA의 주요 목적은 가정을 하기 전에 데이터를 살펴보는 데 도움을 주는 것입니다. 이는 명백한 오류를 식별하고, 데이터 내의 패턴을 더 잘 이해하고, 이상값이나 비정상적인 이벤트를 감지하고, 변수 간의 흥미로운 관계를 찾는 데 도움이 될 수 있습니다.

데이터 과학자는 탐색적 분석을 사용하여 생성한 결과가 유효하고 원하는 비즈니스 결과 및 목표에 적용 가능한지 확인할 수 있습니다. EDA는 또한 이해관계자가 올바른 질문을 하고 있는지 확인하여 도움을 줍니다. EDA는 표준 편차, 범주형 변수 및 신뢰 구간에 대한 질문에 답하는 데 도움이 될 수 있습니다. EDA가 완료되고 인사이트가 도출되면 EDA의 기능을 사용하여 머신 러닝을 포함한 보다 정교한 데이터 분석 또는 모델링을 수행할 수 있습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

EDA 툴

EDA 도구로 수행할 수 있는 특정 통계 기능 및 기법은 다음과 같습니다.

클러스터링 및 차원 축소 기법은 많은 변수를 포함하는 고차원 데이터의 그래픽 표시를 만드는 데 도움이 됩니다.
원시 데이터 세트의 각 필드를 요약 통계와 함께 일변량으로 시각화합니다.
데이터 세트의 각 변수와 보고 있는 대상 변수 간의 관계를 평가할 수 있는 이변량 시각화 및 요약 통계입니다.
다변량 시각화로 데이터의 서로 다른 필드 간의 상호 작용을 매핑하고 이해합니다.
K-평균 클러스터링은 비지도 학습의 클러스터링 방법으로, 데이터 포인트가 각 그룹의 중심으로부터의 거리에 따라 K 그룹, 즉 클러스터 수에 할당됩니다. 특정 중심에 가장 가까운 데이터 포인트는 동일한 범주로 클러스터링됩니다. K-평균 클러스터링은 일반적으로 시장 세분화, 패턴 인식 및 이미지 압축에 사용됩니다.
선형 회귀와 같은 예측 모델은 통계와 데이터를 사용하여 결과를 예측합니다.

EDA 유형

EDA에는 네 가지 기본 유형이 있습니다.

일변량 비그래픽
일변량 그래픽
다변량 비그래픽
다변량 그래픽

일변량 비그래픽

이는 분석되는 데이터가 단 하나의 변수로 구성되는 가장 간단한 형태의 데이터 분석입니다. 단일 변수이기 때문에 원인이나 관계를 다루지 않습니다. 단변량 분석의 주요 목적은 데이터를 설명하고 그 안에 존재하는 패턴을 찾는 것입니다.

일변량 그래픽

비그래픽 방법은 데이터에 대한 전체 그림을 제공하지 못합니다. 따라서 그래픽 방식이 필요합니다. 일변량 그래픽의 일반적인 유형은 다음과 같습니다.

모든 데이터 값과 분포의 모양을 보여주는 줄기 및 잎 그림.
히스토그램은 각 막대가 값 범위에 대한 사례의 빈도(개수) 또는 비율(개수/총 개수)을 나타내는 막대 그림입니다.
상자 그림이 최소값, 제1사분위수, 중앙값, 제3사분위수, 최대값의 다섯 가지 숫자 요약을 그래픽으로 보여 줍니다.

다변량 비그래픽

다변량 데이터는 둘 이상의 변수에서 발생합니다. 다변량 비그래픽 EDA 기법은 일반적으로 교차표 또는 통계를 통해 데이터의 두 개 이상의 변수 간의 관계를 보여줍니다.

다변량 그래픽

다변량 데이터는 그래픽을 사용하여 둘 이상의 데이터 집합 간의 관계를 표시합니다. 가장 많이 사용되는 그래픽은 그룹화된 막대 그림 또는 막대 차트로, 각 그룹은 변수 중 하나의 한 수준을 나타내고 그룹 내의 각 막대는 다른 변수의 수준을 나타냅니다.

다변량 그래픽의 다른 일반적인 유형은 다음과 같습니다.

산점도는 한 변수가 다른 변수의 영향을 얼마나 많이 받는지 보여주기 위해 가로 및 세로 축에 데이터 포인트를 표시하는 데 사용됩니다.
다변량 차트는 요인과 반응 간의 관계를 그래픽으로 표현한 것입니다.
런 차트는 시간 경과에 따른 데이터의 선 그래프입니다.
버블 차트는 2차원 그림에 여러 원(버블)을 표시하는 데이터 시각화입니다.
히트 맵은 값이 색상으로 표시되는 데이터를 그래픽으로 표현한 것입니다.

탐색적 데이터 분석 언어

EDA를 만드는 데 가장 일반적으로 사용되는 데이터 과학 프로그래밍 언어는 다음과 같습니다.

Python: 동적 의미 체계를 사용하는 해석된 객체 지향 프로그래밍 언어입니다. 동적 타이핑 및 동적 바인딩과 결합된 높은 수준의 내장 데이터 구조는 신속한 애플리케이션 개발뿐만 아니라 기존 구성 요소를 함께 연결하기 위한 스크립팅 또는 글루 언어로 사용하기에 매우 매력적입니다. Python과 EDA를 함께 사용하여 데이터 세트에서 누락된 값을 식별할 수 있으며, 이는 머신 러닝에 대한 누락된 값을 어떻게 처리할 것인지를 결정할 수 있으므로 중요합니다.
R: R Foundation for Statistical Computing에서 지원하는 통계 컴퓨팅 및 그래픽을 위한 오픈 소스 프로그래밍 언어 및 무료 소프트웨어 환경입니다. R 언어는 통계 관찰 및 데이터 분석을 개발하기 위해 데이터 과학의 통계학자들 사이에서 널리 사용됩니다.

이러한 접근 방식의 차이점에 대한 자세한 내용은 'Python과 R 비교: 차이점은 무엇인가?를 참조하세요.

분석을 통해 비즈니스 예측을 개선하기 위한 4단계

강력한 분석 기능과 비즈니스 인텔리전스를 활용하여 회사와 고객에게 가장 큰 이익이 되는 미래 성과를 계획, 예측 및 구체화하세요.

탐색적 데이터 분석(EDA)이란 무엇인가요?