데이터 세트의 분석과 요약에 사용되는 방법인 탐색형 데이터 분석에 대해 알아야 할 모든 사항들을 살펴봅니다.
탐색형 데이터 분석(EDA)은 데이터 사이언티스트가 종종 데이터 시각화 방법을 사용하여 데이터 세트를 분석 및 조사하고 이의 주요 특징을 요약하는 데 사용합니다. 이는 데이터 소스를 조작하여 필요한 응답을 얻을 수 있는 최상의 방법을 결정할 수 있도록 지원함으로써, 데이터 사이언티스트가 보다 손쉽게 패턴을 발견하고 이상 항목을 감지하며 가설을 검증하거나 가정을 확인할 수 있도록 도와줍니다.
EDA는 주로 공식적 모델링이나 가설 검증 태스크를 넘어서 데이터가 무엇을 드러낼 수 있는지를 확인하는 데 사용되며, 데이터 세트 변수와 이들 간의 관계를 보다 잘 파악할 수 있도록 지원합니다. 이는 또한 데이터 분석을 위해 고려 중인 통계 기술이 적절한지 여부를 판별하는 데도 도움이 될 수 있습니다. 1970년대에 미국인 수학자인 John Tukey에 의해 최초 개발된 EDA 기법은 오늘날 데이터 검색 프로세스에서 지속적으로 널리 사용되고 있는 방법입니다.
EDA의 주요 목적은 어떤 가정을 하기 전에 데이터를 살펴볼 수 있도록 지원하는 것입니다. 이는 명백한 오류를 식별함은 물론, 데이터 내의 패턴을 보다 잘 파악하고, 이상값 또는 이례적 이벤트를 감지하며, 변수들 간에 흥미로운 관계를 찾을 수 있도록 지원합니다.
데이터 사이언티스트들은 탐색형 분석을 사용하여 자신이 생성한 결과가 유효하며 원하는 비즈니스 결과와 목표에 적용 가능하도록 보장합니다. EDA는 또한 이해 당사자들이 올바른 질문을 하고 있는지를 확인함으로써 이들을 지원합니다. EDA는 표준 편차, 범주형 변수 및 신뢰 구간에 대한 질문에 답변할 수 있도록 도와줍니다. 일단 EDA가 완료되고 인사이트가 추출되면, 해당 기능은 머신 러닝을 포함한 보다 정교한 데이터 분석이나 모델링에 사용될 수 있습니다.
EDA 툴을 사용하여 수행할 수 있는 특정 통계 기능과 기법은 다음과 같습니다.
네 가지의 기본 EDA 유형이 있습니다.
다변량 그래픽의 기타 일반적인 유형은 다음과 같습니다.
EDA 생성에 사용되는 가장 일반적인 데이터 사이언스 툴 중 일부는 다음과 같습니다.
이러한 접근 방식의 차이점에 대해 자세히 알아보려면 "Python과 R: 차이점은 무엇인가?"를 참조하세요.
IBM® Watson Studio를 사용하여 귀하가 데이터 분석에 고려 중인 통계 기법이 적절한지 결정해 보세요.