탐색적 데이터 분석(EDA)은 데이터 과학자가 데이터 세트를 분석 및 조사하고 주요 특성을 요약하는 데 사용하며, 종종 데이터 시각화 방법을 사용합니다.
EDA는 필요한 답변을 얻기 위해 데이터 소스를 가장 잘 조작하는 방법을 결정하는 데 도움이 되므로 데이터 과학자가 더 쉽게 패턴을 발견하고, 이상 징후를 발견하고, 가설을 테스트하고, 가정을 확인할 수 있습니다.
EDA는 주로 공식 모델링 또는 가설 테스트 작업 외에 데이터가 무엇을 드러낼 수 있는지 확인하는 데 사용되며 데이터 세트 변수와 이들 간의 관계를 더 잘 이해할 수 있도록 합니다. 또한 데이터 분석을 위해 고려 중인 통계 기법이 적절한지 판단하는 데도 도움을 줄 수 있습니다. 1970년대 미국 수학자 존 튜키(John Tukey)가 처음 개발한 EDA 기술은 오늘날에도 데이터 디스커버리 프로세스에서 널리 사용되는 방법입니다.
EDA의 주요 목적은 가정을 하기 전에 데이터를 살펴보는 데 도움을 주는 것입니다. 이는 명백한 오류를 식별하고, 데이터 내의 패턴을 더 잘 이해하고, 이상값이나 비정상적인 이벤트를 감지하고, 변수 간의 흥미로운 관계를 찾는 데 도움이 될 수 있습니다.
데이터 과학자는 탐색적 분석을 사용하여 생성한 결과가 유효하고 원하는 비즈니스 결과 및 목표에 적용 가능한지 확인할 수 있습니다. EDA는 또한 이해관계자가 올바른 질문을 하고 있는지 확인하여 도움을 줍니다. EDA는 표준 편차, 범주형 변수 및 신뢰 구간에 대한 질문에 답하는 데 도움이 될 수 있습니다. EDA가 완료되고 인사이트가 도출되면 EDA의 기능을 사용하여 머신 러닝을 포함한 보다 정교한 데이터 분석 또는 모델링을 수행할 수 있습니다.
EDA 도구로 수행할 수 있는 특정 통계 기능 및 기법은 다음과 같습니다.
EDA에는 네 가지 기본 유형이 있습니다.
이는 분석되는 데이터가 단 하나의 변수로 구성되는 가장 간단한 형태의 데이터 분석입니다. 단일 변수이기 때문에 원인이나 관계를 다루지 않습니다. 단변량 분석의 주요 목적은 데이터를 설명하고 그 안에 존재하는 패턴을 찾는 것입니다.
비그래픽 방법은 데이터에 대한 전체 그림을 제공하지 못합니다. 따라서 그래픽 방식이 필요합니다. 일변량 그래픽의 일반적인 유형은 다음과 같습니다.
다변량 데이터는 둘 이상의 변수에서 발생합니다. 다변량 비그래픽 EDA 기법은 일반적으로 교차표 또는 통계를 통해 데이터의 두 개 이상의 변수 간의 관계를 보여줍니다.
다변량 데이터는 그래픽을 사용하여 둘 이상의 데이터 집합 간의 관계를 표시합니다. 가장 많이 사용되는 그래픽은 그룹화된 막대 그림 또는 막대 차트로, 각 그룹은 변수 중 하나의 한 수준을 나타내고 그룹 내의 각 막대는 다른 변수의 수준을 나타냅니다.
다변량 그래픽의 다른 일반적인 유형은 다음과 같습니다.
EDA를 만드는 데 가장 일반적으로 사용되는 데이터 과학 프로그래밍 언어는 다음과 같습니다.
이러한 접근 방식의 차이점에 대한 자세한 내용은 'Python과 R 비교: 차이점은 무엇인가?를 참조하세요.
진화하는 ABI 솔루션 환경에 대한 고유한 인사이트를 제공하고 데이터 및 분석 리더를 위한 주요 결과, 가정 및 권장 사항을 강조합니다.
데이터 리더가 데이터 기반 조직을 구축하고 비즈니스 우위를 확보하는 방법을 살펴보세요.
데이터 접근을 간소화하고 데이터 거버넌스를 자동화하세요. 어디서나 모든 데이터를 사용하여 워크로드 비용 최적화, AI 및 분석 확장을 포함하여 데이터 레이크하우스 전략을 데이터 아키텍처에 통합하는 방법을 알아보세요.
North York General Hospital이 데이터 기반 인사이트를 사용하여 치료를 개선하고 자금을 확보하는 방법을 알아보세요.
무슨 일이 일어났고 왜 일어났는지, 무슨 일이 일어날 수 있는지, 이에 대해 무엇을 할 수 있는지 이해합니다. 추론에 대한 명확한 단계별 설명을 제공하는 Project Ripasso는 모든 비즈니스 사용자들에게 인사이트를 제공하여 자신감 있게 아주 신속한 의사 결정을 내릴 수 있도록 합니다.
기업이 성공하려면 데이터를 활용하여 고객 충성도를 높이고 비즈니스 프로세스를 자동화하며 AI 기반 솔루션으로 혁신을 이루어야 합니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.