A análise exploratória de dados (EDA) é usada por cientistas de dados para analisar e investigar conjuntos de dados e resumir suas principais características, muitas vezes empregando métodos de visualização de dados.
A EDA ajuda a determinar a melhor maneira de manipular fontes de dados para obter as respostas necessárias, facilitando para os cientistas de dados descobrir padrões, identificar anomalias, testar uma hipótese ou verificar suposições.
A EDA é usada principalmente para ver o que os dados podem revelar além da modelagem formal ou tarefa de teste de hipóteses e proporciona uma melhor compreensão das variáveis do conjunto de dados e das relações entre elas. Também pode ajudar a determinar se as técnicas estatísticas que você está considerando para análise de dados são apropriadas. Originalmente desenvolvida pelo matemático americano John Tukey na década de 1970, as técnicas de EDA continuam sendo um método amplamente usado no processo de descoberta de dados hoje.
Saiba como aproveitar os bancos de dados adequados para aplicações, análises e IA generativa.
Registre-se para receber o ebook sobre IA generativa
O principal propósito da EDA é ajudar a olhar para os dados antes de fazer quaisquer suposições.Ele pode ajudar a identificar erros óbvios, bem como entender melhor os padrões nos dados, detectar valores discrepantes ou eventos anômalos, encontrar relações interessantes entre as variáveis.
Os cientistas de dados podem usar a análise exploratória para garantir que os resultados que produzem são válidos e aplicáveis aos resultados e objetivos de negócios desejados. A EDA também ajuda os stakeholders confirmando se estão fazendo as perguntas certas. A EDA pode ajudar a responder perguntas sobre desvios padrões, variáveis categóricas e intervalos de confiança. Uma vez que a EDA é concluída e os insights são obtidos, suas características podem então ser usadas para uma análise de dados mais sofisticada ou modelagem, incluindo aprendizado de máquina.
Funções e técnicas estatísticas específicas que você pode realizar com ferramentas de EDA incluem:
Existem quatro tipos principais de EDA:
Outros tipos comuns de gráficos multivariados incluem:
Algumas das ferramentas de ciência de dados mais comuns usadas para criar uma EDA incluem:
Para um aprofundamento nas diferenças entre essas abordagens, confira "Python vs. R: Qual a diferença?"
Use o IBM Watson Studio para determinar se as técnicas estatísticas que você está considerando para análise de dados são apropriadas.
Entenda a importância e a função da EDA, bem como das técnicas de visualização de dados, na identificação de problemas de qualidade e na preparação de dados, essenciais para a construção de pipelines de ML.
Aprenda técnicas comuns para recuperar seus dados, limpá-los, aplicar engenharia de recursos e prepará-los para análise preliminar e teste de hipóteses.