O que é análise exploratória de dados (EDA)?
Explore a solução de EDA da IBM Inscreva-se para receber atualizações de IA
Ilustração com colagem de pictogramas de nuvens, gráfico de pizza, pictogramas de gráfico no seguinte
O que é EDA?

A análise exploratória de dados (EDA) é usada por cientistas de dados para analisar e investigar conjuntos de dados e resumir suas principais características, muitas vezes empregando métodos de visualização de dados.

A EDA ajuda a determinar a melhor maneira de manipular fontes de dados para obter as respostas necessárias, facilitando para os cientistas de dados descobrir padrões, identificar anomalias, testar uma hipótese ou verificar suposições.

A EDA é usada principalmente para ver o que os dados podem revelar além da modelagem formal ou tarefa de teste de hipóteses e proporciona uma melhor compreensão das variáveis do conjunto de dados e das relações entre elas. Também pode ajudar a determinar se as técnicas estatísticas que você está considerando para análise de dados são apropriadas. Originalmente desenvolvida pelo matemático americano John Tukey na década de 1970, as técnicas de EDA continuam sendo um método amplamente usado no processo de descoberta de dados hoje.

Guia do líder de dados

Saiba como aproveitar os bancos de dados adequados para aplicações, análises e IA generativa.

Conteúdo relacionado

Registre-se para receber o ebook sobre IA generativa

Por que a análise exploratória de dados é importante na ciência de dados?

O principal propósito da EDA é ajudar a olhar para os dados antes de fazer quaisquer suposições.Ele pode ajudar a identificar erros óbvios, bem como entender melhor os padrões nos dados, detectar valores discrepantes ou eventos anômalos, encontrar relações interessantes entre as variáveis.

Os cientistas de dados podem usar a análise exploratória para garantir que os resultados que produzem são válidos e aplicáveis aos resultados e objetivos de negócios desejados. A EDA também ajuda os stakeholders confirmando se estão fazendo as perguntas certas. A EDA pode ajudar a responder perguntas sobre desvios padrões, variáveis categóricas e intervalos de confiança. Uma vez que a EDA é concluída e os insights são obtidos, suas características podem então ser usadas para uma análise de dados mais sofisticada ou modelagem, incluindo aprendizado de máquina.

Ferramentas de análise exploratória de dados

Funções e técnicas estatísticas específicas que você pode realizar com ferramentas de EDA incluem:

  • Técnicas de clustering e redução de dimensão, que ajudam a criar exibições gráficas de dados de alta dimensão contendo muitas variáveis.
  • Visualização univariada de cada campo no conjunto de dados brutos, com estatísticas resumidas.
  • Visualizações bivariadas e estatísticas resumidas que permitem avaliar a relação entre cada variável no conjunto de dados e a variável alvo que você está analisando.
  • Visualizações multivariadas, para mapear e entender interações entre diferentes campos nos dados.
  • O Clustering K-Means: é um método de clustering em aprendizado não supervisionado onde pontos de dados são atribuídos a grupos K, ou seja, o número de clusters, com base na distância do centróide de cada grupo. Os pontos de dados mais próximos de um determinado centróide serão agrupados na mesma categoria. O K-means Clustering é comumente usado na segmentação de mercado, no reconhecimento de padrões e na compactação de imagens.
  • Modelos preditivos, como regressão linear, usam estatísticas e dados para prever resultados.
Tipos de análise exploratória de dados

Existem quatro tipos principais de EDA:

  • Univariada não gráfica. Esta é a forma mais simples de análise de dados, onde os dados analisados consistem em apenas uma variável. Como é uma única variável, não lida com causas ou relações. O principal objetivo da análise univariada é descrever os dados e encontrar padrões que existam dentro deles.
  • Univariada gráfica. Métodos não gráficos não fornecem uma imagem completa dos dados. Portanto, métodos gráficos são necessários. Os tipos comuns de gráficos univariados incluem:
    • Gráficos de caule e folhas, que mostram todos os valores de dados e a forma da distribuição.
    • Histogramas, um gráfico de barras no qual cada barra representa a frequência (contagem) ou proporção (contagem/contagem total) de casos para uma faixa de valores.
    • Box plots, que representam graficamente o resumo de cinco números: mínimo, primeiro quartil, mediana, terceiro quartil e máximo.
  • Multivariada não gráfica: dados multivariados surgem de mais de uma variável. Técnicas de EDA não gráficas multivariadas geralmente mostram a relação entre duas ou mais variáveis dos dados por meio de cruzamento de tabelas ou estatísticas.
  • Multivariada gráfica: os dados multivariados usam gráficos para exibir relações entre dois ou mais conjuntos de dados. O gráfico mais usado é um gráfico de barras agrupadas ou gráfico de barras com cada grupo representando um nível de uma das variáveis e cada barra dentro de um grupo representando os níveis da outra variável.

Outros tipos comuns de gráficos multivariados incluem:

  • Gráfico de dispersão, que é usado para plotar pontos de dados em um eixo horizontal e um eixo vertical para mostrar quanto uma variável é afetada por outra.
  • Gráfico multivariado, que é uma representação gráfica das relações entre fatores e uma resposta.
  • Gráfico de execução, que é um gráfico de linha de dados plotados ao longo do tempo.
  • Gráfico de bolhas, que é uma visualização de dados que exibe vários círculos (bolhas) em um gráfico bidimensional.
  • Mapa de calor, que é uma representação gráfica de dados onde os valores são representados por cores.
Ferramentas de análise de dados exploratória

Algumas das ferramentas de ciência de dados mais comuns usadas para criar uma EDA incluem:

  • Python: uma linguagem de programação interpretada e orientada a objetos com semântica dinâmica. Suas estruturas de dados de alto nível embutidas, combinadas com tipagem e ligação dinâmicas, tornam Python muito atraente para desenvolvimento rápido de aplicações, bem como para uso como uma linguagem de script ou cola para conectar componentes existentes. Python e EDA podem ser usados juntos para identificar valores ausentes em um conjunto de dados, o que é importante para que você possa decidir como lidar com valores ausentes para aprendizado de máquina.
  • R: uma linguagem de programação de código aberto e ambiente de software livre para computação estatística e gráficos suportados pela R Foundation for Statistical Computing. A linguagem R é amplamente utilizada entre estatísticos em ciência de dados no desenvolvimento de observações estatísticas e análise de dados.

Para um aprofundamento nas diferenças entre essas abordagens, confira "Python vs. R: Qual a diferença?"

Soluções relacionadas
IBM Watson Studio

Use o IBM Watson Studio para determinar se as técnicas estatísticas que você está considerando para análise de dados são apropriadas.

Explore o IBM Watson Studio hoje mesmo
Recursos Avanços em análise exploratória de dados, visualização e qualidade para sistemas de IA centrados em dados

Entenda a importância e a função da EDA, bem como das técnicas de visualização de dados, na identificação de problemas de qualidade e na preparação de dados, essenciais para a construção de pipelines de ML.

Análise exploratória de dados para aprendizado de máquina

Aprenda técnicas comuns para recuperar seus dados, limpá-los, aplicar engenharia de recursos e prepará-los para análise preliminar e teste de hipóteses.

Dê o próximo passo

Treine, valide, ajuste e implemente IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de próxima geração para construtores de IA. Crie aplicações de IA em menos tempo com menos dados.

Explore o watsonx.ai Agende uma demonstração em tempo real