O que é análise exploratória de dados (EDA)?

O que é EDA?

A análise exploratória de dados (EDA) é usada por cientistas de dados para analisar e investigar conjuntos de dados e resumir suas principais características, muitas vezes empregando métodos de visualização de dados.

A EDA ajuda a determinar a melhor maneira de manipular fontes de dados para obter as respostas necessárias, facilitando para os cientistas de dados descobrir padrões, identificar anomalias, testar uma hipótese ou verificar suposições.

A EDA é usada principalmente para ver o que os dados podem revelar além da modelagem formal ou tarefa de teste de hipóteses e proporciona uma melhor compreensão das variáveis do conjunto de dados e das relações entre elas. Também pode ajudar a determinar se as técnicas estatísticas que você está considerando para análise de dados são apropriadas. Originalmente desenvolvida pelo matemático americano John Tukey na década de 1970, as técnicas de EDA continuam sendo um método amplamente usado no processo de descoberta de dados hoje.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Por que a EDA é importante na ciência de dados?

O principal propósito da EDA é ajudar a olhar para os dados antes de fazer quaisquer suposições.Ele pode ajudar a identificar erros óbvios, bem como entender melhor os padrões nos dados, detectar valores discrepantes ou eventos anômalos, encontrar relações interessantes entre as variáveis.

Cientistas de dados podem usar a análise exploratória para garantir que os resultados que produzem sejam válidos e aplicáveis a quaisquer objetivos e resultados de negócio desejados. A EDA também ajuda os stakeholders ao confirmar se estão fazendo as perguntas certas. Ela pode ajudar a responder questões sobre desvios padrão, variáveis categóricas e intervalos de confiança. Uma vez concluída a EDA e extraídos os insights, suas características podem ser utilizadas em análises de dados mais sofisticadas ou em modelagem, incluindo aprendizado de máquina.

Mistura de Especialistas | Podcast

Decodificando a IA: resumo semanal das notícias

Junte-se a nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Ferramentas de EDA

Funções e técnicas estatísticas específicas que você pode realizar com ferramentas de EDA incluem:

  • Técnicas de clustering e redução de dimensão, que ajudam a criar apresentações gráficas de dados de alta dimensão contendo muitas variáveis.

  • Visualização univariada de cada campo no conjunto de dados brutos com estatísticas resumidas.

  • Visualizações bivariadas e estatísticas resumidas que permitem avaliar a relação entre cada variável no conjunto de dados e a variável de destino que se está analisando.

  • Visualizações multivariadas para mapear e entender interações entre diversos campos nos dados.

  • Clustering K-Means: é um método de clustering no aprendizado não supervisionado onde pontos de dados são atribuídos a grupos K, ou seja, o número de clusters, com base na distância do centroide de cada grupo. Os pontos de dados mais próximos de um determinado centroide serão agrupados na mesma categoria. O K-means Clustering é comumente utilizado na segmentação de mercado, no reconhecimento de padrões e na compactação de imagens.

  • Modelos preditivos, como regressão linear, usam estatísticas e dados para prever resultados.

Tipos de EDA:

Existem quatro tipos principais de EDA:

  • Univariada não gráfica
  • Univariada gráfica
  • Multivariada não gráfica
  • Multivariada gráfica

Univariada não gráfica

É a forma mais simples de análise de dados, onde os dados analisados consistem em apenas uma variável. Como é uma única variável, não lida com causas ou relações. O principal objetivo da análise univariada é descrever os dados e encontrar padrões que existam dentro deles.

Univariada gráfica

Os métodos não gráficos não fornecem uma visão completa dos dados. Por isso, métodos gráficos são necessários. Tipos comuns de gráficos univariados incluem:

  • Gráficos de caule e folhas, que mostram todos os valores de dados e a forma da distribuição.

  • Histogramas, gráfico de barras no qual cada barra representa a frequência (contagem) ou proporção (contagem/contagem total) de casos para uma faixa de valores.

  • Box plots, que representam graficamente o resumo de cinco números: mínimo, primeiro quartil, mediana, terceiro quartil e máximo.

Multivariado não gráfico

Dados multivariados surgem quando há mais de uma variável. As técnicas de EDA multivariada não gráficas geralmente mostram a relação entre duas ou mais variáveis dos dados por meio de tabelas cruzadas ou estatísticas.

Multivariada gráfica

Dados multivariados utilizam gráficos para exibir relações entre dois ou mais conjuntos de dados. O gráfico mais utilizado é o gráfico de barras agrupadas, em que cada grupo representa um nível de uma das variáveis e cada barra dentro do grupo representa os níveis da outra variável.

Outros tipos comuns de gráficos multivariados incluem:

  • Gráfico de dispersão, utilizado para plotar pontos de dados em um eixo horizontal e um eixo vertical para mostrar quanto uma variável é afetada por outra.

  • Gráfico multivariado, representação gráfica das relações entre fatores e uma resposta.

  • Gráfico de execução, gráfico de linha de dados plotados sobre o tempo.

  • Gráfico de bolhas, visualização de dados que exibe vários círculos (bolhas) em um gráfico bidimensional.

  • Mapa de calor, que é uma representação gráfica de dados onde os valores são representados por cores.

Linguagens de análise exploratória de dados

Algumas das linguagens de programação de ciência de dados mais comuns utilizadas para criar uma EDA incluem:

  • Python: linguagem de programação interpretada e baseada em objetos com semântica dinâmica. Suas estruturas de dados de alto nível embutidas, combinadas com tipagem e ligação dinâmicas, tornam Python muito atraente para desenvolvimento rápido de aplicações, bem como para uso como linguagem de script ou cola para conectar componentes existentes. Python e EDA podem ser usados juntos para identificar valores ausentes em um conjunto de dados, o que é importante para você decidir como lidar com valores ausentes para aprendizado de máquina.

  • R: uma linguagem de programação de código aberto e ambiente de software livre para computação estatística e gráficos suportados pela R Foundation for Statistical Computing. A linguagem R é amplamente utilizada entre estatísticos em ciência de dados no desenvolvimento de observações estatísticas e análise de dados.

Para aprofundar-se nas diferenças entre essas abordagens, consulte "Python vs. R: qual a diferença?"

Soluções relacionadas
IBM Project Ripasso

Compreenda o que aconteceu e por que, o que pode acontecer e o que você pode fazer a respeito. Com explicações claras e passo a passo de seu raciocínio, o Project Ripasso capacita todos os usuários corporativos com insights para a tomada de decisões confiáveis, na velocidade do pensamento.

Descubra o Project Ripasso
Ferramentas e soluções de análise de dados

Para prosperar, as empresas devem utilizar os dados para conquistar a fidelidade do cliente, automatizar processos de negócios e inovar com soluções orientadas por IA.

Explore soluções de análise de dados
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.

Conheça os serviços de análise de dados
Dê o próximo passo

Para prosperar, as empresas devem utilizar os dados para conquistar a fidelidade do cliente, automatizar processos de negócios e inovar com soluções orientadas por IA.

Explore soluções de análise de dados Descubra o IBM Project Ripasso