Análise exploratória de dados

menu icon

Análise exploratória de dados

Descubra tudo o que você precisa saber sobre análise exploratória de dados, um método usado para analisar e resumir conjuntos de dados.

O que é a análise exploratória de dados?

A análise exploratória de dados (EDA) é usada por cientistas de dados para analisar e investigar conjuntos de dados e resumir suas principais características, muitas vezes usando métodos de visualização de dados. Ela permite determinar a melhor forma de controlar as fontes de dados para obter as respostas que você precisa, tornando mais fácil para os cientistas de dados descobrir padrões, detectar anomalias, testar uma hipótese ou verificar suposições.

A EDA é usada principalmente para identificar o que os dados podem revelar além da tarefa formal de modelagem ou teste de hipótese e proporciona uma melhor compreensão das variáveis do conjunto de dados e as relações entre eles. Ela também pode determinar se as técnicas estatísticas que você está considerando na análise de dados são adequadas. Originalmente desenvolvidas pelo matemático norte-americano John Tukey na década de 1970, as técnicas de EDA continuam a ser um método amplamente utilizado atualmente no processo de descoberta de dados.

Por que a análise exploratória de dados é importante para a ciência de dados?

O objetivo principal da EDA é ajudar a analisar dados antes de fazer qualquer suposição.Ela pode ajudar na identificação de erros óbvios e entender melhor os padrões presentes dos dados, detectar desvios ou eventos anômalos, além de encontrar relações interessantes entre as variáveis.

Os cientistas de dados podem usar a análise exploratória para assegurar que os resultados produzidos sejam válidos e aplicáveis a quaisquer resultados e metas de negócios desejados. A EDA também ajuda as partes interessadas através da confirmação de que estão fazendo as perguntas certas. Ela pode ajudar a responder perguntas sobre desvios padrão, variáveis categóricas e intervalos de confiança. Uma vez que a EDA estiver completa e os insights estejam definidos, seus recursos podem então ser usados para modelagem ou análise de dados mais sofisticada, incluindo machine learning.

Ferramentas de análise exploratória de dados

As funções estatísticas específicas e técnicas que você pode executar com ferramentas da EDA incluem:

  • Técnicas de armazenamento em cluster e de redução de dimensão, que ajudam a criar exibições gráficas de dados de alta dimensão contendo muitas variáveis.
  • Visualização univariada de cada campo no conjunto de dados bruto, com estatísticas resumidas.
  • Visualizações bivariadas e as estatísticas de resumo que permitem avaliar a relação entre cada variável no conjunto de dados e a variável de destino você está observando.
  • Visualizações multivariadas, para mapeamento e compreensão de interações entre diferentes campos nos dados.
  • O armazenamento em cluster de k-médias é um método de armazenamento de aprendizagem não supervisionada em que os pontos de dados são atribuídos em grupos K, ou seja, o número de clusters, com base na distância da centroide de cada grupo. Os pontos de dados mais próximos de um determinado centroide serão agrupados sob a mesma categoria. O armazenamento em cluster de k-médias é usado com maior frequência para segmentação de mercado, reconhecimento de padrões e compactação de imagem.
  • Os modelos preditivos, como regressão linear, utilizam estatísticas e dados para prever resultados.

Tipos de análise exploratória de dados

Há quatro tipos primários de EDA:

  • Univariada sem gráficos. Esta é uma forma mais simples de análise de dados, em que os dados que estão sendo analisados consistem em apenas uma variável. Como é uma única variável, ela não lida com causas ou relacionamentos. O principal objetivo da análise univariada é descrever os dados e encontrar padrões que existem dentro dela.
  • Univariada com gráficos. Os métodos não gráficos não fornecem uma imagem completa dos dados. Os métodos gráficos são, portanto, necessários. Tipos comuns de gráficos univariados incluem:
    • As tabelas cruzadas, que mostram todos os valores de dados e a forma da distribuição.
    • Histogramas, que são gráficos de colunas em que cada coluna representa a frequência (contagem) ou proporção (contagem/contagem total) de casos para um intervalo de valores.
    • Diagramas de caixa, que retratam graficamente o resumo dos cinco números, do mínimo, primeiro quartil, mediana, terceiro quartil e máximo.
  • Multivariada sem gráficos: Dados multivariados são extraídos de mais de uma variável. As técnicas de EDA multivariadas sem gráficos geralmente mostram a relação entre duas ou mais variáveis dos dados por meio de tabulação cruzada ou estatística.
  • Multivariada com gráficos: Dados multivariados usam gráficos para exibir relações entre dois ou mais conjuntos de dados. O gráfico mais utilizado é o gráfico de colunas agrupadas ou diagrama de colunas com cada grupo representando um nível de uma das variáveis e cada coluna dentro de um grupo que representa os níveis da outra variável.

Outros tipos comuns de gráficos multivariados incluem:

  • O gráfico de dispersão, que é usado para traçar pontos de dados sobre uma horizontal e um eixo vertical para mostrar o quanto uma variável é afetada por outra.
  • Gráfico de análise multivariada, que é uma representação gráfica das relações entre fatores e uma resposta.
  • Execute o gráfico, que é um gráfico de linha de dados plotados ao longo do tempo.
  • Gráfico de bolhas, que é uma visualização de dados que exibe diversos círculos (bolhas) em uma trama bidimensional.
  • Mapa de calor, que é uma representação gráfica de dados em que os valores são retratados por cores.

Ferramentas de análise exploratória de dados

Algumas das ferramentas de ciência de dados mais comuns usadas para criar uma EDA incluem:

  • Python: uma linguagem de programação interpretada, orientada a objetos, com semântica dinâmica. Suas estruturas de dados integradas e de alto nível, combinadas com tipagem dinâmica e ligação dinâmica, são muito úteis para o desenvolvimento rápido de aplicativos, bem como para uso como linguagem de script ou adesiva para conectar componentes existentes. O Python e a EDA podem ser usados juntos para identificar valores ausentes em um conjunto de dados, o que pode ajudar você a decidir como lidar com valores ausentes no machine learning.
  • R: uma linguagem de programação de código aberto e ambiente de software livre para computação estatística e gráficos apoiados pela R Foundation for Statistical Computing.A linguagem R é amplamente utilizada entre os profissionais de estatística que trabalham com ciência de dados no desenvolvimento de observações estatísticas e análise de dados.

Para saber mais sobre a diferença entre essas abordagens, confira "Python vs. R: What's the Difference?"

Análise exploratória de dados e a IBM

O procedimento de exploração da IBM fornece uma variedade de resumos visuais e numéricos de dados, seja para todos os casos ou separadamente para grupos de casos. A variável dependente deve ser uma variável de escala, enquanto que as variáveis de agrupamento podem ser ordinais ou nominais.

Com o procedimento de exploração da IBM, você pode:

  • Exibir dados
  • Identificar desvios
  • Verificar hipóteses
  • Caracterizar diferenças entre grupos de casos

Saiba mais sobre o procedimento de descoberta da IBM aqui. Para obter informações adicionais sobre a Análise exploratória de dados, inscreva-se para obter um IBMid e crie sua conta da IBM Cloud