Análisis exploratorio de datos

menu icon

Análisis exploratorio de datos

Aprenda todo lo que necesita saber acerca del análisis exploratorio de datos, un método utilizado para analizar y resumir conjuntos de datos.

¿Qué es análisis exploratorio de datos?

Los científicos de datos utilizan el análisis exploratorio de datos (EDA) para analizar e investigar conjuntos de datos y resumir sus principales características, a menudo empleando métodos de visualización de datos. Ayuda a determinar la mejor manera de manipular las fuentes de datos para obtener las respuestas que necesita, lo que facilita a los científicos de datos descubrir patrones, detectar anomalías, probar una hipótesis o comprobar supuestos.

El EDA se usa principalmente para ver qué pueden revelar los datos más allá de la tarea formal de modelado o de prueba de hipótesis y proporciona una mejor comprensión de las variables del conjunto de datos y las relaciones entre ellas. También puede ayudar a determinar si las técnicas estadísticas que está implementando para el análisis de datos son apropiadas. Desarrollado originalmente por el matemático estadounidense John Tukey en los 70, las técnicas de EDA siguen siendo un método ampliamente utilizado en el proceso de descubrimiento de datos hoy en día.

¿Por qué es importante el análisis exploratorio de datos en la ciencia de datos?

El propósito principal del EDA es ayudar a estudiar los datos antes de hacer cualquier supuesto. Puede ayudar a identificar errores obvios, así como comprender mejor los patrones dentro de los datos, detectar valores atípicos o eventos anómalos, y encontrar relaciones interesantes entre las variables.

Los científicos de datos pueden utilizar un análisis exploratorio para garantizar que los resultados que producen son válidos y aplicables a los resultados y objetivos empresariales deseados. El EDA también ayuda a los stakeholders al confirmar que están haciendo las preguntas correctas. El EDA puede ayudar a responder preguntas acerca de desviaciones estándar, variables categóricas e intervalos de confianza. Una vez que el EDA se haya completado y se hayan extraído insights, sus resultados se pueden utilizar para un análisis o modelado de datos más sofisticado, incluyendo machine learning.

Herramientas de análisis exploratorio de datos

Las funciones y técnicas estadísticas específicas que puede realizar con las herramientas de EDA incluyen:

  • Técnicas de agrupación en clúster y reducción de dimensiones que ayudan a crear visualizaciones gráficas de datos de alta dimensión que contienen muchas variables.
  • Visualización univariante de cada campo en el conjunto de datos sin formato, con estadísticas de resumen.
  • Visualizaciones bivariantes y estadísticas de resumen que le permiten evaluar la relación entre cada variable del conjunto de datos y la variable de destino que desea.
  • Visualizaciones multivariantes para correlacionar y comprender interacciones entre diferentes campos en los datos.
  • Agrupación K-means (K-medias en español), un método de agrupación en clúster en aprendizaje no supervisado donde los puntos de datos se asignan a grupos K, es decir, el número de clústeres, basándose en la distancia del centroide de cada grupo. Los puntos de datos más próximos a un centroide determinado se agruparán en la misma categoría. La agrupación K-means se utiliza habitualmente en la segmentación del mercado, el reconocimiento de patrones y la compresión de imágenes.
  • Los modelos predictivos como, por ejemplo, la regresión lineal, utilizan estadísticas y datos para predecir los resultados.

Tipos de análisis exploratorio de datos

Hay cuatro tipos principales de EDA:

  • No gráfico univariante. Esta es la forma más simple de análisis de datos, donde los datos que se analizan consisten en una sola variable. Ya que es una sola variable, no se ocupa de las causas o relaciones. El objetivo principal del análisis univariante es describir los datos e identificar los patrones que existen en ellos.
  • Gráfico univariante. Los métodos no gráficos no proporcionan una imagen completa de los datos. Por lo tanto, se requieren métodos gráficos. Los tipos comunes de gráficos univariantes incluyen:
    • Diagramas de tallo y hojas, que muestran todos los valores de datos y la forma de la distribución.
    • Histogramas, diagramas de barras en los que cada barra representa la frecuencia (recuento) o la proporción (recuento/recuento total) de casos para un rango de valores.
    • Diagramas de caja, que representan gráficamente el resumen de cinco números de mínimo, primer cuartil, mediana, tercer cuartil y máximo.
  • No gráfico multivariante: se obtienen datos multivariantes de más de una variable. Las técnicas de EDA no gráficas y multivariantes generalmente muestran la relación entre dos o más variables de los datos a través de la tabulación cruzada o las estadísticas.
  • Gráfico multivariante: los datos multivariantes utilizan gráficos para mostrar relaciones entre dos o más conjuntos de datos. El gráfico más utilizado es un diagrama de barras agrupadas o un gráfico de barras donde cada grupo representa un nivel de una de las variables y cada barra dentro de un grupo representa los niveles de la otra variable.

Otros tipos comunes de gráficos multivariantes incluyen:

  • Diagrama de dispersión, que se utiliza para graficar puntos de datos en un eje horizontal y uno vertical para mostrar cuánto afecta una variable a otra.
  • Gráfico multivariante, que es una representación gráfica de las relaciones entre los factores y una respuesta.
  • Diagrama de comportamiento, que es un gráfico de líneas de datos a lo largo del tiempo.
  • Gráfico de burbujas, que es una visualización de datos que muestra varios círculos (burbujas) en un gráfico de dos dimensiones.
  • Mapa de calor, que es una representación gráfica de datos donde los valores se representan por color.

Herramientas de análisis exploratorio de datos

Algunas de las herramientas de ciencia de datos más comunes utilizadas para crear un EDA son:

  • Python: un lenguaje de programación interpretado y orientado a objetos con semántica dinámica. Sus estructuras de datos integradas de alto nivel, combinadas con la escritura dinámica y el enlace dinámico, lo hacen muy atractivo para el desarrollo rápido de aplicaciones, así como para su uso como lenguaje de scripts o "pegamento" para conectar los componentes existentes entre sí. Python y EDA se pueden utilizar conjuntamente para identificar valores perdidos en un conjunto de datos, lo que es importante para poder decidir cómo gestionar los valores perdidos para el machine learning.
  • R: un lenguaje de programación de código abierto y un entorno de software libre para la estadística informática y los gráficos admitidos por R Foundation for Statistical Computing. El lenguaje R es ampliamente utilizado entre los estadísticos de la ciencia de datos para el desarrollo de observaciones estadísticas y análisis de datos.

Para obtener más información acerca de las diferencias entre estos enfoques, vea "Python vs. R: ¿Cuál es la diferencia?"

Análisis exploratorio de datos e IBM

El procedimiento de exploración de IBM proporciona una variedad de resúmenes visuales y numéricos de datos, ya sea para todos los casos o por separado (grupos de casos). La variable dependiente debe ser una variable de escala, mientras que las variables de agrupación pueden ser ordinales o nominales.

Utilizando el procedimiento de exploración de IBM, puede:

  • Visualizar datos
  • Identificar valores atípicos
  • Comprobar supuestos
  • Caracterizar las diferencias entre grupos de casos

Conozca más acerca del procedimiento de exploración de IBM aquí. Para obtener más información acerca del análisis exploratorio de datos, regístrese para obtener una identificación de IBM (IBMid) y cree su cuenta de IBM Cloud