¿Qué es el análisis exploratorio de datos?

Conozca todo lo que necesita saber sobre el análisis exploratorio de datos, un método utilizado para analizar y sintetizar conjuntos de datos.

Los científicos de datos utilizan el análisis exploratorio de datos (EDA) para analizar e investigar conjuntos de datos y resumir sus características principales, a menudo empleando métodos de visualización de datos. Ayuda a determinar la mejor manera de gestionar las fuentes de datos para obtener las respuestas que necesita, lo que facilita que los científicos de datos descubran patrones, detecten anomalías, prueben una hipótesis o verifiquen suposiciones.

EDA se utiliza principalmente para ver qué pueden revelar los datos más allá del modelado formal o tarea de prueba de hipótesis y proporciona una mejor comprensión de las variables del conjunto de datos y las relaciones entre ellas. También puede ayudar a determinar si las técnicas estadísticas que está considerando para el análisis de datos son apropiadas. Desarrolladas originalmente por el matemático estadounidense John Tukey en la década de 1970, las técnicas EDA continúan siendo un método ampliamente utilizado en el proceso de descubrimiento de datos en la actualidad.

¿Por qué es importante el análisis exploratorio de datos en la ciencia de datos?

El objetivo principal del EDA es ayudar a analizar los datos antes de hacer suposiciones. Puede ayudar a identificar errores obvios, así como a comprender mejor los patrones dentro de los datos, detectar valores atípicos o eventos anómalos y encontrar relaciones interesantes entre las variables.

Los científicos de datos pueden utilizar el análisis exploratorio para garantizar que los resultados que producen sean válidos y aplicables a los resultados y objetivos de negocio deseados. EDA también ayuda a los stakeholders mediante la confirmación de que están haciendo las preguntas correctas. El EDA puede ayudar a responder preguntas sobre desviaciones estándar, variables categóricas e intervalos de confianza. Una vez que el EDA está completo y se obtienen los insights, sus características se pueden usar para un análisis o modelado de datos más sofisticado, incluyendo el machine learning.

Herramientas de análisis exploratorio de datos

Las funciones y técnicas estadísticas específicas que puede realizar con las herramientas de EDA incluyen:

Técnicas de agrupación y reducción de dimensiones, que ayudan a crear visualizaciones gráficas de datos de alta dimensión que contienen muchas variables.
Visualización univariante de cada campo en el conjunto de datos sin procesar, con estadísticas de resumen.
Visualizaciones bivariable y estadísticas de resumen que le permiten evaluar la relación entre cada variable en el conjunto de datos y la variable de destino que está viendo.
Visualizaciones multivariable, para mapear y comprender interacciones entre diferentes campos en los datos.
La agrupación en clústeres de K-medias (K-means clustering en inglés) es un método de agrupación en aprendizaje sin supervisión en el que los puntos de datos se asignan en K grupos, es decir, el número de clústeres, en función de la distancia desde el centroide de cada grupo. Los puntos de datos más cercanos a un centroide específico se agruparán en clústeres en la misma categoría. La agrupación en clústeres de K-medias se utiliza comúnmente en la segmentación del mercado, el reconocimiento de patrones y la compresión de imágenes.
Los modelos predictivos, como la regresión lineal, utilizan estadísticas y datos para prever resultados.

Tipos de análisis exploratorios de datos

Hay cuatro tipos principales de EDA:

Univariante no gráfico. Esta es la forma más simple de análisis de datos, donde los datos que se analizan constan de una sola variable. Dado que es una sola variable, no se ocupa de causas o relaciones. El propósito principal del análisis univariante es describir los datos y encontrar patrones que existen dentro de ellos.
Univariante gráfico. Los métodos no gráficos no proporcionan una imagen completa de los datos. Por tanto, se requieren métodos gráficos. Los tipos comunes de gráficos univariantes incluyen:
- Diagramas de tallos y hojas, que muestran todos los valores de los datos y la forma de la distribución.
- Histogramas, un diagrama de barras en el que cada barra representa la frecuencia (recuento) o proporción (recuento/recuento total) de casos para un rango de valores.
- Diagramas de caja, que representan gráficamente el resumen de cinco números de mínimo, primer cuartil, mediana, tercer cuartil y máximo.
No gráfico multivariante: los datos multivariantes surgen de más de una variable. Las técnicas del EDA no gráfico multivariante generalmente muestran la relación entre dos o más variables de los datos a través de tabulaciones cruzadas o estadísticas.
Gráfico multivariante: los datos multivariantes utilizan gráficos para mostrar las relaciones entre dos o más conjuntos de datos. El gráfico más utilizado es un gráfico de barras agrupadas o un gráfico de barras en el que cada grupo representa un nivel de una de las variables y cada barra dentro de un grupo representa los niveles de la otra variable.

Otros tipos comunes de gráficos multivariantes incluyen:

Diagrama de dispersión, que se utiliza para trazar puntos de datos en un eje horizontal y vertical para mostrar cuánto se ve afectada una variable por otra.
Gráfico multivariante, que es una representación gráfica de las relaciones entre factores y una respuesta.
Gráfico de ejecución, que es un gráfico de líneas de datos trazados a lo largo del tiempo.
Gráfico de burbujas, que es una visualización de datos que muestra varios círculos (burbujas) en un gráfico bidimensional.
Mapa de calor, que es una representación gráfica de datos donde los valores se representan por color.

Herramientas de análisis exploratorio de datos

Algunas de las herramientas de ciencia de datos más comunes que se utilizan para crear un EDA incluyen:

Python: un lenguaje de programación interpretado y orientado a objetos con semántica dinámica. Sus estructuras de datos integradas de alto nivel, combinadas con la escritura dinámica y el enlace dinámico, lo hacen muy atractivo para el desarrollo rápido de aplicaciones, así como para su uso como lenguaje de scripts o pegamento para conectar componentes existentes. Python y EDA se pueden usar juntos para identificar los valores perdidos en un conjunto de datos, lo cual es importante para que pueda decidir cómo gestionar los valores perdidos para el machine learning.
R: un lenguaje de programación de código abierto y un entorno de software gratuito para la computación estadística y los gráficos, con soporte de la R Foundation for Statistical Computing. El lenguaje R es muy utilizado entre los estadísticos en ciencia de datos para desarrollar observaciones estadísticas y análisis de datos.

Para profundizar en las diferencias entre estos enfoques, consulte "Python frente a R: ¿cuál es la diferencia?"

Soluciones relacionadas

IBM® Watson Studio

Utilice IBM® Watson Studio para determinar si las técnicas estadísticas que está considerando para el análisis de datos son adecuadas.

Explore IBM® Watson Studio hoy

Dé el siguiente paso

IBM® Watson Studio proporciona una interfaz para que los analistas y científicos de datos profundicen en sus conjuntos de datos. Esto les ayuda a proporcionar información resumida a sus stakeholders y también les permite evaluar si los conjuntos de datos están lo suficientemente equilibrados como para crear modelos significativos.

Explore IBM® Watson Studio hoy