¿Qué es el análisis exploratorio de datos?

¿Qué es EDA?

El análisis exploratorio de datos (EDA) es utilizado por los científicos de datos para analizar e investigar conjuntos de datos y resumir sus características principales, a menudo empleando métodos de visualización de datos.

EDA ayuda a determinar la mejor manera de manipular las fuentes de datos para obtener las respuestas que necesita, lo que facilita a los científicos de datos descubrir patrones, detectar anomalías, probar una hipótesis o verificar suposiciones.

EDA se utiliza principalmente para ver lo que los datos pueden revelar más allá del modelado formal o la tarea de prueba de hipótesis y proporciona una mejor comprensión de las variables del conjunto de datos y las relaciones entre ellas. También puede ayudar a determinar si las técnicas estadísticas que está considerando para el análisis de datos son adecuadas. Desarrolladas originalmente por el matemático estadounidense John Tukey en la década de 1970, las técnicas EDA siguen siendo un método ampliamente utilizado en el proceso de descubrimiento de datos en la actualidad.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA  

Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think.

¿Por qué es importante el EDA en la ciencia de datos?

El objetivo principal de EDA es ayudar a analizar los datos antes de hacer suposiciones. Puede ayudar a identificar errores obvios, así como a comprender mejor los patrones dentro de los datos, detectar valores atípicos o eventos anómalos y encontrar relaciones interesantes entre las variables.

Los científicos de datos pueden utilizar el análisis exploratorio para garantizar que los resultados que producen sean válidos y aplicables a los resultados y objetivos empresariales deseados. EDA también ayuda a las partes interesadas al confirmar que están haciendo las preguntas correctas. EDA puede ayudar a responder preguntas sobre las desviaciones estándar, las variables categóricas y los intervalos de confianza. Una vez que se complete el EDA y se extraigan los conocimientos, sus características se pueden utilizar para un análisis o modelado de datos más sofisticados, incluido el machine learning.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Vea todos los episodios de Mixture of Experts

Herramientas EDA

Entre las funciones y técnicas estadísticas específicas que puede realizar con las herramientas EDA se incluyen las siguientes:

Técnicas de clustering y reducción de dimensiones, que ayudan a crear visualizaciones gráficas de datos de alta dimensión que contienen muchas variables.
Visualización univariante de cada campo del conjunto de datos sin procesar, con estadísticas de resumen.
Visualizaciones bivariantes y estadísticas de resumen que le permiten evaluar la relación entre cada variable del conjunto de datos y la variable de destino que está viendo.
Visualizaciones multivariantes, para mapear y comprender las interacciones entre los diferentes campos de los datos.
K-medias es un método de clustering en el aprendizaje no supervisado donde los puntos de datos se asignan a grupos K, es decir, el número de clústeres, basado en la distancia desde el centroide de cada grupo. Los puntos de datos más cercanos a un centroide determinado se agruparán en la misma categoría. El clustering K-medias se utiliza comúnmente en la segmentación de mercados, el reconocimiento de patrones y la compresión de imágenes.
Los modelos predictivos, como la regresión lineal, utilizan estadísticas y datos para predecir resultados.

Tipos de EDA

Hay cuatro tipos principales de EDA:

No gráfico univariante
gráfico univariante
No gráfico multivariante
Gráfico multivariante

No gráfico univariante

Es la forma más simple de análisis de datos, donde los datos que se analizan consisten en una sola variable. Dado que es una sola variable, no se ocupa de causas o relaciones. El objetivo principal del análisis univariado es describir los datos y encontrar patrones dentro de ellos.

gráfico univariante

Los métodos no gráficos no proporcionan una imagen completa de los datos. Por lo tanto, se requieren métodos gráficos. Entre los tipos comunes de gráficos univariantes se incluyen los siguientes:

Diagramas de tallos y hojas, que muestran todos los valores de los datos y la forma de la distribución.
Histogramas, un gráfico de barras en el que cada barra representa la frecuencia (recuento) o proporción (recuento/recuento total) de casos para un rango de valores.
Diagramas de caja, que representan gráficamente el resumen de cinco números, que son el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo.

No gráfico multivariante

Los datos multivariantes surgen de más de una variable. Las técnicas de EDA multivariante no gráfico generalmente muestran la relación entre dos o más variables de los datos a través de tabulación cruzada o estadística.

Gráfico multivariante

Los datos multivariantes utilizan gráficos para mostrar las relaciones entre dos o más conjuntos de datos. El gráfico más utilizado es un diagrama de barras agrupado o un gráfico de barras en el que cada grupo representa un nivel de una de las variables y cada barra dentro de un grupo representa los niveles de la otra variable.

Otros tipos comunes de gráficos multivariante incluyen:

Diagrama de dispersión, que se utiliza para trazar puntos de datos en un eje horizontal y vertical para mostrar cuánto se ve afectada una variable por otra.
Gráfico multivariante, que es una representación gráfica de las relaciones entre los factores y una respuesta.
Gráfico de ejecución, que es un gráfico lineal de datos trazados a lo largo del tiempo.
Gráfico de burbujas, que es una visualización de datos que muestra múltiples círculos (burbujas) en un gráfico bidimensional.
Mapa de calor, que es una representación gráfica de los datos en la que los valores se representan por color.

Lenguajes de análisis de datos exploratorios

Algunos de los lenguajes de programación de ciencia de datos más comunes utilizados para crear un EDA incluyen:

Python: lenguaje de programación interpretado, orientado a objetos y con semántica dinámica. Sus estructuras de datos integradas de alto nivel, combinadas con la tipificación dinámica y el enlace dinámico, lo hacen muy atractivo para el desarrollo rápido de aplicaciones, así como para su uso como lenguaje de scripting o pegamento para conectar componentes existentes entre sí. Python y EDA se pueden usar juntos para identificar los valores que faltan en un conjunto de datos, lo cual es importante para que pueda decidir cómo manejar los valores que faltan para el machine learning.
R: lenguaje de programación de código abierto y entorno de software libre para la computación estadística y los gráficos respaldado por la R Foundation for Statistical Computing. El lenguaje R se utiliza ampliamente entre los estadísticos en la ciencia de datos para desarrollar observaciones estadísticas y análisis de datos.

Para profundizar en las diferencias entre estos enfoques, consulte "Python vs. R: What's the Difference?"

Cuatro pasos para mejorar la previsión empresarial con análisis

Utilice el poder del análisis y la inteligencia empresarial para planificar, prever y dar forma a los resultados futuros que mejor beneficien a su empresa y a sus clientes.

¿Qué es el análisis exploratorio de datos (EDA)?