¿Qué es el análisis exploratorio de datos (EDA)?

Un hombre mira una tableta digital que un colega está mostrando en el trabajo

¿Qué es EDA?

Los científicos de datos utilizan el análisis de datos exploratorios (EDA) para analizar e investigar conjuntos de datos y resumir sus características principales, a menudo empleando métodos de visualización de datos.

EDA ayuda a determinar la mejor manera de manipular las fuentes de datos para obtener las respuestas que necesita, lo que facilita a los científicos de datos descubrir patrones, detectar anomalías, poner a prueba una hipótesis o verificar suposiciones.

EDA se utiliza principalmente para ver qué datos se pueden revelar más allá de la tarea formal de modelado o de la prueba de hipótesis y proporciona una mejor comprensión de las variables del conjunto de datos y las relaciones entre ellas. También puede ayudar a determinar si las técnicas estadísticas que usted está considerando para el análisis de datos son adecuadas. Desarrolladas originalmente por el matemático estadounidense John Tukey en la década de 1970, las técnicas EDA siguen siendo un método ampliamente utilizado en el proceso de descubrimiento de datos en la actualidad.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

¿Por qué es importante EDA en la ciencia de datos?

El propósito principal de EDA es ayudar a analizar los datos antes de hacer suposiciones. Puede ayudar a identificar errores obvios, así como comprender mejor patrones dentro de los datos, detectar valores atípicos o eventos anómalos, o encontrar relaciones interesantes entre las variables.

Los científicos de datos pueden utilizar el análisis exploratorio para garantizar que los resultados que producen sean válidos y aplicables a los resultados y objetivos del negocio deseados. EDA también ayuda a los stakeholders mediante la confirmación de que están haciendo las preguntas correctas. EDA puede ayudar a responder preguntas sobre desviaciones estándar, variables categóricas e intervalos de confianza. Una vez que EDA se completa y se extraen insights, sus características se pueden utilizar para análisis o modelado de datos más sofisticados, incluido el machine learning.

Mixture of Experts | 28 de agosto, episodio 70

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Herramientas EDA

Entre las funciones y técnicas estadísticas específicas que se pueden realizar con las herramientas EDA se incluyen:

  • Técnicas de agrupamiento y reducción de dimensiones, que ayudan a crear visualizaciones gráficas de datos de alta dimensión con muchas variables.

  • Visualización univariante de cada campo del conjunto de datos sin procesar, con estadísticas de resumen.

  • Visualizaciones bivariantes y estadísticas de resumen que le permiten evaluar la relación entre cada variable del conjunto de datos y la variable de destino que está viendo.

  • Visualizaciones multivariantes, para mapear y comprender las interacciones entre los diferentes campos de los datos.

  • K-medias es un método de clustering en el aprendizaje no supervisado donde los puntos de datos se asignan a grupos K, es decir, el número de clústeres, basado en la distancia desde el centroide de cada grupo. Los puntos de datos más cercanos a un centroide determinado se agruparán en la misma categoría. El clustering K-medias se utiliza comúnmente en la segmentación de mercados, el reconocimiento de patrones y la compresión de imágenes.

  • Los modelos predictivos, como la regresión lineal, utilizan estadísticas y datos para predecir resultados.

Tipos de EDA

Hay cuatro tipos principales de EDA:

  • Univariante no gráfica.
  • Gráfico univariante
  • Multivariante no gráfica
  • Gráfico multivariante

Univariante no gráfica.

Se trata de la forma más sencilla de análisis de datos, en la que los datos analizados constan de una sola variable. Al tratarse de una única variable, no se ocupa de las causas ni de las relaciones. El objetivo principal del análisis univariante es describir los datos y encontrar patrones que existan en ellos.

Gráfico univariante

Los métodos no gráficos no proporcionan una imagen completa de los datos. Por lo tanto, se requieren métodos gráficos. Los tipos comunes de gráficos univariantes incluyen:

  • Diagramas de tallo y hojas, que muestran todos los valores de los datos y la forma de la distribución.

  • Histogramas, un gráfico de barras en el que cada barra representa la frecuencia (recuento) o la proporción (recuento/recuento total) de casos de un rango de valores.

  • Diagramas de caja, que representan gráficamente el resumen de cinco números de mínimo, primer cuartil, mediana, tercer cuartil y máximo.

Multivariante no gráfica

Los datos multivariantes surgen de más de una variable. Las técnicas EDA multivariantes no gráficas suelen mostrar la relación entre dos o más variables de los datos mediante tabulaciones cruzadas o estadísticas.

Gráfico multivariante

Los datos multivariantes utilizan gráficos para mostrar las relaciones entre dos o más conjuntos de datos. El gráfico más utilizado es un diagrama de barras agrupadas o gráfico de barras en el que cada grupo representa un nivel de una de las variables y cada barra dentro de un grupo representa los niveles de la otra variable.

Otros tipos comunes de gráficos multivariantes incluyen:

  • Diagrama de dispersión, que se utiliza para trazar puntos de datos en un eje horizontal y vertical para mostrar cuánto afecta una variable a otra.

  • Gráfico multivariante, que es una representación gráfica de las relaciones entre los factores y una respuesta.

  • Gráfico de ejecución, que es un gráfico de líneas de datos trazados a lo largo del tiempo.

  • Gráfico de burbujas, que es una visualización de datos que muestra múltiples círculos (burbujas) en una gráfica bidimensional.

  • Mapa de calor, que es una representación gráfica de datos en la que los valores se representan por color.

Lenguajes de análisis de datos exploratorios

Algunos de los lenguajes de programación de ciencia de datos más comunes utilizados para crear una EDA incluyen:

  • Python: un lenguaje de programación interpretado, orientado a objetos y con semántica dinámica. Sus estructuras de datos integradas de alto nivel, combinadas con la tipificación dinámica y la vinculación dinámica, lo hacen muy atractivo para el desarrollo rápido de aplicaciones, así como para su uso como lenguaje de programación o aglutinante para conectar componentes existentes entre sí. Python y EDA pueden utilizarse conjuntamente para identificar los valores faltantes en un conjunto de datos, lo que es importante para poder decidir cómo tratar esos valores faltantes para el machine learning.

  • R: lenguaje de programación de código abierto y entorno de software gratuito para computación estadística y gráficos respaldado por R Foundation for Statistical Computing. El lenguaje R se utiliza ampliamente entre los estadísticos de la ciencia de datos para desarrollar observaciones estadísticas y análisis de datos.

Para profundizar en las diferencias entre estos enfoques, consulte "Python vs. R: What's the Difference?"

Soluciones relacionadas
IBM Project Ripasso

Comprenda qué sucedió y por qué, lo que podría ocurrir y lo que puede hacer al respecto. Con explicaciones claras y paso a paso de su razonamiento, Project Ripasso proporciona a todos los usuarios empresariales insights para tomar decisiones con confianza y a la velocidad del pensamiento.

Descubra Project Ripasso
Herramientas y soluciones de analytics

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explorar las soluciones de analytics
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explorar las soluciones de analytics Descubra IBM Project Ripasso