Los científicos de datos utilizan el análisis de datos exploratorios (EDA) para analizar e investigar conjuntos de datos y resumir sus características principales, a menudo empleando métodos de visualización de datos.
EDA ayuda a determinar la mejor manera de manipular las fuentes de datos para obtener las respuestas que necesita, lo que facilita a los científicos de datos descubrir patrones, detectar anomalías, poner a prueba una hipótesis o verificar suposiciones.
EDA se utiliza principalmente para ver qué datos se pueden revelar más allá de la tarea formal de modelado o de la prueba de hipótesis y proporciona una mejor comprensión de las variables del conjunto de datos y las relaciones entre ellas. También puede ayudar a determinar si las técnicas estadísticas que usted está considerando para el análisis de datos son adecuadas. Desarrolladas originalmente por el matemático estadounidense John Tukey en la década de 1970, las técnicas EDA siguen siendo un método ampliamente utilizado en el proceso de descubrimiento de datos en la actualidad.
Aprenda cómo aprovechar las bases de datos adecuadas para aplicaciones, análisis e IA generativa.
Regístrese para obtener el libro electrónico sobre IA generativa
El objetivo principal del EDA es ayudar a analizar los datos antes de hacer suposiciones. Puede ayudar a identificar errores obvios, así como a comprender mejor los patrones dentro de los datos, detectar valores atípicos o eventos anómalos y encontrar relaciones interesantes entre las variables.
Los científicos de datos pueden utilizar el análisis exploratorio para garantizar que los resultados que producen sean válidos y aplicables a los resultados y objetivos de negocio deseados. EDA también ayuda a los stakeholders mediante la confirmación de que están haciendo las preguntas correctas. El EDA puede ayudar a responder preguntas sobre desviaciones estándar, variables categóricas e intervalos de confianza. Una vez que el EDA está completo y se obtienen los insights, sus características se pueden usar para un análisis o modelado de datos más sofisticado, incluyendo el machine learning.
Entre las funciones y técnicas estadísticas específicas que se pueden realizar con las herramientas EDA se incluyen:
Hay cuatro tipos principales de EDA:
Otros tipos comunes de gráficos multivariantes incluyen:
Algunas de las herramientas de ciencia de datos más comunes utilizadas para crear una EDA incluyen:
Para profundizar en las diferencias entre estos enfoques, consulte "Pythonfrente a R: ¿Cuál es ladiferencia?"
Utilice IBM Watson® Studio para determinar si las técnicas estadísticas que está considerando para el análisis de datos son apropiadas.
Aprenda la importancia y el papel de EDA y las técnicas de visualización de datos para encontrar problemas de calidad de datos y para la preparación de datos, que es relevante para la construcción de pipelines de aprendizaje automático (ML).
Aprenda técnicas comunes para recuperar sus datos, limpiarlos, aplicar ingeniería de características y tenerlos listos para el análisis preliminar y las pruebas de hipótesis.