El análisis exploratorio de datos (EDA) es utilizado por los científicos de datos para analizar e investigar conjuntos de datos y resumir sus características principales, a menudo empleando métodos de visualización de datos.
EDA ayuda a determinar la mejor manera de manipular las fuentes de datos para obtener las respuestas que necesita, lo que facilita a los científicos de datos descubrir patrones, detectar anomalías, probar una hipótesis o verificar suposiciones.
EDA se utiliza principalmente para ver lo que los datos pueden revelar más allá del modelado formal o la tarea de prueba de hipótesis y proporciona una mejor comprensión de las variables del conjunto de datos y las relaciones entre ellas. También puede ayudar a determinar si las técnicas estadísticas que está considerando para el análisis de datos son adecuadas. Desarrolladas originalmente por el matemático estadounidense John Tukey en la década de 1970, las técnicas EDA siguen siendo un método ampliamente utilizado en el proceso de descubrimiento de datos en la actualidad.
Aprenda a aprovechar las bases de datos adecuadas para aplicaciones, análisis e IA generativa.
Regístrese para recibir el libro electrónico sobre IA generativa
El objetivo principal de EDA es ayudar a analizar los datos antes de hacer suposiciones. Puede ayudar a identificar errores obvios, así como a comprender mejor los patrones dentro de los datos, detectar valores atípicos o eventos anómalos y encontrar relaciones interesantes entre las variables.
Los científicos de datos pueden utilizar el análisis exploratorio para garantizar que los resultados que producen sean válidos y aplicables a los resultados y objetivos empresariales deseados. EDA también ayuda a las partes interesadas al confirmar que están haciendo las preguntas correctas. EDA puede ayudar a responder preguntas sobre las desviaciones estándar, las variables categóricas y los intervalos de confianza. Una vez que se complete el EDA y se extraigan los conocimientos, sus funciones se pueden utilizar para un análisis o modelado de datos más sofisticados, incluido el machine learning.
Entre las funciones y técnicas estadísticas específicas que puede realizar con las herramientas EDA se incluyen las siguientes:
Hay cuatro tipos principales de EDA:
Otros tipos comunes de gráficos multivariante incluyen:
Estas son algunas de las herramientas de ciencia de datos más comunes que se utilizan para crear un EDA:
Para profundizar en las diferencias entre estos enfoques, consulte "Diferencia entre Python y R"
Utilice IBM Watson Studio para determinar si las técnicas estadísticas que está considerando para el análisis de datos son adecuadas.
Conozca la importancia y el papel de las técnicas de EDA y visualización de datos para encontrar problemas de calidad de los datos y para la preparación de datos, relevantes para la creación de canalizaciones de ML.
Aprenda técnicas comunes para recuperar sus datos, limpiarlos, aplicar ingeniería de funciones y tenerlos listos para análisis preliminares y pruebas de hipótesis.