¿Qué es el data wrangling?

Una persona sentada frente a varias pantallas de ordenador con datos

Autores

Amanda McGrath

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

¿Qué es el data wrangling?

El data wrangling es el proceso de limpieza, estructuración y enriquecimiento de datos sin procesar para utilizarlos en ciencia de datos, machine learning (ML) y otras aplicaciones basadas en datos.

También conocido como data munging o preparación de datos, el data wrangling es una forma de abordar problemas de calidad de los datos, como la ausencia de valores, los duplicados, los valores atípicos y las incoherencias de formato. El objetivo del data wrangling es transformar datos sin procesar, no estructurados o problemáticos en conjuntos de datos limpios que puedan analizarse de manera eficaz. La gestión de datos ayuda a los científicos de datos, analistas de datos y otros usuarios empresariales a aplicar los datos de manera que respalden la toma de decisiones informadas.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿Por qué es importante el data wrangling?

Hoy en día, las organizaciones tienen acceso a una avalancha de datos procedentes de distintas fuentes. Sin embargo, estos datos sin procesar pueden ser desordenados, incoherentes o inadecuados para su uso con diversos procesos y herramientas que los convierten en información valiosa. Sin un data wrangling adecuado, los resultados de su análisis pueden ser engañosos. Las empresas podrían extraer conclusiones inexactas y tomar decisiones empresariales erróneas.

El data wrangling es una forma clave de obtener resultados de alta calidad. Transforma y mapea los datos a través de una serie de pasos para que sean limpios, coherentes, fiables y útiles para su aplicación prevista. Los conjuntos de datos resultantes se utilizan para tareas como la creación de modelos de machine learning, la realización de análisis de datos, la creación de visualizaciones de datos, la generación de informes de inteligencia empresarial y la toma de decisiones ejecutivas fundamentadas.

A medida que las tecnologías basadas en datos, incluida la inteligencia artificial (IA), avanzan, la gestión de datos adquiere mayor importancia. Los modelos de IA son tan buenos como los datos con los que se entrenan.

El proceso de data wrangling ayuda a garantizar que la información utilizada para desarrollar y mejorar los modelos sea exacta. Mejora la interpretabilidad, ya que los datos limpios y bien estructurados son más fáciles de entender para los humanos y los algoritmos. También ayuda a la integración de datos, ya que facilita la combinación e interconexión de información procedente de fuentes diferentes.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

El proceso de data wrangling

El proceso de gestión de datos suele constar de los siguientes pasos:

  • Descubrimiento
  • Estructuración
  • Limpieza
  • Enriquecimiento
  • Validación

Descubrimiento

Esta etapa inicial se centra en evaluar la calidad del conjunto completo de datos, incluidas las fuentes y los formatos de datos. ¿Los datos proceden de bases de datos, interfaces de programación de aplicaciones (API), archivos CSV, web scraping u otras fuentes? ¿Cómo está estructurado? ¿Cómo se utilizará?

El proceso de descubrimiento pone de relieve y aborda los problemas de calidad, como los datos que faltan, las incoherencias de formato, los errores o sesgos y los valores atípicos que podrían sesgar el análisis. Las conclusiones suelen documentarse en un informe sobre la calidad de los datos o en un documento más técnico conocido como informe de perfilado de datos, que incluye estadísticas, distribuciones y otros resultados.

Estructuración

El paso de estructuración de datos, a veces llamado transformación de datos, se centra en organizar los datos en un formato unificado para que sean aptos para el análisis. Implica:

  • Agregación: combinación de filas de datos mediante estadísticas de resumen y agrupación de datos en función de determinadas variables.

  • Pivotaje: desplazamiento de datos entre filas y columnas o transformación de datos a otros formatos para prepararlos para su uso.

  • Unión: combinación de datos de múltiples tablas y de información relacionada de fuentes dispares.

  • Conversión del tipo de datos: modificación del tipo de datos de una variable para facilitar la realización de cálculos y la aplicación de métodos estadísticos.

Limpieza

La limpieza de datos implica tratar los valores que faltan, eliminar duplicados y corregir errores o incoherencias. Este proceso también puede implicar suavizar datos "ruidosos", es decir, aplicar técnicas que reduzcan el impacto de variaciones aleatorias u otros problemas en los datos. Al limpiar, es importante evitar la pérdida innecesaria de datos o la limpieza excesiva, que puede eliminar información valiosa o distorsionar los datos.

Enriquecimiento

El enriquecimiento de los datos implica añadir nueva información a los conjuntos de datos existentes para aumentar su valor. A veces denominado aumento de datos, implica evaluar qué información adicional es necesaria y de dónde puede provenir. A continuación, la información adicional debe integrarse con el conjunto de datos existente y limpiarse de la misma manera que los datos originales.

El enriquecimiento de datos puede implicar extraer datos demográficos, geográficos, de comportamiento o ambientales relevantes para el caso de uso previsto. Por ejemplo, si el proyecto de data wrangling está relacionado con las operaciones de la cadena de suministro, enriquecer los datos de envío con información meteorológica podría ayudar a predecir retrasos.

Validación

Este paso implica verificar la precisión y la coherencia de los datos procesados. En primer lugar, se deben establecer reglas de validación basadas en la lógica del negocio, las restricciones de datos y otras cuestiones. Luego se aplican técnicas de validación como:

  • Validación de tipos de datos: ayuda a garantizar los tipos de datos correctos.

  • Comprobaciones de rango o formato: verificación de que los valores se encuentran dentro de los rangos aceptables y se ajustan a determinados formatos.

  • Comprobaciones de coherencia: confirmación de que existe una concordancia lógica entre las variables relacionadas.

  • Comprobaciones de unicidad: confirmación de que ciertas variables (como los números de identificación del cliente o del producto) tienen valores únicos.

  • Validación entre campos: comprobación de relaciones lógicas entre variables (por ejemplo, edad y fecha de nacimiento).

  • Análisis estadístico: identificación de valores atípicos o anomalías mediante estadísticas descriptivas y visualizaciones.

Tras una validación exhaustiva, una empresa puede publicar los datos procesados o prepararlos para su uso en aplicaciones. Este proceso puede implicar cargar los datos en un almacén de datos, crear visualizaciones de datos o exportar los datos en un formato específico para su uso con algoritmos de machine learning.

El proceso de data wrangling puede llevar mucho tiempo, sobre todo a medida que aumenta el volumen de datos complejos. De hecho, los estudios sugieren que preparar los datos y transformarlos en información utilizable ocupa entre el 45 % y el 80 % del tiempo de un analista de datos. 1 2

El data wrangling requiere un cierto nivel de conocimientos técnicos en lenguajes de programación, técnicas de manipulación de datos y herramientas especializadas. Pero, en última instancia, mejora la calidad de los datos y facilita un análisis más eficiente y eficaz.

Herramientas y tecnologías de data wrangling

Las organizaciones utilizan diversas herramientas y tecnologías para obtener datos de distintas fuentes e integrarlos en una canalización de datos que respalde las necesidades empresariales generales. Entre ellas se incluyen:

  • Lenguajes de programación
  • Hojas de cálculo
  • Herramientas especializadas
  • Plataformas de big data
  • Inteligencia artificial

Lenguajes de programación

Python y R se utilizan ampliamente para tareas de disputa de datos, como la minería, la manipulación y el análisis de estos. El lenguaje de consulta estructurado (SQL) es fundamental para trabajar con bases de datos relacionales y gestionar datos.

Hojas de cálculo

Los data wranglers utilizan herramientas como Microsoft Excel y Google Sheets para la limpieza y manipulación básicas de los datos, sobre todo cuando se trata de conjuntos de datos pequeños.

Herramientas especializadas

Las herramientas de gestión de datos proporcionan una interfaz visual para la limpieza y la transformación de datos, lo que ayuda a agilizar los flujos de trabajo y automatizar las tareas. Por ejemplo, la herramienta de refinería de datos disponible en las plataformas de IBM puede transformar rápidamente los datos sin procesar en una forma utilizable para fines analíticos, entre otros.

Plataformas de big data

Las plataformas de big data ayudan a gestionar conjuntos de datos complejos y a gran escala al proporcionar las herramientas y las capacidades de escalado necesarias para gestionar el volumen y la variedad de big data. Plataformas como Apache Hadoop y Apache Spark se utilizan para gestionar grandes conjuntos de datos. Estas utilizan tecnologías de big data para transformar la información en un formato utilizable para el análisis de datos de alta calidad y la toma de decisiones.

Inteligencia artificial

La IA respalda la disputa de datos mediante la automatización y el análisis avanzado. Los modelos y algoritmos de machine learning pueden ayudar con problemas como la detección de valores atípicos y el escalado. Otras herramientas de IA pueden procesar grandes conjuntos de datos con rapidez, gestionar transformaciones en tiempo real y reconocer patrones para orientar los esfuerzos de limpieza. Las interfaces de procesamiento del lenguaje natural (PLN) permiten a los usuarios interactuar con los datos de forma intuitiva, lo que podría reducir las barreras técnicas.

Notas a pie de página

Todos los enlaces son externos a ibm.com.

1 State of Data Science. Anaconda. Julio de 2020.

2 Hellerstein et al. Principles of Data Wrangling. O'Reilly Media. Julio de 2017.

Soluciones relacionadas
Herramientas y soluciones de ciencia de datos

Utilice herramientas y soluciones de ciencia de datos para descubrir patrones y crear predicciones mediante el uso de datos, algoritmos, machine learning y técnicas de IA.

Explore las soluciones de ciencia de datos
IBM Cognos Analytics

Presentamos Cognos Analytics 12.0: conocimientos potenciados por IA para una mejor toma de decisiones.

Explore Cognos Analytics
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
Dé el siguiente paso

Utilice herramientas y soluciones de ciencia de datos para descubrir patrones y crear predicciones mediante el uso de datos, algoritmos, machine learning y técnicas de IA.

Explore las soluciones de ciencia de datos Explore los servicios de análisis