La disputa de datos es el proceso de limpieza, estructuración y enriquecimiento de datos sin procesar para utilizarlos en ciencia de datos, machine learning (ML) y otras aplicaciones basadas en datos.
También conocida como manipulación o preparación de datos, la disputa de datos es una forma de abordar problemas de calidad de datos, como valores faltantes, duplicados, valores atípicos e incongruencias de formato. El objetivo de la disputa de datos es transformar datos sin procesar, no estructurados o problemáticos en conjuntos de datos limpios que puedan analizarse de manera efectiva. La disputa de datos ayuda a los científicos de datos, analistas de datos y otros usuarios empresariales a aplicar los datos de manera que respalden la toma de decisiones informada.
Hoy en día, las organizaciones tienen acceso a una avalancha de datos de diferentes fuentes. Sin embargo, estos datos sin procesar pueden ser desordenados, incongruentes o inadecuados para su uso con diversos procesos y herramientas que los convierten en insights valiosos. Sin una gestión adecuada de los datos, los resultados del análisis de datos pueden ser engañosos. Las empresas podrían sacar conclusiones inexactas y tomar decisiones comerciales erróneas.
La disputa de datos es una forma clave de respaldar resultados de alta calidad. Transforma y asigna datos a través de una serie de pasos para que estén limpios, y sean coherentes, confiables y útiles para su aplicación prevista. Los conjuntos de datos resultantes se usan para tareas, como crear modelos de machine learning, realizar analytics de datos, crear visualizaciones de datos, generar informes de business intelligence y tomar decisiones ejecutivas fundamentadas.
A medida que las tecnologías basadas en datos, incluida la inteligencia artificial (IA), se vuelven más avanzadas, la disputa de datos se vuelve más importante. Los modelos de IA son tan buenos como los datos con los que se entrenan.
El proceso de disputa de datos ayuda a garantizar que la información utilizada para desarrollar y mejorar los modelos sea precisa. Mejora la interpretabilidad, ya que los datos limpios y bien estructurados son más fáciles de entender para los humanos y los algoritmos. También ayuda con la integración de datos, lo que facilita la combinación e interconexión de información de fuentes dispares.
El proceso de disputa de datos suele implicar estos pasos:
Esta etapa inicial se centra en evaluar la calidad del conjunto de datos completo, incluidas las fuentes y los formatos de datos. ¿Los datos provienen de bases de datos, interfaces de programación de aplicaciones (API), archivos CSV, web scraping u otras fuentes? ¿Cómo están estructurados? ¿Cómo se utilizarán?
El proceso de descubrimiento destaca y aborda problemas de calidad, como datos faltantes, incongruencias de formato, errores o sesgo y valores atípicos que podrían sesgar el análisis. Los hallazgos suelen documentarse en un informe de calidad de datos o en un documento más técnico conocido como informe de perfilado de datos, que incluye estadísticas, distribuciones y otros resultados.
El paso de estructuración de datos, a veces llamado transformación de datos, se centra en organizar los datos en un formato unificado para que sean adecuados para el análisis. Implica:
La limpieza de datos implica manejar los valores faltantes, eliminar duplicados y corregir errores o incongruencias. Este proceso también podría implicar suavizar los datos "ruidosos", es decir, aplicar técnicas que reduzcan el impacto de las variaciones aleatorias u otros problemas en los datos. Al limpiar, es importante evitar la pérdida innecesaria de datos o la limpieza excesiva, lo que puede eliminar información valiosa o distorsionar los datos.
El enriquecimiento de datos consiste en agregar nueva información a los conjuntos de datos existentes para aumentar su valor. A veces denominado aumento de datos, consiste en evaluar qué información adicional es necesaria y de dónde podría proceder. A continuación, la información adicional debe integrarse en el conjunto de datos existente y limpiar del mismo modo que los datos originales.
El enriquecimiento de datos puede implicar extraer datos demográficos, geográficos, de comportamiento o ambientales relevantes para el caso de uso previsto. Por ejemplo, si el proyecto de disputa de datos está relacionado con las operaciones de la cadena de suministro, enriquecer los datos de envío con información meteorológica podría ayudar a predecir retrasos.
Este paso consiste en verificar la exactitud y coherencia de los datos procesados. En primer lugar, deben establecerse reglas de validación basadas en la lógica empresarial, las restricciones de los datos y otras cuestiones. A continuación, se aplican técnicas de validación, como:
Después de una validación exhaustiva, una empresa podría publicar los datos en disputa o prepararlos para su uso en aplicaciones. Este proceso puede implicar cargar los datos en un almacén de datos, crear visualizaciones de datos o exportar los datos en un formato específico para su uso con algoritmos de machine learning.
El proceso de gestión de datos puede llevar mucho tiempo, sobre todo a medida que aumenta el volumen de datos complejos. De hecho, las investigaciones sugieren que preparar los datos y trabajar para transformarlos en formas utilizables ocupa entre el 45 % y el 80 % del tiempo de un analista de datos. 1 2
La disputa de datos requiere un cierto nivel de experiencia técnica en lenguajes de programación, técnicas de manipulación de datos y herramientas especializadas. Pero, en última instancia, mejora la calidad de los datos y admite un análisis de datos más eficiente y eficaz.
Las organizaciones emplean diversas herramientas y tecnologías para gestionar los datos de diferentes fuentes e integrarlos en un pipeline de datos que satisfaga las necesidades generales del negocio. Estos incluyen:
Python y R se utilizan ampliamente para tareas de disputa de datos, incluida la minería, la manipulación y el análisis de datos. El lenguaje de consulta estructurado (SQL) es esencial para trabajar con bases de datos relacionales y gestión de datos.
Los wranglers de datos utilizan herramientas, como Microsoft Excel y Google Sheets, para la limpieza y manipulación básicas de datos, especialmente para conjuntos de datos más pequeños.
Las herramientas de gestión de datos proporcionan una interfaz visual para la limpieza y transformación de datos, lo que ayuda a optimizar los flujos de trabajo y automatizar las tareas. Por ejemplo, la herramienta de refinería de datos disponible en las plataformas de IBM puede transformar rápidamente los datos sin procesar en una forma utilizable para analytics y otros fines.
Las plataformas de big data ayudan a gestionar conjuntos de datos complejos a gran escala al proporcionar las herramientas y las capacidades de escalamiento necesarias para manejar el volumen y la variedad de big data. Se utilizan plataformas, como Apache Hadoop y Apache Spark, para gestionar grandes conjuntos de datos. Utilizan tecnologías de big data para transformar la información en una forma utilizable para analytics de alta calidad y la toma de decisiones.
La IA admite la disputa de datos a través de la automatización y el análisis avanzado. Los modelos y algoritmos de machine learning pueden ayudar con problemas como la detección de valores atípicos y el escalado. Otras herramientas de IA pueden procesar grandes conjuntos de datos rápidamente, manejar transformaciones en tiempo real y reconocer patrones para guiar los esfuerzos de limpieza. Las interfaces de procesamiento de lenguaje natural (PLN) permiten a los usuarios interactuar con los datos de forma intuitiva, lo que podría reducir las barreras técnicas.
Todos los enlaces son externos a ibm.com
1 State of Data Science, Anaconda, julio de 2020.
2 Hellerstein et al. Principles of Data Wrangling. O’Reilly Media. Julio de 2017.
Utilice herramientas y soluciones de ciencia de datos para descubrir patrones y crear predicciones mediante el uso de datos, algoritmos, machine learning y técnicas de IA.
Presentamos Cognos Analytics 12.0: insights impulsados por IA para una mejor toma de decisiones.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.