¿Qué es el enriquecimiento de datos?

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

¿Qué es el enriquecimiento de datos?

El enriquecimiento de datos es una técnica para mejorar la calidad y la usabilidad de los datos complementando los conjuntos de datos con información adicional de fuentes internas o externas.

 

Las organizaciones recopilan más datos que nunca, pero a menudo esos datos carecen de contexto o significado. El enriquecimiento de datos ayuda a llenar esos vacíos y mejorar la comprensión de los puntos de datos existentes, ya sea en forma de datos sin procesar o un conjunto de datos estructurado. Aumentar los datos de esta manera puede transformar un conjunto de datos de inescrutable a esclarecedor, lo que permite a las organizaciones tomar decisiones más informadas.

Las prácticas de enriquecimiento de datos suelen formar parte de los programas de gestión de datos y de gestión de datos maestros de una empresa. Existen varios tipos de enriquecimiento de datos que las organizaciones buscan en función de sus necesidades comerciales y fuentes de datos, como el enriquecimiento demográfico, firmográfico y geográfico. Si bien los equipos de datos pueden realizar manualmente el enriquecimiento de datos, la inteligencia artificial (IA) y la automatización ayudan a optimizar los procesos de enriquecimiento de datos.

Los casos de uso comunes para el enriquecimiento de datos se encuentran dentro de la estrategia de marketing, pero los procesos de enriquecimiento de datos también pueden influir en áreas como la ciberseguridad, la atención médica y la planificación urbana. El enriquecimiento de datos también ha demostrado ser cada vez más valioso para elevar el rendimiento de los modelos de machine learning; proporciona contexto y datos más completos para predicciones más precisas.

¿Por qué es importante el enriquecimiento de datos?

Imagina un lienzo pintado solo a medias, con la mitad inferior cubierta de pinceladas azules que representan el océano, mientras que en el centro flotan unas cuantas manchas doradas que llaman la atención. Sin embargo, una vez terminada la pintura, queda claro que esas manchas son reflejos de luz: la obra terminada representa la puesta de sol sobre el agua.

Si bien un lienzo sin terminar puede ser una obra de arte en sí mismo, también tiene el potencial de ser algo más. Lo mismo ocurre con los conjuntos de datos que se mejoran mediante el enriquecimiento de datos.

Por ejemplo, cuando una tabla de datos de clientes que contiene solo nombres y números de teléfono se enriquece con direcciones de correo electrónico, se convierte en una herramienta más poderosa para la divulgación. Cuando un conjunto de datos de direcciones de calles se enriquece con coordenadas geográficas, puede proporcionar insights más profundos sobre el uso del suelo de un vecindario.

A medida que las empresas continúan generando y recopilando cantidades masivas de datos procesar y no estructurados, el enriquecimiento de datos ha adquirido una nueva urgencia. Más datos sin procesar y no estructurados significa más brechas y falta de contexto dentro de los conjuntos de datos. Sin embargo, a través del enriquecimiento de datos, las organizaciones pueden correlacionar estos datos con otros puntos de datos que les dan más significado, impulsando un mayor retorno de la inversión en sus activos de datos.

¿Cuáles son los beneficios del enriquecimiento de datos?

El enriquecimiento de datos produce una variedad de beneficios, que incluyen:

  • Mayor precisión de los datos: el enriquecimiento de datos puede subsanar deficiencias en los datos existentes, como direcciones postales incompletas o títulos profesionales faltantes.
 
  • Mayor confianza: ver diferentes dimensiones de datos, como un conjunto de datos de nombres comerciales enriquecidos con códigos de clasificación de la industria, puede dar a los usuarios la confianza de que están accediendo a los puntos de datos adecuados para sus propósitos.
 
  • Mejor rendimiento de la IA: la inteligencia artificial, como el machine learning y los modelos de IA generativa , funciona mejor cuando se alimenta con datos completos y de alta calidad.
 
  • Insights para la toma de decisiones: los conjuntos de datos completos logrados a través del enriquecimiento de datos pueden ayudar a las empresas a descubrir nuevos patrones y oportunidades relacionados con las demandas del mercado, los precios y otros factores. Por ejemplo, los insights de los clientes pueden servir de base para llevar a cabo campañas de marketing dirigidas en función de sus preferencias.
 
Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

¿Cuál es la diferencia entre el enriquecimiento de datos y la mejora de datos?

Los términos “enriquecimiento de datos” y “mejora de datos” a menudo se usan indistintamente, pero son procesos distintos. Si bien ambos pueden aumentar la calidad de los datos, la mejora de datos se centra más en trabajar con los datos disponibles, mientras que el enriquecimiento de datos se centra en agregar nuevos puntos de datos adicionales a un conjunto de datos.

En la mejora de datos, la limpieza y actualización de datos son funciones básicas. Puede ser necesario agregar algunos datos nuevos con el fin de abordar los valores faltantes en una columna o actualizar información obsoleta, pero la cantidad de datos nuevos que se introducen no está a la escala del enriquecimiento de datos.

A través del enriquecimiento de datos, a menudo se agregan nuevos campos a los conjuntos de datos existentes. Al igual que con la mejora de datos, la limpieza de datos forma parte del proceso, pero aquí se realiza en preparación para la incorporación de nueva información. (Consulte “Pasos clave para el enriquecimiento de datos” a continuación).

Tipos de enriquecimiento de datos

Las organizaciones suelen utilizar uno o más de los siguientes tipos de enriquecimiento de datos para agregar información a sus conjuntos de datos existentes:

  • Enriquecimiento de datos de comportamiento: datos sobre el comportamiento del cliente y su interacción con productos, servicios y diversos canales de comunicación, incluidas aplicaciones móviles y cuentas de redes sociales.
 
  • Enriquecimiento de datos de contacto: información para enriquecer las listas de contactos, incluidos números de teléfono, direcciones de correo electrónico, afiliaciones comerciales y perfiles de redes sociales.
 
  • Enriquecimiento demográfico: características como edad, género, etnia, estado civil e ingresos. También conocido como enriquecimiento sociodemográfico.
 
  • Enriquecimiento firmográfico: detalles sobre una empresa, como industria, tamaño, ingresos y ubicación.
 
  • Enriquecimiento geográfico: información sobre la ubicación de una entidad, como el domicilio, el código postal, el país y las coordenadas geográficas.
 
  • Enriquecimiento psicográfico: datos sobre el estilo de vida, intereses, actitudes y creencias de una persona.
 

Pasos clave para el enriquecimiento de datos

El proceso de enriquecimiento de datos puede variar según la organización, pero hay algunos pasos comunes:

Limpieza de datos

Limpie el conjunto de datos objetivo para el enriquecimiento a través de técnicas como la estandarización (garantizar que los formatos sean consistentes) y la deduplicación de datos.

Identificar oportunidades de enriquecimiento

Determine qué tipo de información sería valioso agregar al conjunto de datos.

Obtención de datos

Determine las fuentes de los nuevos datos, seleccionando entre fuentes internas y externas según sea necesario.

Integración de datos

Agregue los nuevos datos a los conjuntos de datos específicos utilizando herramientas como el software de integración de datos.

¿Qué fuentes de datos se utilizan para el enriquecimiento de datos?

Las organizaciones pueden enriquecer sus datos utilizando sus datos internos, incluidos los datos propios (datos recopilados directamente de los clientes), así como datos procedentes de fuentes externas.

Las empresas que buscan utilizar datos de fuentes internas pueden encontrar un obstáculo: los datos en silos. Afortunadamente, pueden eliminar esos silos mediante la integración de datos, el proceso de reunir datos procedentes de fuentes dispares y transformarlos en formatos unificados y utilizables. Por ejemplo, una organización puede enriquecer un conjunto de datos de clientes integrando información procedente de sistemas de gestión de relaciones con los clientes (CRM) y bases de datos de marketing.

Las empresas también pueden recurrir a fuentes de datos externas, es decir, fuentes de datos públicas y gratuitas, así como a proveedores de datos externos. Las fuentes de datos públicos incluyen conjuntos de datos gubernamentales (por ejemplo, datos censales, informes de empleo) mientras que los proveedores de datos de terceros recopilan y venden una variedad de datos, incluidos datos de contacto, demográficos y firmográficos. Al seleccionar datos de terceros, las empresas deben trabajar únicamente con fuentes y proveedores de confianza para tener la seguridad de que los datos son precisos, están actualizados y cumplen con sus estándares de calidad.

Cualquier dato obtenido y almacenado como parte de un proceso de enriquecimiento de datos debe gestionarse de acuerdo con las normas que rigen la privacidad de datos y seguridad, como el RGPD y la Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA)

Herramientas de enriquecimiento de datos

Con el crecimiento de la toma de decisiones basada en datos y las necesidades de datos relacionadas con la IA, se ha intensificado la demanda de datos de alta calidad y, por extensión, de herramientas de enriquecimiento de datos. Se prevé que el mercado mundial de soluciones de enriquecimiento de datos alcance casi 4.600 millones de dólares para 2030, frente a los aproximadamente 2.400 millones de dólares de 2023.

Aunque la adopción de la IA está impulsando el uso de soluciones de enriquecimiento de datos, también está sustentando algunas de las herramientas de enriquecimiento de datos más avanzadas. Los tipos comunes de herramientas y soluciones de enriquecimiento de datos incluyen:

  • Soluciones de integración de datos: las soluciones de integración de datos dan soporte a los procesos de extracción, transformación y carga (ETL), que incluyen el enriquecimiento de datos, así como la limpieza de datos y otras modificaciones de estos. (Es importante tener en cuenta que las soluciones de integración de datos también pueden poner en funcionamiento los datos después de que se hayan enriquecido, cargando los datos enriquecidos en almacenes y otros destinos para su análisis).
 
  • Los lakehouses de datos abiertos: las soluciones líderes de lakehouses de datos pueden automatizar la ingesta y enriquecimiento de datos no estructurados y unificarlos con datos estructurados.
 
 
  • Soluciones de flujo de trabajo para el enriquecimiento basado en agentes: los agentes de IA pueden optimizar aún más los procesos de enriquecimiento de datos. En un modelo de enriquecimiento de datos agénticos, un usuario crea una hoja de cálculo, lo que activa una interfaz de programación de aplicaciones (API) para encontrar e ingerir datos relevantes en tiempo real de la web. La nueva información es procesada por un LLM y luego se agrega a la hoja de cálculo.1

Casos de uso de enriquecimiento de datos

El enriquecimiento de datos tiene aplicaciones en una variedad de campos e industrias.

Marketing y ventas

Los equipos de marketing y los equipos de ventas son usuarios frecuentes del enriquecimiento de datos, en particular el enriquecimiento de datos de comportamiento, el enriquecimiento demográfico y el enriquecimiento firmográfico. Aprovechan los datos enriquecidos para crear perfiles de clientes, respaldar estrategias de segmentación, crear campañas de marketing personalizadas y ofrecer experiencias del cliente personalizadas.

Planeación urbana

Contar con datos espaciales de alta calidad es fundamental para la planificación y el desarrollo urbanos. Una forma de enriquecimiento geográfico conocida como geocodificación deriva las mediciones de latitud y longitud de las direcciones de las calles, lo que ayuda a los planificadores urbanos a identificar ubicaciones con más precisión.

Atención médica y ciencias de la vida

Los dispositivos wearable, las aplicaciones de salud y estado físico y otras tecnologías de monitoreo de la salud están sirviendo como nuevas fuentes de información para enriquecer los conjuntos de datos de pacientes e investigaciones. Dicho enriquecimiento puede ayudar a los profesionales médicos a mejorar la atención al paciente y ayudar a los investigadores a descubrir patrones e insights importantes.

Ciberseguridad

Los datos de eventos de seguridad se pueden enriquecer con información como ubicaciones físicas (enriquecimiento geográfico) y los dispositivos que se utilizan (enriquecimiento tecnológico) para mejorar la evaluación de los riesgos y las vulnerabilidades de ciberseguridad.

Representación 3D de una espiral de varios iconos alineados, como una cámara, una perilla de volumen y un portapapeles
Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

  1. Explore las soluciones de gestión de datos
  2. Descubra watsonx.data
Notas de pie de página