¿Qué es la adquisición de datos?

Puntos y líneas azules desordenados que se enhebran hacia el lado derecho

Autores

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

¿Qué es la adquisición de datos?

La adquisición de datos es el proceso de obtener datos de varias fuentes empleando diferentes métodos. Representa un paso crucial en la canalización de ingesta de datos , seguido de la validación, transformación y carga de datos.
 

Los fundamentos empresariales modernos, como la toma de decisiones basada en datos , el análisis de datos y la inteligencia artificial (IA), dependen de la disponibilidad de grandes cantidades de datos de calidad. La adquisición de datos recupera los datos que hacen posibles estas decisiones y tecnologías informadas. Si bien el concepto puede parecer sencillo, la adquisición de datos puede ser compleja, especialmente en la era del big data.

Los conjuntos de datos actuales son masivos e intrincados. Pueden abarcar terabytes o petabytes, venir en formatos estructurados o no estructurados y vivir en diversas fuentes. Estas complejidades presentan desafíos en torno a la administración de volúmenes de datos, control y seguridad durante todo el proceso de adquisición.

Sin embargo, cuando se realiza de manera efectiva, el proceso de adquisición de datos puede ser un canal de combustible de alta calidad para iniciativas estratégicas. De hecho, un estudio de Harvard Business Review encontró que las organizaciones que aprovechan con éxito el big data y la IA superaron a sus pares en métricas comerciales clave, incluida la eficiencia operativa, el crecimiento de los ingresos y la experiencia del cliente.1

Definición alternativa de adquisición de datos

El término "adquisición de datos" también puede referirse específicamente a la recopilación de señales físicas o eléctricas que miden las condiciones del mundo real, generalmente datos de sensores. Los ejemplos incluyen mediciones de temperatura, presión y otros fenómenos físicos.

Estas señales se procesan y convierten en valores digitales utilizables mediante dispositivos de adquisición de datos o dispositivos DAQ. Este uso es común en campos como el monitoreo ambiental, la automatización industrial y la investigación científica.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Cuáles son los cuatro métodos de adquisición de datos?

Según la encuesta del Servicio Geológico de EE. UU., existen cuatro métodos para adquirir datos:2

  • Recopilación de nuevos datos
  • Conversión o transformación de datos existentes
  • Compartir o intercambiar datos
  • Datos de compras
Recopilación de nuevos datos

La recopilación de datos implica generar datos originales a través de medios directos, como encuestas, entrevistas, sensores o dispositivos de Internet de las cosas (IoT). Las empresas utilizan con frecuencia este enfoque para la investigación de mercado o el monitoreo operativo.

Conversión o transformación de datos existentes

Este método se centra en recuperar los datos heredados/existentes de una organización y convertirlos a un formato estandarizado y utilizable. Este proceso puede variar desde simples conversiones de campo (como fechas) hasta normalizaciones complejas que pueden requerir experiencia avanzada en ciencia de datos.

Compartir o intercambiar datos

Elintercambio de datos implica la transferencia de datos entre sistemas y organizaciones. Puede ocurrir a través de programas de gobierno de datos abiertos, intercambios de datos urbanos y proveedores de datos comerciales. Los mecanismos de intercambio técnico incluyen interfaces de programación de aplicaciones (API), transferencias de archivos, canalizaciones de transmisión y plataformas basadas en la nube.

Datos de compras

Las organizaciones también pueden comprar datos de mercados de datos externos. Estas plataformas cierran la brecha entre compradores y vendedores, ofreciendo disponibilidad comercial, accesibilidad y beneficios escalables. Sus productos de datos curados y listos para usar pueden ayudar a reducir la sobrecarga de la recopilación de datos.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Fuentes de datos comunes

Las organizaciones pueden recopilar datos a través de un número aparentemente ilimitado de fuentes. Los datos pueden ser tanto estructurados como no estructurados, internos o externos. Algunas de las fuentes de datos más comunes son:

  • Aplicaciones empresariales: Datos de planeación de recursos empresariales (ERP), gestión de relaciones con los clientes (CRM) y otros sistemas

  • Redes sociales: datos de interacción en tiempo real de plataformas de redes sociales

  • Datos abiertos: conjuntos de datos de instituciones académicas y gobiernos utilizados para investigación y formulación de políticas

  • Datos públicos: datos de gobiernos y organizaciones, como censos y datos económicos

  • Datos transaccionales: registros de ventas, facturas e información de pago

  • Encuestas: datos recopilados a través de feedback de los clientes o cuestionarios de investigación

  • Analytics web: datos de las interacciones del sitio web, como visitas a páginas y conversiones.

  • Dispositivos IoT: datos en tiempo real de dispositivos conectados, como medidores inteligentes o electrodomésticos

Desafíos y consideraciones para la adquisición de datos

Las organizaciones que adquieren datos deben tener en cuenta varias consideraciones durante todo el proceso de adquisición:

  • Privacidad y seguridad de los datos
  • Data quality
  • Compatibilidad de datos
  • Necesidades empresariales frente a costos

Privacidad y seguridad de los datos

La privacidad de los datos, también conocida como privacidad de la información, es la idea de que las personas deben tener control sobre cómo las organizaciones recopilan, almacenan y utilizan sus datos personales . Durante la adquisición, las organizaciones pueden recopilar información de los usuarios, como direcciones de correo electrónico o datos de autenticación biométrica. Es crítico que obtengan el consentimiento del usuario antes de procesar estos datos, protegerlos contra el uso indebido y proporcionar a los usuarios herramientas para gestionarlos activamente.

Muchas empresas están legalmente obligadas a seguir estas prácticas en virtud de regulaciones como el Reglamento General de Protección de Datos (RGPD). Sin embargo, incluso sin leyes formales de privacidad de datos, la implementación de medidas de privacidad de datos tiene beneficios. A menudo, las prácticas y herramientas que protegen la privacidad del usuario también ayudan a proteger la información digital del acceso no autorizado, la corrupción o el robo.

Calidad de los datos

Garantizar la calidad de los datos debe ser una prioridad máxima para las organizaciones que adquieren datos de una amplia gama de fuentes. La calidad de los datos se refiere a qué tan bien un conjunto de datos cumple con los criterios de precisión, integridad, validez, consistencia, singularidad, puntualidad y relevancia para su propósito previsto. Los datos de alta calidad respaldan una toma de decisiones precisa, justa y eficaz que se alinea con los objetivos comerciales.

La importancia del control de calidad de los datos va más allá de las operaciones diarias. Los datos de entrenamiento de alta calidad son clave para la adopción eficaz de la inteligencia artificial y la automatización. Sin embargo, el conocido dicho de la IA "basura entra, basura sale" se aplica ampliamente: los datos de mala calidad en cualquier caso de uso conducen a resultados de mala calidad.

Compatibilidad de datos

Cuando las organizaciones adquieren conjuntos de datos de diversas fuentes, deberán abordar cualquier problema de compatibilidad antes de cargarlos en sus sistemas. Las prácticas de limpieza de datos y de estandarización pueden garantizar que los datos se adhieran a un formato y estructura coherentes, lo que facilita su comprensión y análisis en el futuro. Por ejemplo, los nombres de las calles suelen contener direcciones, como Norte u Oeste. La estandarización daría formato a estos valores como "N" o "W".

Las organizaciones en industrias fuertemente reguladas (como finanzas o atención médica) podrían enfrentar reglas y regulaciones de estándares de datos adicionales. La Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA), por ejemplo, estableció conjuntos de códigos estándar para diagnósticos y procedimientos, creando un lenguaje común para los datos de atención médica.

Necesidades empresariales frente a costos

Antes de adquirir datos, las organizaciones deben determinar sus necesidades de datos y si el costo de adquisición está justificado. Además de los costos relacionados con la limpieza y estandarización de datos, las empresas deben considerar los precios, las tarifas de licencia (si corresponde) y cualquier costo adicional descrito en los acuerdos de compra.

La adquisición eficiente de datos también requiere una infraestructura de datos estable que pueda manejar, gestionar y almacenar datos. Es posible que las organizaciones deban invertir en áreas como el almacenamiento de datos, analytics, la seguridad y la gobernanza para ayudar a garantizar que los datos adquiridos se almacenen, gobiernen y empleen correctamente.

¿Es lo mismo adquisición de datos que recogida de datos?

Aunque a menudo se emplean indistintamente, la adquisición de datos y la recogida de datos tienen significados distintos.

La recopilación de datos es el proceso de recopilar información sin procesar directamente de varias fuentes, generalmente realizada por científicos de datos y analistas. Por el contrario, la adquisición de datos es un término más amplio que incluye la recopilación de datos. Sin embargo, también implica obtener datos a través de métodos adicionales, como asociaciones, acuerdos de licencia, compras de datos y la transformación de datos existentes.

¿Qué es la adquisición de datos en machine learning?

Según el 72 % de los directores ejecutivos (CEO) con mejor desempeño, obtener una ventaja competitiva depende de tener la IA generativa más avanzada . Pero incluso los algoritmos de machine learning son tan efectivos como los datos con los que se entrenan. Los datos de alta calidad son esenciales para que los sistemas de IA aprendan, se adapten y ofrezcan un valor real.

En la práctica, sin embargo, adquirir suficientes datos relevantes para entrenar modelos de IA puede ser un desafío. Las preocupaciones por la privacidad, los altos costos y las restricciones legales o regulatorias pueden limitar el acceso a métodos y fuentes valiosos de adquisición de datos, como el web scraping o los conjuntos de datos públicos. En algunos casos, las regulaciones pueden prohibir por completo la recopilación de tipos específicos de datos para casos de uso de IA.

Para aliviar estos obstáculos, muchas organizaciones están recurriendo a datos sintéticos, es decir, datos generados artificialmente que imitan los datos del mundo real. Creados con metodologías estadísticas o tecnologías avanzadas de inteligencia artificial, como aprendizaje profundo IA generativa, los datos sintéticos ofrecen varias ventajas: mayor personalización, adquisición más eficiente, mayor privacidad de datos y, en general, datos más ricos.

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data
Notas de pie de página

1Big on data: Study shows why data-driven companies are more profitable than their peers,” Harvard Business Review study conducted for Google Cloud, 24 de marzo de 2023.

2Data Acquisition Methods,” The US Geological Survey.