Los fundamentos empresariales modernos, como la toma de decisiones basada en datos, el análisis de datos y la inteligencia artificial (IA), dependen todos de la disponibilidad de grandes cantidades de datos de calidad. La adquisición de datos permite recuperar la información necesaria para tomar estas decisiones y desarrollar estas tecnologías. Aunque el concepto pueda parecer sencillo, la adquisición de datos puede resultar compleja, especialmente en la era del big data.
Los conjuntos de datos actuales son enormes y complejos. Pueden abarcar terabytes o petabytes, presentarse en formatos estructurados o no estructurados y proceder de diversas fuentes. Estas complejidades presentan desafíos en torno a la gestión de volúmenes de datos, el gobierno y seguridad a lo largo del proceso de adquisición.
Sin embargo, cuando se realiza de manera eficaz, el proceso de adquisición de datos puede convertirse en una fuente de información de alta calidad para iniciativas estratégicas. De hecho, un estudio de Harvard Business Review reveló que las organizaciones que aprovechan con éxito el big data y la IA superan a sus competidores en métricas empresariales clave, como la eficiencia operativa, el crecimiento de los ingresos y la experiencia del cliente.1
El término "adquisición de datos" también puede referirse específicamente a la recopilación de señales físicas o eléctricas que miden condiciones del mundo real; por lo general, se trata de datos de sensores. Algunos ejemplos son las mediciones de temperatura, presión y otros fenómenos físicos.
Estas señales se procesan y convierten en valores digitales que pueden utilizarse mediante dispositivos de adquisición de datos o dispositivos DAQ. Este uso es común en campos como la monitorización medioambiental, la automatización industrial y la investigación científica.
Boletín del sector
Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Según el Servicio Geológico de EE. UU., existen cuatro métodos para adquirir datos:2
La recopilación de datos consiste en generar datos originales mediante métodos directos, como encuestas, entrevistas, sensores o dispositivos del Internet de las cosas (IoT). Las empresas suelen utilizar este enfoque para realizar estudios de mercado o monitorizar operaciones.
Este método se centra en recuperar los datos heredados de una organización y convertirlos a un formato estandarizado y utilizable. Este proceso puede abarcar desde simples conversiones de campos, como las fechas, hasta una normalización compleja que puede requerir conocimientos avanzados de ciencia de datos.
El intercambio de datos implica la transferencia de datos entre sistemas y organizaciones. Puede producirse a través de programas gubernamentales de datos abiertos, intercambios de datos urbanos y proveedores de datos comerciales. Los mecanismos de intercambio técnico incluyen interfaces de programación de aplicaciones (API), transferencias de archivos, pipelines de transmisión y plataformas basadas en la nube.
Las organizaciones también pueden adquirir datos externos en mercados de datos. Estas plataformas ponen en contacto a compradores y vendedores, y ofrecen disponibilidad comercial, accesibilidad y beneficios escalables. Sus productos de datos, seleccionados y listos para usar, pueden ayudar a reducir los gastos generales de recopilación de datos.
Las organizaciones pueden recopilar datos a través de un número aparentemente ilimitado de fuentes. Estos pueden ser tanto estructurados como no estructurados, y tanto internos como externos. Algunas de las fuentes de datos más habituales son:
Las organizaciones que adquieren datos deben tener en cuenta varias consideraciones a lo largo del proceso de adquisición:
La protección de datos, también conocida como privacidad de la información, se refiere a la idea de que las personas deben poder controlar cómo las organizaciones recopilan, almacenan y utilizan sus datos personales. Durante el proceso de adquisición, las organizaciones pueden recopilar información de los usuarios, como direcciones de correo electrónico o datos de autenticación biométrica. Es crítico que obtengan el consentimiento del usuario antes de procesar estos datos, que los protejan contra el uso indebido y que proporcionen a los usuarios herramientas para gestionarlos de forma activa.
Muchas empresas están legalmente obligadas a seguir estas prácticas en virtud de normativas como el Reglamento General de Protección de Datos (RGPD). Sin embargo, incluso sin leyes formales de protección de datos, la implementación de medidas de protección de datos ofrece beneficios. A menudo, las prácticas y herramientas que protegen la privacidad de los usuarios también ayudan a proteger la información digital contra el acceso no autorizado, la corrupción o el robo.
Garantizar la calidad de los datos debe ser una prioridad absoluta para las organizaciones que adquieren datos de una amplia gama de fuentes. La calidad de los datos se refiere a la medida en que un conjunto de datos cumple los criterios de precisión, integridad, validez, coherencia, singularidad, puntualidad y relevancia para su propósito previsto. Los datos de alta calidad respaldan una toma de decisiones precisa, justa y eficaz que se alinea con los objetivos empresariales.
La importancia del control de calidad de los datos va más allá de las operaciones diarias. Los datos de entrenamiento de alta calidad son fundamentales para adoptar con eficacia la inteligencia artificial y la automatización. Sin embargo, el conocido refrán de la IA "basura entra, basura sale" ("garbage in, garbage out") se cumple en general: los datos de mala calidad dan lugar a outputs de mala calidad en cualquier caso de uso.
Cuando las organizaciones adquieren conjuntos de datos de diversas fuentes, deben resolver cualquier problema de compatibilidad antes de cargarlos en sus sistemas. Las prácticas de estandarización y limpieza de datos garantizan que estos se ajusten a un formato y una estructura coherentes, lo que facilita su comprensión y análisis. Por ejemplo, los nombres de las calles suelen incluir indicaciones como "norte" u "oeste". La estandarización los formatearía como "N" u "O".
Las organizaciones que operan en sectores altamente regulados, como el financiero o el sanitario, pueden estar sujetas a normas y reglamentos adicionales en materia de estándares de datos. La Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA), por ejemplo, estableció conjuntos de códigos estándar para diagnósticos y procedimientos, creando así un lenguaje común para los datos sanitarios.
Antes de adquirir datos, las organizaciones deben determinar cuáles son sus necesidades y si el coste de adquisición está justificado. Además de los costes relacionados con la limpieza y estandarización de los datos, las empresas deben considerar los precios, las tasas de licencia (si las hubiera) y cualquier otro coste indicado en los acuerdos de compra.
Una adquisición de datos eficiente también requiere una infraestructura de datos sólida que pueda manejar, gestionar y almacenar la información. Es posible que las organizaciones deban invertir en áreas como el análisis, la seguridad, el gobierno y el almacenamiento de datos para garantizar que los datos adquiridos se gestionen, almacenen y utilicen correctamente.
Aunque a menudo se utilizan indistintamente, los términos "adquisición de datos" y "recopilación de datos" tienen significados distintos.
La recopilación de datos es el proceso de reunir información sin procesar de diversas fuentes, tarea que suelen llevar a cabo científicos y analistas de datos. Por el contrario, el término "adquisición de datos" es más amplio e incluye la recopilación de datos. Sin embargo, también implica la obtención de datos mediante métodos adicionales, como asociaciones, acuerdos de licencia, compras de datos y transformación de datos heredados.
Según el 72 % de los CEO, obtener una ventaja competitiva depende de contar con la IA generativa más avanzada. Pero incluso los algoritmos de machine learning más sofisticados solo son tan eficaces como los datos con los que se entrenan. Los datos de alta calidad son esenciales para que los sistemas de IA aprendan, se adapten y aporten un valor real.
En la práctica, sin embargo, adquirir suficientes datos relevantes para entrenar modelos de IA puede suponer un desafío. Las preocupaciones sobre la privacidad, los altos costes y las restricciones legales o normativas pueden limitar el acceso a métodos y fuentes de adquisición de datos valiosos, como el web scraping o los conjuntos de datos públicos. En algunos casos, la normativa puede prohibir por completo la recopilación de determinados tipos de datos para casos de uso de IA.
Para aliviar estos obstáculos, muchas organizaciones están recurriendo a datos sintéticos, es decir, datos generados artificialmente que imitan los datos del mundo real. Creados a partir de metodologías estadísticas o tecnologías avanzadas de inteligencia artificial como el deep learning y la IA generativa, los datos sintéticos ofrecen varias ventajas: mayor personalización, adquisición más eficiente, mayor privacidad de los datos y datos más completos en general.
Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.
Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.
Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.
1 “Big on data: Study shows why data-driven companies are more profitable than their peers". Estudio de Harvard Business Review realizado para Google Cloud. 24 de marzo de 2023.
2 “Data Acquisition Methods”. Servicio Geológico de Estados Unidos.