¿Qué es la ingesta de datos?

Vista aérea de la ciudad

Autores

Tim Mucci

IBM Writer

Gather

¿Qué es la ingesta de datos?

La ingesta de datos es el proceso de recopilación e importación de archivos de datos de diversas fuentes a una base de datos para su almacenamiento, procesamiento y análisis. El objetivo de la ingesta de datos es limpiar y almacenar datos en un repositorio central accesible y coherente para prepararlos para su uso dentro de la organización.

Las fuentes de datos incluyen sistemas financieros, proveedores de datos de terceros, plataformas de redes sociales, dispositivos IoT, aplicaciones SaaS, aplicaciones empresariales locales como planeación de recursos empresariales (ERP) y gestión de relaciones con los clientes (CRM).

Estas fuentes contienen datos estructurados y no estructurados. Una vez ingeridos los datos, se pueden almacenar en lagos de datos, almacenes de datos, lakehouses de datos, mercados de datos, bases de datos relacionales y sistemas de almacenamiento de documentos. Las organizaciones ingieren datos para que puedan emplearlos en tareas de business intelligence, pero también para aplicaciones de machine learning, modelado predictivo e inteligencia artificial.

Muchas herramientas de ingesta de datos automatizan este proceso organizando los datos sin procesar en formatos apropiados para un análisis eficiente por parte del software de analytics de datos. La ingesta de datos suele requerir experiencia en ciencia de datos y lenguajes de programación como Python. Los datos se desinfectan y transforman en un formato uniforme mediante un proceso de extracción, transformación y carga (ETL) o un proceso de extracción, carga y transformación (ELT), para gestionar el ciclo de vida de los datos de manera eficaz.

Con diversas y numerosas fuentes de big data, el software de automatización ayuda a adaptar el proceso de ingesta a entornos y aplicaciones específicos. A menudo incluye funciones de preparación de datos para análisis inmediato o posterior mediante el uso de business intelligence y programas de analytics.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

¿Por qué es importante la ingesta de datos?

La ingesta de datos es el primer paso para procesar datos y extraer valor de la gran cantidad que las empresas recopilan hoy en día. Un proceso de ingesta de datos bien planeado salvaguarda la precisión y confiabilidad de los datos que alimentan el analytics engine, lo cual es vital para que los equipos de datos realicen sus funciones de manera efectiva. Hay tres razones clave por las que la ingesta de datos es esencial:

Proporcionar flexibilidad para un escenario de datos dinámico

Las empresas modernas emplean un ecosistema de datos diverso. Cada fuente tiene su formato y estructura únicos. Un proceso de ingesta de datos eficaz puede ingerir datos de estas fuentes dispares, lo que permite una visión más completa de las operaciones, los clientes y las tendencias del mercado. Constantemente surgen nuevas fuentes de datos y el volumen y la velocidad de generación de datos aumentan cada vez más. Un proceso de ingesta de datos bien diseñado puede adaptar a estos cambios, garantizando que la arquitectura de datos siga siendo estable y adaptable.

Habilitación de analytics poderosa

Sin un proceso estable para ingerir datos, las empresas no podrían recopilar y preparar los conjuntos de datos masivos necesarios para un análisis en profundidad. Las organizaciones emplean esta analytics para abordar problemas comerciales específicos y convertir los insights derivados de los datos en recomendaciones aplicables en la práctica.

Mejorando la calidad de datos

El proceso de enriquecimiento incorpora varias validaciones y comprobaciones para garantizar la coherencia y precisión de los datos. Esto incluye la limpieza de datos, la identificación y la eliminación de puntos de datos corruptos, inexactos o irrelevantes. La ingesta de datos facilita la transformación a través de la estandarización, la normalización y el enriquecimiento. La estandarización certifica que los datos se adhieren a un formato coherente, mientras que la normalización elimina las redundancias. El enriquecimiento implica agregar información relevante a los conjuntos de datos existentes, proporcionando más contexto y profundidad, lo que en última instancia aumenta el valor de los datos para el análisis.

El pipeline de ingesta de datos

La ingesta de datos es el proceso de tomar datos sin procesar de varias fuentes y prepararlos para su análisis. Este pipeline de varios pasos garantiza que los datos sean accesibles, precisos, coherentes y utilizables para business intelligence. Es crucial para admitir analytics basada en SQL y otras cargas de trabajo de procesamiento.

Descubrimiento de datos: La fase exploratoria en la que se identifican los datos disponibles en toda la organización. Comprender el panorama, la estructura, la calidad y los usos potenciales de los datos sienta las bases para una ingesta de datos exitosa.

Adquisición de datos: Una vez identificadas las fuentes de datos, la adquisición de datos implica recopilar los datos. Esto puede incluir la recuperación de datos de muchas fuentes, desde bases de datos estructuradas e interfaces de programación de aplicaciones (APIs) hasta formatos no estructurados como hojas de cálculo o documentos en papel. La complejidad radica en manejar la variedad de formatos de datos y volúmenes potencialmente grandes y salvaguardar la integridad de los datos durante todo el proceso de adquisición.

Validación de datos: Después de adquirir los datos, la validación garantiza su exactitud y consistencia. Los datos se verifican en busca de errores, inconsistencias y missing values. Los datos se limpian y se hacen confiables y listos para su posterior procesamiento a través de diversas comprobaciones como la validación del tipo de datos, la validación de rango y la validación de unicidad.

Transformación de datos: Aquí es donde los datos validados se convierten a un formato adecuado para el análisis. Esto podría implicar normalización (eliminación de redundancias), agregación (resumir datos) y estandarización (formato coherente). El objetivo es hacer que los datos sean más fáciles de entender y analizar.

Carga de datos: El paso final coloca los datos transformados en su ubicación designada, normalmente un almacén de datos o un lago de datos, donde están disponibles para el análisis y la generación de reportes. Este proceso de carga se puede realizar en lotes o en tiempo real, dependiendo de las necesidades específicas. La carga de datos significa la finalización del proceso de ingesta de datos, donde los datos se preparan y están listos para tomar decisiones informadas y generar business intelligence valiosa.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Técnicas comunes de limpieza de datos

Al ingerir datos, garantizar su calidad es primordial.

  • Manejo de missing values: Las técnicas incluyen la imputación (reemplazar los missing values con medidas estadísticas), la eliminación (eliminar registros o campos con missing values si representan una pequeña parte del conjunto de datos) y la predicción (mediante el uso de algoritmos de machine learning para predecir y completar los missing values en función de otros datos disponibles).
  • Identificación y corrección de valores atípicos: Las técnicas comunes incluyen métodos estadísticos como el uso de puntajes z o el método de rango intercuartílico (IQR) para detectar valores atípicos. Herramientas de visualización como diagramas de caja o diagramas de dispersión y aplicación de transformaciones logarítmicas o de raíz cuadrada para reducir el impacto de los valores atípicos.
  • Estandarización de formatos de datos: La estandarización ayuda a garantizar la consistencia en todo el conjunto de datos, facilitando el análisis. Esto incluye tipos de datos uniformes, normalización y mapeo de código.

La gobernanza de datos y su papel en el mantenimiento de la calidad de los datos

La gobernanza de datos ayuda a mantener la calidad de los datos durante la ingesta mediante el establecimiento de políticas y estándares para el manejo de datos. Esto garantiza que haya rendición de cuentas a través de roles y responsabilidades definidos. Implementar métricas y sistemas de monitoreo para rastrear y abordar problemas, facilitar el cumplimiento de regulaciones como GDPR o HIPAA y promover la coherencia al estandarizar definiciones y formatos de datos.

Beneficios para el negocio de un proceso de ingesta de datos optimizado

La ingesta de datos rompe los silos de datos y pone la información a disposición de todos los afiliados a la organización que la necesiten. Al automatizar la recopilación de datos y emplear el espacio en la nube, la ingesta de datos protege la seguridad de los datos y el acceso a información valiosa.

Mayor democratización de los datos

La ingesta de datos rompe los silos de datos, haciendo que la información esté fácilmente disponible en varios departamentos y áreas funcionales. Esto fomenta una cultura basada en datos en la que todos pueden emplear los insights obtenidos del ecosistema de datos de la empresa.

Gestión de datos optimizada

La ingesta de datos simplifica la tarea, a menudo compleja, de recopilar y depurar datos procedentes de varias fuentes con formatos y estructuras diversas. Las empresas pueden optimizar los procesos de gestión de datos al llevar estos datos a un formato coherente dentro de un sistema centralizado.

Manejo de datos de alta velocidad y gran volumen

Un canal de ingesta de datos de baja latencia eficaz puede manejar grandes cantidades de datos a altas velocidades, incluyendo la ingesta en tiempo real.

Reducción de costos y aumento de la eficacia

Las empresas reducen el tiempo y los recursos que tradicionalmente se requieren para los procesos manuales de agregación de datos automatizando la recopilación y limpieza de datos a través de la ingesta de datos. Además, las soluciones de ingesta de datos como servicio pueden ofrecer más beneficios de costos al eliminar la necesidad de una inversión inicial en infraestructura.

Escalabilidad para el crecimiento

Un proceso de ingesta de datos bien diseñado permite a las empresas de todos los tamaños manejar y analizar volúmenes de datos cada vez mayores. La escalabilidad es esencial para las empresas en una trayectoria de crecimiento. La capacidad de administrar sin esfuerzo los picos de datos garantiza que las empresas puedan continuar utilizando insights valiosos incluso a medida que su ámbito de datos se expande.

Accesibilidad basada en la nube

Al emplear el espacio en la nube para datos sin procesar, las soluciones de ingesta de datos ofrecen acceso fácil y seguro a grandes conjuntos de información cuando sea necesario. Esto elimina las limitaciones de almacenamiento físico y permite a las empresas emplear sus datos en cualquier momento y en cualquier lugar.

Ingesta de datos vs. ETL vs. ELT

Ingesta, extracción, transformación y carga de datos (ETL) y extracción, carga y transformación (ELT) tienen un objetivo común, pero difieren en sus enfoques.

  • Ingesta de datos: La ingesta de datos abarca todas las herramientas y procesos responsables de recopilar, extraer y transportar datos de diversas fuentes para su posterior procesamiento o almacenamiento.
  • ETL: Extraer, transformar y cargar es el proceso mediante el cual los datos se extraen de su sistema de origen y los transforman para cumplir con los requisitos del sistema de destino. Y luego lo cargan en el almacén de datos o lago de datos designado.
  • ELT: Extraer, cargar y transformar es el proceso mediante el cual los datos se extraen de su fuente. Los datos sin procesar se cargan en el sistema de destino y luego se transforman bajo demanda y según sea necesario para análisis específicos. ELT emplea las capacidades de las plataformas en la nube para manejar grandes volúmenes de datos sin procesar y realizar transformaciones de manera eficiente

Ingesta de datos vs. integración de datos

La ingesta y la integración de datos tienen objetivos distintos dentro del pipeline de datos.

Ingesta de datos: Actúa como punto de entrada para datos de diversas fuentes, siendo la principal preocupación la transferencia exitosa de datos, con una transformación mínima para mantener la estructura original de los datos.

Integración de datos: Se centra en transformar y unificar datos de múltiples fuentes antes de introducirlos en un sistema de destino, normalmente un almacén de datos o un lago de datos. La integración de datos puede implicar la limpieza, estandarización y enriquecimiento de datos para garantizar la coherencia y precisión en todo el conjunto de datos.

Tipos de ingesta de datos

La ingesta de datos abarca varios métodos para llevar datos de diversas fuentes a un sistema designado.

Procesamiento por lotes

Este método de ingesta implica acumular datos durante un período específico (reportes de ventas diarios, estados financieros mensuales) antes de procesarlos en su totalidad. El procesamiento por lotes es conocido por su simplicidad, confiabilidad y mínimo impacto en el rendimiento del sistema, ya que puede programar para horas de menor actividad. Sin embargo, no es ideal para aplicaciones en tiempo real.

Ingesta de datos en tiempo real

Este método ofrece insights instantáneos y una toma de decisiones más rápida al ingerir datos en el momento en que se generan, lo que permite el análisis y la acción sobre el terreno. Este método es perfecto para aplicaciones urgentes, como la detección de fraudes o las plataformas de negociación de acciones, donde las decisiones inmediatas son primordiales.

Procesamiento de flujos

El procesamiento de flujos es muy similar al procesamiento en tiempo real, excepto que toma los datos ingeridos y los analiza continuamente a medida que llegan. Tanto el procesamiento en tiempo real como el de flujos exigen una potencia informática significativa y recursos de ancho de banda de red.

Microprocesamiento por lotes

El método de microprocesamiento por lotes logra un equilibrio entre el procesamiento por lotes y en tiempo real. Ingiere datos en lotes pequeños y frecuentes, proporcionando actualizaciones casi en tiempo real sin las limitaciones de recursos del procesamiento en tiempo real a gran escala. Es necesaria una planeación y gestión cuidadosas para optimizar el equilibrio entre la frescura de los datos y el rendimiento del sistema.

Arquitectura Lambda

Este método de ingesta combina el procesamiento por lotes y en tiempo real, empleando las fortalezas de cada uno para proporcionar una solución integral para la ingesta de datos. La arquitectura Lambda permite procesar grandes volúmenes de datos históricos y, al mismo tiempo, manejar flujos de datos en tiempo real.

Herramientas de ingesta de datos

Las herramientas de ingesta de datos ofrecen diversas soluciones para satisfacer diversas necesidades y conocimientos técnicos.

Herramientas de código abierto: Herramientas que proporcionan acceso libre al código fuente del software, lo que da a los usuarios un control total y la posibilidad de personalizar la herramienta.

Herramientas patentadas: soluciones desarrolladas y con licencia por proveedores de software, ofrecen funciones predefinidas y planes de precios variados, pero pueden venir con la dependencia de proveedores y costos continuos de otorgamiento de licencias.

Herramientas basadas en la nube: Herramientas de ingesta que se alojan en un entorno de nube, lo que simplifica el despliegue y el mantenimiento y ofrece escalabilidad sin necesidad de una inversión inicial en infraestructura.

Herramientas on-premises: Estas herramientas se instalan y gestionan en una red local o en la nube privada, lo que proporciona un mayor control sobre la seguridad de los datos, pero requiere inversión en hardware y soporte continuo de TI.

Para equilibrar las necesidades y la experiencia, existen varios enfoques para crear pipelines de ingesta de datos:

Pipelines codificados a mano: Estos pipelines personalizados ofrecen el máximo control, pero requieren una gran experiencia en desarrollo.

Conectores prediseñados y herramientas de transformación: Este enfoque proporciona una interfaz fácil de usar pero requiere la gestión de múltiples pipelines.

Plataformas de integración de datos: Esta plataforma ofrece una solución integral para todas las etapas del recorrido de los datos, pero exige experiencia en desarrollo para la configuración y el mantenimiento.

DataOps: Este enfoque consiste en promover la colaboración entre los ingenieros de datos y los consumidores de datos y automatizar partes del proceso de ingesta de datos para liberar tiempo valioso.

Desafíos en la ingesta de datos

Si bien es fundamental para los pipelines de datos, el proceso de ingesta de datos no está exento de complejidades.

Seguridad de los datos: Una mayor exposición eleva el riesgo de violaciones de seguridad de los datos confidenciales. Cumplir con las regulaciones de seguridad de datos agrega complejidad y costo.

Escala y variedad: Pueden surgir cuellos de botella en el rendimiento debido al volumen, la velocidad y la variedad de datos en constante crecimiento.

Fragmentación de datos: La incoherencia puede obstaculizar los esfuerzos de análisis de datos y complicar la creación de una vista de datos unificada. Cuando los datos de origen cambian sin una actualización en el sistema de destino, provocan una desviación del esquema, lo que puede interrumpir los flujos de trabajo.

Garantía de calidad de los datos: La intrincada naturaleza de los procesos de ingesta de datos puede comprometer su confiabilidad.

Casos de uso y aplicaciones de ingesta de datos

La ingesta de datos sirve como base para desbloquear el potencial de los datos dentro de las organizaciones.

Ingesta de lagos de datos en la nube

Las soluciones de ingesta de datos permiten a las empresas recopilar y transferir diversos datos a un lago de datos en la nube centralizado. La ingesta de datos de alta calidad es primordial en este escenario, ya que cualquier error puede comprometer el valor y la confiabilidad de los datos para la analytics descendente y las iniciativas de IA/machine learning.

Modernización de la nube

Las organizaciones que migran a la nube para iniciativas avanzadas de analytics e IA a menudo se enfrentan a desafíos relacionados con los datos heredados, las fuentes de datos aisladas y el aumento del volumen, la velocidad y la complejidad de los datos. Las soluciones modernas de ingesta de datos a menudo proporcionan asistentes sin código que agilizan el proceso de ingesta de datos de bases de datos, archivos, fuentes de transmisión y aplicaciones.

Las soluciones de ingesta de datos pueden acelerar la modernización del almacenamiento de datos al facilitar la migración masiva de bases de datos locales, almacenes de datos y contenido de mainframe a almacenes de datos basados en la nube. El uso de técnicas de Change Data Capture (CDC) con la ingesta de datos mantiene el almacén de datos en la nube constantemente actualizado con la información más reciente.

Analytics en tiempo real

El procesamiento en tiempo real de flujos de datos abre las puertas a nuevas oportunidades de ingresos. Por ejemplo, las empresas de telecomunicaciones pueden emplear datos de clientes en tiempo real para optimizar las estrategias de ventas y marketing. Del mismo modo, los datos recopilados de los sensores de IoT pueden mejorar la eficiencia operativa, mitigar los riesgos y generar insights analíticos valiosos.

Para desbloquear el poder de la analítica en tiempo real, las herramientas de ingesta de datos permiten la integración perfecta de datos de transmisión en tiempo real (datos de secuencia de clics, datos de sensores de IoT, registros de máquinas, fuentes de redes sociales) en centros de mensajes o destinos de transmisión, lo que permite el procesamiento de datos en tiempo real a medida que ocurren los eventos.

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets
IBM Databand

Descubra IBM Databand, el software de observabilidad para canalizaciones de datos. Recopila metadatos automáticamente para crear líneas de base históricas, detectar anomalías y crear flujos de trabajo para solucionar problemas relacionados con la calidad de los datos.

Explore Databand
Soluciones de integración de datos

Cree canalizaciones de datos resilientes, de alto rendimiento y con costes optimizados para sus iniciativas de IA generativa, análisis en tiempo real, modernización de almacenes y necesidades operativas con las soluciones de integración de datos de IBM.

Descubra las soluciones de integración de datos
Dé el siguiente paso

Descubra IBM DataStage, una herramienta ETL (Extracción, Transformación y Carga) que ofrece una interfaz visual para diseñar, desarrollar y desplegar canalizaciones de datos. Está disponible como SaaS gestionado en IBM Cloud, para autoalojamiento y como complemento de IBM Cloud Pak for Data.

Conozca DataStage Explorar los servicios de analytics