¿Qué es la ingeniería de datos con IA agéntica?

Ingeniería de datos con IA agéntica, definida

La ingeniería de datos con en IA agéntica consiste en implementar agentes de inteligencia artificial (IA) con el fin de mejorar y acelerar la creación y el mantenimiento de sistemas que recopilan y analizan datos.

 

Como su nombre indica, la ingeniería de datos con IA agéntica es la fusión de la ingeniería de datos y la IA agéntica. La primera es la práctica de desarrollar y mantener la infraestructura de datos y los pipelines de datos que son parte integral de la gestión de datos.

Este último se refiere a los sistemas de inteligencia artificial que pueden lograr objetivos específicos con una supervisión humana limitada. En un marco de sistemas multiagente, las subtareas realizadas por múltiples agentes de IA (modelos de machine learning que imitan la toma de decisiones humana) se coordinan mediante orquestación de IA.

En ingeniería de datos, los agentes de IA pueden llevar a cabo procesos de resolución de problemas en varios pasos, fundamentales para garantizar la disponibilidad de datos de alta calidad para los casos de uso de la empresa. Estos procesos incluyen el diseño de pipelines de datos y la ejecución de tareas críticas de proceso de datos, como realizar transformaciones de datos y detectar problemas de datos.

También conocida como ingeniería de datos agéntica, la ingeniería de datos de IA agéntica puede reducir significativamente la carga de trabajo de los equipos de ingeniería de datos y, al mismo tiempo, optimizar el rendimiento de los pipelines de datos. Además, la ingeniería de datos de IA agéntica puede capacitar a los usuarios empresariales para acceder y obtener perspectivas a partir de datos empresariales incluso si carecen de habilidades técnicas.

¿Qué hace que la IA agéntica sea importante para la ingeniería de datos?

Para entender por qué se están adoptando sistemas de IA agéntica en la ingeniería de datos, es útil analizar más de cerca la naturaleza de la ingeniería de datos moderna.

La ingeniería de datos es crítica para las empresas que desean desbloquear el valor de unos ecosistemas de datos cada vez más amplios y complejos. Los ingenieros de datos ayudan a estructurar y garantizar la funcionalidad de los flujos de trabajo que convierten los datos sin procesar en outputs que proporcionan valor empresarial real. Cuando se ejecuta con éxito, la ingeniería de datos da como resultado la entrega de conjuntos de datos limpios, precisos y oportunos que pueden analizarse para obtener perspectivas procesables o utilizarse para impulsar iniciativas de IA.

A medida que las organizaciones aceleran su dependencia de la toma de decisiones basada en datos, incluyendo la toma de decisiones sensibles al tiempo basada en datos en tiempo real, la necesidad de pipelines de datos fiables nunca ha sido mayor. Sin embargo, los retos que plantea el mantenimiento de estos pipelines son mayores que nunca: los ingenieros de datos deben supervisar ahora pilas de datos y procesos de coordinación cada vez más complejos.

Inevitablemente, eso significa que los equipos de datos dedican gran parte de su tiempo a "apagar incendios". En otras palabras, se concentran en el mantenimiento y la resolución de problemas para abordar los problemas del pipeline de datos y, lo que es peor, sus fallos.

"Cuando los equipos de ingeniería de datos crean pipelines, los ingenieros suelen recurrir a una combinación de tareas programadas, procedimientos almacenados, scripts complejos y lógica de transformación. Y cada uno de ellos trabaja en conjunto para mantener el flujo de datos. A veces, cuando ocurre un solo cambio de esquema o un cambio de nombre de columna en un sistema fuente, esto puede desencadenar horas de depuración y repruebas", explicó Justin Yan, gerente sénior de producto de IBM Data & AI, en un vídeo de IBM Technology.

Afortunadamente, ahora se pueden implementar agentes de IA para que se encarguen de gran parte de este trabajo y para evitar que surjan problemas en primer lugar. Los agentes inteligentes pueden "resolver problemas en la integración de datos, ayudando a planificar, monitorizar y adaptarse a los desafíos de los datos para que los datos lleguen a donde deben estar con la calidad y puntualidad que requieren sus cargas de trabajo", dijo Yan.

Tecnologías clave utilizadas en la ingeniería de datos de IA agéntica

Una combinación de tecnologías respalda la implementación de la IA agéntica para la ingeniería de datos.

Agentes de IA

Un agente de IA es un sistema que realiza tareas de forma autónoma mediante el diseño de flujos de trabajo con las herramientas disponibles, incluidos los flujos de trabajo de datos. Los agentes utilizan las técnicas de procesamiento del lenguaje natural de los modelos de lenguaje de gran tamaño para comprender y responder a las entradas de los usuarios paso a paso y determinar cuándo recurrir a herramientas externas.

Procesamiento del lenguaje natural

El procesamiento del lenguaje natural (PLN) es un subcampo de la informática y la IA que utiliza machine learning para permitir que los ordenadores entiendan y se comuniquen con el lenguaje humano. El PLN desempeña un papel cada vez mayor en las soluciones empresariales que ayudan a racionalizar y automatizar las operaciones empresariales.

Aprendizaje automático

El machine learning es el subconjunto de IA centrado en algoritmos que pueden "aprender" los patrones de los datos de entrenamiento. A continuación, estos algoritmos utilizan ese reconocimiento de patrones para hacer inferencias precisas sobre los nuevos datos. El machine learning es la base de la mayoría de los sistemas de IA modernos, incluidos los modelos de lenguaje de gran tamaño y otras herramientas de IA generativa.

Modelos de lenguaje de gran tamaño

Los modelos de lenguaje de gran tamaño (LLM) son un tipo de modelo de deep learning capaz de comprender y generar lenguaje natural y otros tipos de contenido para realizar una gran variedad de tareas. Sus capacidades se derivan de técnicas de procesamiento del lenguaje natural y entrenamiento con cantidades masivas de datos que les ayudan a manejar el lenguaje humano no estructurado a escala.

¿Cómo funciona la ingeniería de datos con IA agéntica?

Aunque el uso de agentes autónomos para la ingeniería de datos puede variar según el sistema de datos y el equipo de ingeniería, a continuación se ofrece una visión general de cómo los sistemas con IA pueden gestionar diferentes procesos y tareas de ingeniería de datos a lo largo de un ciclo de vida de los datos.

Creación de pipelines de datos

La ingeniería de datos de IA agéntica permite a las organizaciones automatizar la creación de pipelines de datos. Los usuarios pueden declarar su intención respecto a lo que ofrece un pipeline usando lenguaje natural sin delimitar los pasos necesarios para lograr los resultados deseados; depende del agente de IA determinar cómo funcionará el pipeline. Esto se conoce como creación declarativa de pipelines y es una alternativa al enfoque más manual que supone codificar cada paso del pipeline.

Después de que un usuario envíe una solicitud en lenguaje natural, los LLM analizan la solicitud y comprenden la intención del usuario. Luego, un agente de IA diseña y a menudo implementa un proceso de extremo a extremo que incluye:

  • Conexión e ingesta desde fuentes de datos
  • Aplicación de transformaciones de datos
  • Transferencia de nuevos datos a un sistema de destino

Los usuarios con mayores conocimientos técnicos pueden optar por definir la estructura del pipeline de datos que solicitan. Pueden hacerlo utilizando un kit de desarrollo de software (SDK) de Python que permite a los LLM escribir y ejecutar scripts de Python basados en solicitudes de usuarios para diversas tareas relacionadas con los datos, como seleccionar una fuente de datos o participar en la limpieza de datos.

Ejecución de trabajos

Una vez diseñado el pipeline, un sistema de IA agéntica puede ejecutar cargas de trabajo. Los agentes de IA realizan llamadas a herramientas para interactuar con las herramientas externas, las interfaces de programación de aplicaciones (API) o los sistemas necesarios para conectarse a las fuentes de datos, comprender los metadatos y llevar a cabo las transformaciones.

Los agentes también seleccionan la ruta de ejecución óptima para los flujos de trabajo de datos en entornos híbridos. Esto incluye elegir dinámicamente los mejores enfoques de integración (transmisión en tiempo real, ETL/ELT por lotes o replicación) y entornos de tiempo de ejecución (en local, en un entorno de nube o mediante motores pushdown y remotos) para cada parte del trabajo.

El aprendizaje por refuerzo puede ayudar a los agentes a mejorar los planes de pipeline a lo largo del tiempo al recompensar las ejecuciones de pipeline configuradas y completadas correctamente.

Monitorización continua

Un sistema agéntico puede permitir la observabilidad mediante la monitorización continua de los pipelines. Los agentes pueden detectar desviaciones del esquema, anomalías en los datos y problemas de calidad de los datos. También pueden respaldar el análisis de la causa raíz de los problemas de pipeline, recomendar pasos de corrección y ejecutar esos pasos.

La ejecución autónoma de correcciones de pipeline puede ser especialmente útil en momentos inoportunos. "¿Qué pasa si un trabajo nocturno falla? En lugar de llamar a alguien, el agente puede reintentar las ejecuciones, escalar motores y ajustar automáticamente la lógica de flujo", explicó John Wen, responsable de producto de IBM, en un vídeo de IBM Technology.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

¿Cuáles son los beneficios de la ingeniería de datos con IA agéntica?

La ingeniería de datos con IA agéntica proporciona una serie de beneficios a las organizaciones, sus equipos de datos y sus usuarios empresariales. Entre ellos figuran:

Gestión de la complejidad en entornos de datos

Un desafío fundamental al que se enfrentan los ingenieros de datos hoy en día es gestionar los datos a través de entornos complejos y aislados: diferentes nubes, almacenes de datos, data lakes, servidores locales y más. Algunos datos se organizan en hojas de cálculo y bases de datos SQL , pero muchos de ellos no están estructurados en documentos, correos electrónicos, transcripciones e imágenes. En un sistema empresarial, los agentes de IA pueden conectarse a una serie de fuentes de datos e integrar varios formatos de datos, creando plataformas de datos unificadas que permiten análisis más ricos y previsiones más precisas.

Mejora de la calidad de los datos

Los agentes de IA pueden automatizar la elaboración de perfiles de datos, la validación de datos, la creación de reglas, la monitorización y la corrección. "Los agentes podrían detectar cambios en las columnas o desajustes de tipos con antelación y proponer correcciones antes de que fallen los trabajos. Las comprobaciones continuas de anomalías, los rellenos automáticos y el redireccionamiento en torno a fuentes de datos fallidas ayudarán a mantener la fiabilidad de los datos para usos posteriores en sistemas de IA", explicó Yan.

Mejora de la eficiencia

Los agentes de IA pueden evaluar diferentes estrategias de ejecución e identificar posibles cuellos de botella y complicaciones, como dependencias ocultas en diferentes pilas de aplicaciones. Al tener en cuenta esta información en el diseño del pipeline, pueden idear planes que minimicen el consumo de recursos y el tiempo operativo sin dejar de alcanzar los objetivos de datos.

Además, a medida que la infraestructura o los esquemas cambian, los sistemas agénticos pueden adaptarse y reutilizar los pipelines existentes, lo que ayuda a las empresas a evitar acumular pipelines obsoletos y deuda técnica.

Apoyo al cumplimiento normativo

El diseño de los pipelines y la monitorización continua por parte de los agentes de IA pueden garantizar que los datos confidenciales cumplen con las leyes de privacidad de datos, como la Ley de Portabilidad y Responsabilidad del Seguro Médico de 1996 (HIPAA) de los Estados Unidos y el Reglamento General de Protección de Datos (GDPR) de la Unión Europea. Además, el seguimiento del linaje por parte de los agentes de IA puede respaldar la transparencia y la auditabilidad.

Autoservicio para usuarios empresariales

Los usuarios empresariales con conocimientos técnicos mínimos o nulos ya no tienen que depender exclusivamente de profesionales de datos para ayudarles a satisfacer sus necesidades de datos. Pueden solicitar la creación o entrega de conjuntos de datos a agentes de IA en lugar de esperar la ayuda de un profesional de datos, lo que les ayuda a obtener perspectivas clave más rápido.

Permitir un crecimiento escalable

Los agentes de IA pueden diseñar, construir y ejecutar pipelines de datos totalmente funcionales en una fracción del tiempo que tardarían los equipos de datos en codificar manualmente dichos pipelines. Los agentes de IA también pueden hacer que estos pipelines sean adaptables y autorreparables, es decir, pueden monitorizar y abordar los problemas antes de que interrumpan los procesos posteriores. En conjunto, esto significa que las empresas pueden continuar añadiendo pipelines con confianza a medida que sus ecosistemas de datos y sus necesidades de datos crecen y evolucionan.

Aumento del ancho de banda para los ingenieros de datos

Al delegar las tareas de diseño, mantenimiento y resolución de problemas de pipelines a los sistemas de IA agéntica, los ingenieros de datos pueden aumentar su productividad y ganar más ancho de banda para realizar tareas de alto valor y trabajos significativos, como construir y pilotar nuevas capacidades.

Consideraciones para la ingeniería de datos de IA agéntica

Al igual que ocurre con otros casos de uso de la IA, las empresas deben considerar varios retos potenciales al implementar la IA agéntica para la ingeniería de datos.

  • La dificultad de integrar agentes de IA con sistemas heredados más antiguos que no son inherentemente compatibles con la tecnología de IA.

  • El riesgo de que los agentes ejecuten de forma autónoma tareas inesperadas (como reprocesar volúmenes masivos de datos durante el horario laboral) que interrumpan los flujos de trabajo.

  • El riesgo de que los agentes contribuyan a las vulneraciones de datos, ya sea porque se ven comprometidos por un ciberataque o simplemente por resultados de la IA poco fiables.

Las soluciones y plataformas de software pueden ayudar a las empresas a abordar los retos de incorporar la IA agéntica, incluidos los sistemas impulsados por IA para la ingeniería de datos, en los flujos de trabajo cotidianos.

Las herramientas sólidas de gobierno de la IA permiten la integración de medidas de seguridad para limitar comportamientos no intencionados de los agentes y la implementación de métricas especializadas para evaluar el rendimiento de los agentes. Las soluciones de orquestación de IA pueden ayudar a cerrar las brechas entre las tecnologías avanzadas de IA y los sistemas empresariales más antiguos sin una reingeniería prolongada.

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explore StreamSets
IBM watsonx.data

Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.

Descubra watsonx.data
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

  1. Explore las soluciones de gestión de datos
  2. Descubra watsonx.data