¿Qué es la ingeniería de datos de IA agéntica?

Definición de ingeniería de datos de IA agéntica:

La ingeniería de datos de IA agéntica es el despliegue de agentes de inteligencia artificial (IA) con el fin de mejorar y acelerar la creación y el mantenimiento de sistemas que agregan y analizan datos.

 

Como su nombre indica, la ingeniería de datos de IA agéntica es la fusión de la ingeniería de datos y la IA agéntica. La primera es la práctica de desarrollar y mantener infraestructura de datos y pipelines de datos integrales para la gestión de datos.

Este último se refiere a los sistemas de inteligencia artificial que pueden lograr objetivos específicos con supervisión humana limitada. En un marco de sistema multiagente, las subtareas realizadas por múltiples agentes de IA (modelos de machine learning que imitan la toma de decisiones humanas) se coordinan a través de la orquestación de IA.

En la ingeniería de datos, los agentes de IA pueden realizar procesos de resolución de problemas de varios pasos fundamentales para garantizar que los datos de alta calidad estén disponibles para los casos de uso empresarial. Estos procesos incluyen el diseño de pipelines de datos y la ejecución de tareas críticas de procesamiento de datos , como realizar transformaciones de datos y detectar problemas de datos.

También conocida como ingeniería de datos agéntica, la ingeniería de datos de IA agéntica puede reducir significativamente la carga de trabajo de los equipos de ingeniería de datos y, al mismo tiempo, optimizar el rendimiento de los pipelines de datos. Además, la ingeniería de datos de IA agéntica puede capacitar a los usuarios empresariales para acceder y obtener insights de los datos empresariales, incluso si carecen de habilidades técnicas.

¿Qué hace que la IA agéntica sea importante para la ingeniería de datos?

Para entender por qué se están adoptando sistemas de IA agéntica para la ingeniería de datos, es útil analizar más de cerca la naturaleza de la ingeniería de datos moderna.

La ingeniería de datos es crítica para las empresas que buscan desbloquear el valor de ecosistemas de datos cada vez más vastos y complejos. Los ingenieros de datos ayudan a estructurar y garantizar la funcionalidad de los flujos de trabajo que convierten los datos sin procesar en resultados que proporcionan valor comercial real. Cuando se ejecuta con éxito, la ingeniería de datos da como resultado la entrega de conjuntos de datos limpios, precisos y oportunos que pueden analizarse para obtener insights aplicables en la práctica o usarse para alimentar iniciativas de IA.

A medida que las organizaciones aceleran su dependencia de la toma de decisiones basada en datos, incluyendo la toma de decisiones sensibles al tiempo basada en datos en tiempo real, la necesidad de pipelines de datos confiables nunca fue mayor. Pero los desafíos de mantener dichos pipelines nunca han sido mayores: los ingenieros de datos ahora tienen la tarea de supervisar pilas de datos y procesos de orquestación cada vez más complejos.

Inevitablemente, eso significa que los equipos de datos dedican gran parte de su tiempo a “apagar incendios”. En otras palabras, se centran en el mantenimiento y la resolución de problemas para hacer frente a las dificultades en los flujos de datos y, lo que es peor, a las fallas en dichos flujos.

“Cuando los equipos de ingeniería de datos están construyendo pipelines, los ingenieros a menudo dependen de una combinación de trabajos programados, procedimientos almacenados, scripts complicados y lógica de transformación. Y cada uno de estos trabaja en conjunto solo para mantener el flujo de datos. A veces, cuando ocurre un solo cambio de esquema o cambio de nombre de columna en un sistema de origen, esto puede desencadenar horas de depuración y nuevas pruebas”, explicó Justin Yan, gerente sénior de productos de datos e IA de IBM, en un video de IBM Technology.

Afortunadamente, ahora se pueden desplegar agentes de IA para encargarse de gran parte de este trabajo y para evitar que surjan problemas desde el principio. Los agentes inteligentes pueden “resolver problemas en la integración de datos, ayudando a planificar, monitorear y adaptarse a los desafíos de datos para que los datos lleguen a donde deben estar con la calidad y puntualidad que requieren sus cargas de trabajo”, dijo Yan.

Tecnologías clave utilizadas en la ingeniería de datos de IA agéntica

Una combinación de tecnologías respalda el despliegue de IA agéntica para la ingeniería de datos.

Agentes de IA

Un agente de IA es un sistema que realiza tareas de forma autónoma mediante el diseño de flujos de trabajo con las herramientas disponibles, incluidos los flujos de trabajo de datos. Los agentes utilizan las técnicas de procesamiento de lenguaje natural de los grandes modelos lingüísticos para comprender y responder a las entradas de los usuarios paso a paso, así como para determinar cuándo recurrir a herramientas externas.

Procesamiento del lenguaje natural

El procesamiento de lenguaje natural (PLN) es un subcampo de la informática y la IA que usa el machine learning para permitir que las computadoras comprendan y se comuniquen con el lenguaje humano. El PLN desempeña un papel cada vez más relevante en soluciones empresariales que ayudan a agilizar y automatizar las operaciones empresariales.

Machine learning

El machine learning es el subconjunto de la IA centrado en algoritmos que pueden “aprender” los patrones de los datos de entrenamiento. A continuación, esos algoritmos utilizan ese reconocimiento de patrones para realizar inferencias precisas sobre datos nuevos. El machine learning constituye la base de la mayoría de los sistemas de IA modernos, incluidos los modelos de lenguaje grandes y otras herramientas de IA generativa.

Modelos de lenguaje grandes

Los modelos de lenguaje grandes (LLM) son un tipo de modelo de aprendizaje profundo capaz de comprender y generar lenguaje natural y otros tipos de contenido para realizar una gran variedad de tareas. Sus capacidades se derivan de técnicas de procesamiento de lenguaje natural y entrenamiento en cantidades masivas de datos que les ayudan a manejar el lenguaje humano no estructurado a escala.

¿Cómo funciona la ingeniería de datos de IA agéntica?

Aunque el uso de agentes autónomos para la ingeniería de datos puede variar según el sistema de datos y el equipo de ingeniería, esta es una visión general de cómo los sistemas impulsados por IA pueden gestionar diferentes procesos y tareas de ingeniería de datos a lo largo de un ciclo de vida de los datos.

Creación de un pipeline de datos

La ingeniería de datos de IA agéntica permite a las organizaciones automatizar la creación de pipelines de datos. Los usuarios pueden expresar sus intenciones respecto a lo que debe ofrecer un flujo de trabajo utilizando lenguaje natural, sin necesidad de detallar los pasos necesarios para alcanzar los resultados deseados; es el agente de IA quien se encarga de determinar cómo funcionará el flujo de trabajo. Esto se conoce como creación declarativa de pipeline y es una alternativa al enfoque más práctico de programación en cada paso del pipeline.

Después de que un usuario envía una solicitud en lenguaje natural, los LLM analizan la solicitud y comprenden la intención del usuario. Luego, un agente de IA diseña y a menudo implementa un proceso de extremo a extremo que incluye:

  • Conexión e ingesta de fuentes de datos
  • Aplicación de transformaciones de datos
  • Transferencia de nuevos datos a un sistema de destino

Los usuarios con más conocimientos técnicos pueden optar por especificar la estructura de su pipeline de datos solicitado. Pueden hacerlo mediante el uso de un kit de desarrollo de software (SDK) de Python que permite a los LLM escribir y ejecutar scripts de Python basados en solicitudes de usuarios para diversas tareas relacionadas con datos, como seleccionar una fuente de datos o participar en la limpieza de datos.

Ejecución de tareas

Una vez que se diseña el pipeline, un sistema de IA agéntica puede ejecutar cargas de trabajo. Los agentes de IA utilizan llamadas a herramientas para interactuar con herramientas externas, interfaces de programación de aplicaciones (API) o sistemas necesarios para conectarse a fuentes de datos, interpretar metadatos y realizar transformaciones.

Los agentes también seleccionan la ruta de ejecución óptima para los flujos de trabajo de datos en entornos híbridos. Esto incluye la elección dinámica de los mejores enfoques de integración (transmisión en tiempo real, ETL/ELT por lotes o replicación) y entornos de tiempo de ejecución (on premises, en un entorno de nube o mediante motores pushdown y remotos) para cada parte de la tarea.

El aprendizaje por refuerzo puede ayudar a los agentes a mejorar los planes de pipeline a lo largo del tiempo al recompensar las ejecuciones de pipeline configuradas y completadas correctamente.

Monitoreo continuo

Un sistema agéntico puede permitir la observabilidad mediante el monitoreo continuo de los pipelines. Los agentes pueden detectar la deriva del esquema, anomalías de datos y problemas de calidad de los datos. También pueden permitir el análisis de la causa principal de los problemas de pipeline, recomendar pasos de corrección y ejecutar esos pasos.

La ejecución autónoma de correcciones de pipeline puede ser especialmente útil en momentos inoportunos. “¿Qué pasa si falla un trabajo nocturno? En lugar de avisar a alguien, el agente puede reintentar las ejecuciones, ampliar la capacidad de los motores y ajustar la lógica de flujo de forma automática”, explicó John Wen, gerente de producto de IBM, en un video de IBM Technology.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

¿Cuáles son los beneficios de la ingeniería de datos de IA agéntica?

La ingeniería de datos de IA agéntica proporciona una gran cantidad de beneficios a las organizaciones, sus equipos de datos y sus usuarios empresariales. Estos incluyen:

Gestionar la complejidad en entornos de datos

Un desafío fundamental al que se enfrentan los ingenieros de datos en la actualidad es la recopilación de datos en entornos complejos y en silos: diferentes nubes, depósitos de datos, data lakes, servidores on premises, entre otros. Algunos datos están organizados en hojas de cálculo y bases de datos SQL, pero gran parte de ellos no están estructurados en documentos, correos electrónicos, transcripciones e imágenes. En un sistema empresarial, los agentes de IA pueden conectarse a una amplia variedad de fuentes de datos e integrar diversos formatos de datos, creando plataformas de datos unificadas que permiten realizar análisis más exhaustivos y pronósticos más precisos.

Mejorar la calidad de los datos

Los agentes de IA pueden automatizar la elaboración de perfiles de datos, la validación de datos, la creación de reglas, la supervisión y la corrección. “Los agentes podrían detectar cambios de columna o desajustes de tipo de manera temprana y proponer arreglos antes de que fallen las tareas. Las comprobaciones continuas de anomalías, los reabastecimientos automáticos y el redireccionamiento alrededor de fuentes de datos fallidas ayudarán a mantener los datos confiables para usos posteriores en los sistemas de IA”, explicó Yan.

Mejora de la eficiencia

Los agentes de IA pueden evaluar diferentes estrategias de ejecución e identificar posibles cuellos de botella y complicaciones, como dependencias ocultas en diferentes pilas de aplicaciones. Al tener en cuenta esta información en el diseño de pipelines, pueden diseñar planes que minimicen el consumo de recursos y el tiempo operativo sin dejar de alcanzar los objetivos de datos.

Además, a medida que cambian la infraestructura o los esquemas, los sistemas de agentes pueden adaptar y reutilizar los pipelines existentes, lo que ayuda a las empresas a evitar la acumulación de pipelines obsoletos y deuda técnica.

Apoyar el cumplimiento normativo

El diseño de pipelines y el monitoreo continuo por parte de agentes de IA pueden garantizar que los datos confidenciales cumplan con las leyes de privacidad de datos, como la Ley de Portabilidad y Responsabilidad del Seguro Médico de Estados Unidos de 1996 (HIPAA) y el Reglamento General de Protección de Datos (RGPD) de la Unión Europea. Además, el seguimiento del linaje por parte de los agentes de IA puede respaldar la transparencia y la auditabilidad.

Autoservicio para usuarios empresariales

Los usuarios empresariales con conocimientos técnicos mínimos o nulos ya no tienen que depender exclusivamente de los profesionales de datos para ayudarles a satisfacer sus necesidades de datos. Pueden solicitar la creación o entrega de conjuntos de datos a agentes de IA en lugar de esperar la asistencia de un profesional de datos, lo que les ayuda a obtener insights clave más rápido.

Permitir un crecimiento escalable

Los agentes de IA pueden diseñar, construir y ejecutar pipelines de datos en pleno funcionamiento en una fracción del tiempo que tardarían los equipos de datos en codificar manualmente dichos pipelines. Los agentes de IA también pueden hacer que estos pipelines sean adaptables y “autocorrección”, es decir, pueden monitorear y abordar los problemas antes de que interrumpan los procesos posteriores. En conjunto, esto significa que las empresas pueden continuar agregando pipelines con confianza a medida que sus patrimonios de datos y sus necesidades de datos crecen y evolucionan.

Aumentar el ancho de banda para los ingenieros de datos

Al delegar las tareas de diseño, mantenimiento y resolución de problemas de pipelines a sistemas de IA agéntica, los ingenieros de datos pueden aumentar su productividad y ganar más ancho de banda para realizar tareas de alto valor y trabajos significativos, como construir y pilotar nuevas capacidades.

Consideraciones para la ingeniería de datos de IA agéntica

Al igual que con otros casos de uso de IA, las empresas deben considerar varios desafíos potenciales a medida que buscan desplegar IA agéntica para la ingeniería de datos.

  • La dificultad de integrar agentes de IA con sistemas heredados más antiguos que no son compatibles de por sí con la tecnología de IA.

  • El riesgo de que los agentes ejecuten de forma autónoma tareas inesperadas (como el reprocesamiento de grandes volúmenes de datos durante el horario laboral) que interrumpan los flujos de trabajo.

  • El riesgo de que los agentes contribuyan a filtraciones de datos, ya sea porque se ven afectados por un ciberataque o simplemente debido a resultados poco confiables de la IA.

Las soluciones y plataformas de software pueden ayudar a las empresas a abordar los desafíos de incorporar la IA agéntica, incluidos los sistemas impulsados por IA para la ingeniería de datos, en los flujos de trabajo cotidianos.

Las sólidas herramientas de gobernanza de la IA permiten la incorporación de barreras de seguridad para limitar los comportamientos no intencionales de los agentes y el despliegue de métricas especializadas para evaluar el rendimiento de los agentes. Las soluciones de orquestación de IA pueden ayudar a cerrar las brechas entre las tecnologías avanzadas de IA y los sistemas empresariales más antiguos sin necesidad de una reingeniería prolongada.

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

  1. Explore las soluciones de gestión de datos
  2. Descubra watsonx.data