¿Qué es el ciclo de vida de desarrollo de agentes (ADLC)?

El ciclo de vida del desarrollo de agentes, explicado

El ciclo de vida del desarrollo de agentes (ADLC) es una metodología estructurada y escalable de extremo a extremo para crear y gestionar agentes de IA empresarial. Las directrices, barreras y especificaciones del ADLC permiten sistemas agénticos fiables que se ajustan a los estándares comunes, lo que facilita la interoperabilidad y reduce los costes, los riesgos y la carga operativa.

El poder y la proliferación de agentes de IA (sistemas de software que utilizan modelos de lenguaje de gran tamaño (LLM) como motor de decisión para planificar de forma autónoma y ejecutar las tareas necesarias para lograr un objetivo prescrito) ha precipitado una rápida transformación de los flujos de trabajo empresariales. La velocidad de esa transformación ha superado la capacidad de muchas organizaciones de adaptar las estructuras tradicionales de TI para reflejar las demandas únicas de la integración de la IA agéntica, dando lugar a un ecosistema fragmentado. El ADLC introduce especificaciones comunes y prácticas compartidas para facilitar sistemas fiables y agénticos en diferentes herramientas, plataformas, proveedores y entornos empresariales.

Muchos de los procesos de TI estándar actuales evolucionaron en el contexto del desarrollo de software tradicional y se adaptan a las suposiciones de los sistemas estáticos y deterministas. Estos procesos no suelen adaptarse a la naturaleza dinámica y probabilística de los LLM que impulsan el comportamiento de los agentes: se denominan "agentes de IA" porque, literalmente, tienen agencia para determinar cómo ejecutar las tareas. Las normas y especificaciones compartidas que tengan en cuenta este cambio pueden reducir significativamente los riesgos asociados y acelerar la adopción responsable de la IA agéntica.

Para que la IA agéntica escale de forma sostenible y eficaz, los agentes de IA deben integrarse de forma predecible en diferentes modelos, plataformas, proveedores y ecosistemas de sectores. En la actualidad, casi todas las plataformas para construir agentes de IA tienen su propio formato para la definición del agente, el esquema de herramientas y funciones, el modelo de gestión de memoria y estado, la suite de pruebas, los protocolos de implementación y el sistema de versiones. Esta fragmentación dificulta la interoperabilidad, incrementando los costes de cambio y el vendor lock-in, lo que, según una investigación reciente, constituye una preocupación primordial (solo superada por la seguridad) para los líderes empresariales y técnicos que se desenvuelven en el ecosistema de agentes de IA.1 Operacionalmente, esta fragmentación también reduce el potencial de transferencia de habilidades y flujos de trabajo.

Aunque las normas y prácticas estandarizadas pueden mitigar estas ineficiencias, es importante que las organizaciones adopten y apliquen protocolos estructurales que trabajen con, y no contra, las tendencias y preferencias establecidas de los desarrolladores. Por lo tanto, el objetivo del ADLC es plasmar las prácticas emergentes de los desarrolladores en experiencias de agente de primera categoría.

El ADLC integra los principios básicos de DevSecOps para mapear el desarrollo de agentes de IA en una serie de fases interconectadas y en gran medida interdependientes. El propósito y las prácticas de cada fase, así como las relaciones entre sí, se exploran más adelante en este artículo. Los detalles, sugerencias y especificaciones completos se proporcionan en la guía oficial de IBM para la ADLC.

ADLC vs. SDLC

Algunos de los supuestos estándar y las buenas prácticas del ciclo de vida de desarrollo de software (SDLC) tradicional no son adecuados para construir agentes de IA. Para que las iniciativas de agentes de IA empresarial tengan éxito, las organizaciones deben comprender y tener en cuenta las diferencias fundamentales entre el software tradicional y los sistemas agénticos. 

  • Determinista vs. probabilístico: al software tradicional se le proporcionan instrucciones explícitas y deterministas (en forma de código imperativo) en busca de un objetivo final que solo está implícito; a los agentes de IA se les proporciona un objetivo final explícito y barreras de comportamiento, y luego se les asigna la tarea de utilizar herramientas, fuentes de datos y razonamiento autónomo para inferir la mejor manera de lograrlo. En un sistema agéntico, proporcionar la misma entrada dos veces puede dar dos outputs diferentes.

  • Estático vs. adaptativo: el software tradicional tiene una funcionalidad fija, con un comportamiento que cambia solo si el código que rige ese comportamiento se cambia activamente. El comportamiento de un agente puede evolucionar en función del feedback de su entorno.

  • Impulsado por el código vs. impulsado por los resultados: la naturaleza lineal y determinista del software tradicional permite a los desarrolladores predecir el éxito de un programa en términos de medidas estables y (relativamente) objetivas de la calidad del código. La naturaleza probabilística de la IA agéntica significa que una implementación óptima podría producir un rendimiento subóptimo del agente y que unas instrucciones desordenadas y subóptimas podrían, sin embargo, producir outputs precisos. La evaluación de los sistemas agénticos requiere, por tanto, una medición sistemática de los resultados empresariales y del comportamiento de los agentes a lo largo del tiempo.

Quizás lo más importante sea que los sistemas agénticos y el software tradicional tienen modos de fallo muy diferentes.

El software tradicional falla debido a errores lógicos o a casos extremos que "rompen" las rígidas instrucciones del código del software. Estos fallos suelen ser evidentes: el software se bloquea o produce outputs sin sentido. Como el software tradicional es determinista, cualquier fallo puede atribuirse a un defecto específico en el código (que luego puede depurar).

Los sistemas agénticos, por el contrario, suelen fallar por alucinaciones o problemas de alineación. Los agentes de IA operan interpretando probabilísticamente la intención (proporcionada a través de instrucciones del sistema, barreras de seguridad y contexto), en lugar de ejecutar la estricta lógica basada en reglas del software tradicional. Un agente podría "resolver" aparentemente un problema violando restricciones o proporcionando con confianza un resultado incorrecto. Estos fallos son más fáciles de pasar por alto: un output plausible pero falso es más difícil de detectar que un fallo del sistema. También son más difíciles de rastrear: el fallo general de un flujo de trabajo agéntico complejo de varios pasos puede deberse al resultado incorrecto de una única llamada a la herramienta probabilística, y el error infractor puede no reproducirse en una evaluación posterior.

Por ello, el ADLC integra la observabilidad, la contención y la evaluación continua en cada fase. El desarrollo agéntico debe equilibrar de manera eficiente la necesidad de realizar pruebas exhaustivas en escenarios del mundo real con la necesidad de contener el riesgo del mundo real.

Fases del ADLC

El ciclo de vida de desarrollo de agentes (ADLC) mapea el proceso de creación, implementación, optimización y gestión de agentes de IA en distintas fases, algunas de las cuales se combinan para formar bucles iterativos.

  • Planificación: involucre a todas las partes interesadas relevantes para alinearse con los casos de uso, los objetivos, las métricas de éxito y los resultados empresariales ideales (para informar un marco de evaluación). Establezca y documente el comportamiento deseado del agente y los procedimientos operativos estándar en lenguaje natural.

  • Codificación y construcción: desarrolle agentes (lo que implica, entre otras cosas, la selección de modelos, el diseño de instrucciones y la orquestación). Identifique servicios externos relevantes (como herramientas, bases de datos y API) e intégrelos en una capa empresarial utilizando el protocolo de contexto del modelo (MCP). Implemente patrones cuidadosos de control de versiones, entorno aislado y puerta de enlace.

  • Prueba y lanzamiento: realice evaluaciones estructuradas con puntos de referencia predefinidos, aplique comprobaciones de políticas, lleve a cabo pruebas de seguridad y ejercicios de trabajo de equipo rojo y certifique que los agentes están en un catálogo gobernado. Repita iterativamente las fases de Codificación y construcción Prueba y lanzamiento en un bucle según sea necesario.

  • Implementación: una vez certificados, mueva los agentes a entornos de producción, desplegándolos en etapas progresivas para gestionar el riesgo. Adopte un patrón de pasarela que permita un gobierno y una aplicación de políticas eficaces. Garantice el gobierno en tiempo de ejecución mediante entorno aislado, control de versiones, estrategias de reversión, aplicación de medidas de seguridad y limitación del rendimiento.

  • Funcionamiento: observe y optimice continuamente los agentes implementados, realizando un seguimiento de las métricas en tiempo real (como la precisión, la latencia, el coste y la satisfacción del usuario) y permaneciendo alerta ante posibles desviaciones del modelo o regresiones en el rendimiento. Utilice estos bucles de feedback para optimizar las instrucciones, las herramientas, los modelos y las políticas de memoria para el rendimiento y la seguridad, repitiendo iterativamente el bucle Implementación-Funcionamiento según sea necesario.

  • Monitorización: una vez que el sistema haya sido completamente validado y optimizado, continúe monitorizando y realizando auditorías continuas para garantizar la equidad, la transparencia y el cumplimiento normativo. Mantenga un catálogo bien gestionado de agentes y herramientas para facilitar la observabilidad y la reproducibilidad.

Al seguir estas fases y las prioridades que pretenden abordar (cada una de las cuales se explora con mayor detalle en las secciones siguientes) las organizaciones pueden ampliar el número de agentes de forma segura y con confianza, manteniéndolos fiables, auditables y alineados con el valor empresarial.

Plan

El proceso de desarrollo de agentes comienza con la alineación de casos de uso, a partir de la cual se desarrollan todas las demás consideraciones de planificación.

Los resultados empresariales específicos que deben conseguir sus agentes determinarán los indicadores clave de rendimiento (KPI) y otras métricas de éxito que se utilizarán para evaluar el rendimiento de los agentes. La automatización del servicio de Atención al cliente podría evaluarse principalmente en función de la satisfacción del usuario final y la reducción de costes, mientras que un agente de codificación podría evaluarse en función de la latencia y la calidad del código. Seleccionar la formulación matemática específica para estas métricas es una decisión arquitectónica crítica en sí misma, ya que diferentes métodos de cálculo pueden producir diferentes señales de éxito e incentivos operativos.

Los resultados empresariales específicos impulsados por agentes requieren que los agentes automaticen procesos, tareas y subtareas específicos, y muchas de esas tareas requerirán que los agentes de IA dispongan de acceso a herramientas, conjuntos de datos, bases de conocimiento y API específicos. Elaborar (y conseguir) una lista de todos los recursos necesarios antes de la fase de código y construcción es esencial para un proceso de desarrollo eficiente y eficaz.

Dicho esto, la decisión más importante que se debe tomar en la fase de planificación es si debe crear un agente de IA.

Cuándo crear un agente de IA

IBM recomienda encontrar la solución más sencilla que pueda satisfacer sus necesidades empresariales específicas. Si un problema puede resolverse con la automatización tradicional, sistemas de recuperación o instrucciones reflexivas, la IA agéntica podría introducir complicaciones innecesarias. Por ejemplo, un sistema para automatizar las respuestas a los correos electrónicos de los clientes requeriría un agente de IA, pero un sistema para clasificar correos electrónicos solo necesita un LLM y una instrucción bien diseñada.

Suponiendo que el rendimiento mejorado que la IA agéntica puede proporcionar con respecto a soluciones más sencillas para su caso de uso justifique los aumentos asociados en el coste y la latencia, una implementación ideal de la IA agéntica en escenarios empresariales suele implicar:

  • Alcance de producto bien definido. Priorice problemas empresariales específicos que requieran juicio o razonamiento de varios pasos que no se puedan lograr adecuadamente con una amplia automatización basada en reglas. Los problemas que requieren juicio contextual, razonamiento en varios pasos y toma de decisiones compleja a gran escala son candidatos ideales para la IA agéntica.

  • Métricas de éxito claras. La IA agéntica tiene éxito en escenarios donde el éxito puede evaluarse objetiva y cuantitativamente y se pueden aplicar estándares. Esto proporciona no solo la justificación sólida necesaria desde el punto de vista empresarial, sino también los objetivos de optimización que se necesitan desde el punto de vista operativo.

  • Complejidad manejable. La naturaleza probabilística de la IA agéntica significa que los sistemas multiagente conllevan riesgos de andamiaje en los que el fracaso de un solo paso podría tener consecuencias de gran alcance. Los beneficios teóricos de un sistema agéntico deberían superar claramente la complejidad operativa.

Un análisis exhaustivo de las implementaciones empresariales de IA agéntica ha arrojado patrones específicos que presentan un valor constante y un riesgo manejable: procesos con muchos documentos, servicio de atención al cliente y trabajo de conocimiento documentable. Estos son lugares ideales para empezar.

Codificación y construcción

Una vez que todos los stakeholders han acordado los objetivos, requisitos, restricciones y criterios de medición, los equipos pasan al proceso de construir realmente agentes de IA: implementar instrucciones, estrategias de memoria, lógica de coordinación y marcos de evaluación.

Los agentes deben integrarse con sistemas empresariales, API y herramientas externas y bases de conocimiento. Estas integraciones deben diseñarse teniendo en cuenta la seguridad y la telemetría. Los ganchos de observabilidad (fragmentos de código que capturan automáticamente datos operativos y mediciones instantáneos) deberían inyectarse en los momentos clave del flujo de trabajo para grabar las transcripciones de los agentes, incluidos los rastros del razonamiento de los agentes, las llamadas a las herramientas y los outputs.

En cada fase de desarrollo, los equipos deben aplicar políticas estrictas de control de versiones tanto para las variantes individuales de los agentes como (en su caso) para la lógica de orquestación que coordina su trabajo dentro de un sistema multiagente.

Selección del modelo

Elegir qué LLM (o LLMs) impulsará sus agentes de IA es una de las decisiones arquitectónicas más importantes que se deben tomar. Usar un modelo para cada tarea y rol rara vez es la mejor disposición en términos de rendimiento (y aun cuando lo es, esa mejora incremental de rendimiento conlleva concesiones en rentabilidad, latencia o ambos).

Los desarrolladores deben basarse en un portfolio de modelos diferentes:modelos de razonamiento para una planificación compleja, modelos específicos de dominio (obtenidos directamente de los proveedores de modelos o mediante los esfuerzos de ajuste de la propia organización) para tareas especializadas, cuando proceda, modelos más pequeños para minimizar el coste y la latencia para tareas más sencillas y de gran volumen.

Herramientas

Todas las integraciones, ya sea que integren datos empresariales, aplicaciones de terceros o sistemas externos, pueden tratarse como integraciones de herramientas habilitadas por servidores MCP. Lo ideal es que la plataforma de ingeniería agéntica que elija le permita adaptar el comportamiento de MCP a las necesidades de su caso de uso específico. Utilice un patrón MCP Gateway para asegurar y gestionar todas esas conexiones a través de sus sistemas backend.

Interoperabilidad

Siempre que sea posible, priorice la reproducibilidad y los estándares abiertos, como MCP para herramientas y recursos, OpenTelemetry para observabilidad y esquemas reutilizables para instrucciones. Del mismo modo, debe adoptar pautas coherentes para el almacenamiento y la recuperación, el acceso a las herramientas y la delegación de tareas.

Seguridad y gestión de riesgos

Para los sistemas empresariales que estarán expuestos a riesgos en el mundo real, la seguridad de la IA agéntica debería integrarse directamente en cada paso del desarrollo utilizando los principios de seguridad por diseño, en lugar de actualizarse después de los hechos.

Cada agente de IA debe recibir una etiqueta de identidad distinta para garantizar que cada acción realizada por un agente pueda registrarse, auditarse y atribuirse adecuadamente. Esto no solo permite rastrear de forma fiable los problemas de seguridad hasta su origen, sino que también facilita el cumplimiento de los marcos que continúan evolucionando a medida que madura la adopción de la IA agéntica.

El uso de entornos aislados y otras prácticas de contención son esenciales para limitar el riesgo. El entorno de ejecución de un agente, el acceso a la red y el acceso al sistema de archivos deben operar siempre según el principio de mínimo privilegio. Cada componente de un sistema agéntico debe recibir el permiso mínimo necesario para realizar sus tareas designadas.

Prueba y lanzamiento

Probar prototipos de agentes para garantizar que estén listos para su lanzamiento a producción requiere más que las pruebas unitarias y el análisis estático del ciclo de vida tradicional del diseño de software. También debe implicar una amplia validación del comportamiento frente a escenarios del mundo real o simulaciones de alta fidelidad. Dada la naturaleza probabilística de los sistemas agenticos, el tamaño de la muestra de estos escenarios de prueba debe ser lo suficientemente grande y variado como para proporcionar una confianza razonable en que todos los posibles comportamientos de agentes emergentes han sido observados y evaluados.

Los agentes de IA deben probarse con referencias predefinidas y comprobaciones de políticas que reflejen y apliquen con precisión los comportamientos deseados. Esto podría requerir la recopilación o creación de conjuntos de datos de verdad fundamental que indiquen la trayectoria que debe seguir un agente para cada tipo de entrada y situación. Se deben utilizar tanto las reseñas LLM-as-a-Judge como las human-in-the-loop, equilibrando la escala habilitada por el primero con la confianza proporcionada por el segundo.

Antes y después de la implementación inicial, es crucial contar con un proceso sólido de Integración continua y entrega continua (CI/CD) para realizar las pruebas y evaluaciones a la escala necesaria, ejecutar las evaluaciones automáticamente, probar la confianza de las herramientas y hacer cumplir las normas de seguridad. Durante las pruebas, un sistema de integración continua (CI) ayuda a garantizar que la lógica de razonamiento del agente no se interrumpe cuando se actualizan los modelos y las instrucciones que lo componen. Incluso cambiar la última versión del modelo del LLM que ya está usando puede tener efectos impredecibles en un entorno dinámico.

Evaluación

La evaluación continua de los agentes de IA en cada fase posterior a la creación del ADLC es esencial para el éxito de un sistema agéntico. Las evaluaciones offline durante la compilación y la integración continua ayudan a establecer puntos de referencia para el comportamiento y los resultados generales del agente. Las evaluaciones con intervención humana se invocan en tiempo de ejecución para guiar las decisiones individuales de un agente; por ejemplo, en una aplicación RAG agéntica, su flujo de trabajo podría exigir el cálculo de una puntuación de relevancia del contexto para determinar si se debe utilizar una fuente recuperada para generar un output.

Su marco de evaluación agéntica debe comprender múltiples tipos de métricas, que incluyen:

  • Métricas de calidad, como el porcentaje de éxito de las tareas, la precisión y la tasa de éxito de las llamadas a herramientas

  • Métricas de seguridad, como las violaciones de las políticas o la tasa de filtración de datos sensibles

  • Métricas de operaciones, como latencia, consumo de token y coste por tarea

  • Métricas empresariales, como puntuaciones de satisfacción o coste por resultado

Equipo rojo

El red teaming identifica de forma proactiva las vulnerabilidades de los adversarios y los posibles fallos de alineación. Simula condiciones hostiles, como ataques de inyección de instrucción e intentos de jailbreaking, para poner a prueba las restricciones de seguridad en escenarios que las pruebas de comportamiento estándar podrían pasar por alto.

Implementar

Tras probarlos, optimizarlos y validarlos exhaustivamente, los agentes de IA se implementan de forma segura en los entornos empresariales. La fase de implementación debe entenderse como una activación deliberada y estratégica por niveles, más que como un acto singular parecido a pulsar un proverbial botón rojo grande de "IMPLEMENTAR". El ADLC garantiza la seguridad del sistema en tiempo de ejecución mediante el entorno aislado, el control de versiones, las estrategias de reversión y los sistemas de seguridad. 

El despliegue de sus agentes de IA debe ejecutarse progresivamente para gestionar el riesgo. Considere diferentes estrategias de implementación, como implementaciones azul-verde, continuas o canary, para determinar cuál es la más propicia para sus patrones de tráfico de uso.En un entorno empresarial real y en vivo, la estabilidad debe seguir siendo la máxima prioridad: dividir cuidadosamente su despliegue en etapas le permite verificar la resiliencia de su sistema a actualizaciones significativas.

Entorno aislado

El entorno aislado es la práctica de limitar estrictamente el alcance y las capacidades de los agentes y sus herramientas ejecutándolos dentro de entornos aislados que imponen el acceso de menor privilegio a API de computación, almacenamiento, red y sistema. Incluso si un agente falla o se porta mal, un entorno aislado adecuado minimiza el alcance y la magnitud de los posibles problemas. Es una práctica crítica en cualquier escenario en el que el mal uso de una herramienta, la generación de código o la transformación de datos de un agente pueda tener consecuencias en su base de código, integridad de datos, clientes u otros agentes.

Las estrategias de implementación comunes para el entorno aislado incluyen:

  • Virtualización ligera

  • Perfiles de seguridad de los contenedores

  • Controles de red (normalmente a través de una puerta de enlace MCP)

  • Políticas de acceso al sistema de archivos

  • Aplicación de políticas a nivel de puerta de enlace

Operar

El ADLC no termina una vez que sus agentes de IA se hayan implementado completa y exitosamente. Al igual que el bucle iterativo formado por la fase Codificación y construcción y la fase Prueba y lanzamiento , las fases Implementación y Funcionamiento deben entenderse como dos partes de un bucle de feedback continuo. Mientras que el objetivo final del bucle inicial de Construcción/Prueba es que los agentes alcancen el umbral mínimo de rendimiento necesario para conseguir los resultados empresariales deseados, el objetivo del bucle Implementación/Funcionamiento es la optimización.

Tras la implementación, es necesaria una supervisión operativa continua para garantizar que el rendimiento de su agente siga siendo fiable, eficaz y seguro en un entorno real. Las métricas en tiempo real, recopiladas y accesibles fácilmente en un panel de control unificado, deben supervisarse activamente para detectar desviaciones o regresiones de rendimiento. Cualquier regresión notable, ya sea en términos de eficiencia operativa o de feedback del usuario final, debe abordarse activamente. Cualquier cambio que surja como solución a esos problemas emergentes debe probarse minuciosamente e implementarse de forma progresiva.

La observabilidad full stack es crítica para los sistemas agénticos que no solo logran un rendimiento óptimo, seguridad y fiabilidad, sino que también la mantienen a lo largo del tiempo.

Agentes de IA

Cinco tipos de agentes de IA: funciones autónomas y aplicaciones del mundo real

Descubra cómo la IA basada en objetivos y servicios se adapta a flujos de trabajo y entornos complejos.

Monitorizar

Una vez que su implementación agéntica esté completamente validada y optimizada en producción en vivo, realice auditorías continuas para garantizar la equidad, transparencia, riesgos de seguridad y cumplimiento normativo, además del rendimiento general.

Los sectores y los requisitos legales continúan evolucionando, y no mantenerse al día con ambos puede tener resultados regulatorios, desventajas competitivas o ambas cosas. La deriva del modelo es un fenómeno inevitable que se aborda mejor con un enfoque proactivo. Las necesidades empresariales cambian y los sistemas operativos implementados para satisfacer esas necesidades deberán cambiar en consecuencia.

Para las necesidades presentes y futuras, las empresas deben disponer de un catálogo de agentes y herramientas claramente organizado en el que se indique:

  • Apropiación, para facilitar la rendición de cuentas y la escalada de problemas

  • Versiones, para una práctica disciplinada de gestión del cambio

  • Postura de riesgo, para informar la toma de decisiones

  • Todos los entornos pertinentes, para mantener una supervisión operativa exhaustiva

  • Auditabilidad, para agilizar la recopilación de pruebas, evaluaciones, aprobaciones y red teaming.

Autor

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Soluciones relacionadas
Agentes de IA para empresas

Cree, implemente y gestione potentes asistentes y agentes de IA que automaticen flujos de trabajo y procesos con IA generativa.

    Explore watsonx Orchestrate
    Soluciones de agente de IA de IBM

    Construya el futuro de su empresa con soluciones de IA en las que puede confiar.

    Explore las soluciones de los agentes de IA
    Servicios de IA de IBM Consulting

    Los servicios de IA de IBM Consulting ayudan a reinventar la forma de trabajar de las empresas usando IA para la transformación.

    Explore los servicios de inteligencia artificial
    Dé el siguiente paso

    Tanto si opta por personalizar las aplicaciones y habilidades prediseñadas como si prefiere crear e implementar servicios agentivos personalizados mediante un estudio de IA, la plataforma IBM watsonx le ofrece todo lo que necesita.

    1. Explore watsonx Orchestrate
    2. Explore watsonx.ai