¿Qué es el aprendizaje de agentes de IA?

Autores

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Cómo aprenden y se adaptan los agentes de IA con el tiempo?

El aprendizaje deagentes de IA se refiere al proceso mediante el cual un agente de inteligencia artificial (IA) mejora su rendimiento a lo largo del tiempo interactuando con su entorno, procesando datos y optimizando su toma de decisiones. Este proceso de aprendizaje permite a los agentes autónomos adaptarse, mejorar la eficiencia y manejar tareas complejas en entornos dinámicos. El aprendizaje es un componente fundamental de muchos sistemas de IA agéntica.

No todos los tipos de agentes de IA pueden aprender. Algunos son simples agentes reflejos que toman datos de forma pasiva y, al carecer de capacidades de aprendizaje, realizan acciones reactivas programadas en respuesta.

Hay agentes reflejos basados en modelos que pueden razonar sobre su entorno y agentes proactivos basados en objetivos que pueden perseguir objetivos específicos, pero no aprenden. Tampoco pueden hacerlo los agentes basados en la utilidad, que utilizan una función de utilidad para evaluar y seleccionar acciones que maximicen el beneficio.

Un agente de aprendizaje mejora su rendimiento con el tiempo adaptándose a nuevas experiencias y datos. Otros agentes de IA trabajan con reglas o modelos predefinidos, mientras que los agentes de aprendizaje actualizan continuamente su comportamiento en función del feedback del entorno.

Esto les permite mejorar sus habilidades de toma de decisiones y desempeñarse mejor en situaciones dinámicas e inciertas. Los agentes de aprendizaje representan todo el potencial de las herramientas de IA para manejar cargas de trabajo de resolución de problemas de varios pasos con una mínima intervención humana.

Los agentes de aprendizaje suelen constar de 4 componentes principales:

  1. Elemento de rendimiento: toma decisiones informadas basadas en una base de conocimientos.

  2. Elemento de aprendizaje: ajusta y mejora el conocimiento del agente en función del feedback y la experiencia.

  3. Crítico: evalúa las acciones del agente y proporciona retroalimentación, a menudo en forma de recompensas o sanciones.

  4. Generador de problemas: sugiere acciones exploratorias para ayudar al agente a descubrir nuevas estrategias y mejorar su aprendizaje.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Tipos de aprendizaje de agentes de IA

El machine learning (ML) forma la columna vertebral de los diversos tipos de aprendizaje de agentes de IA. Permite a los agentes identificar patrones, hacer predicciones y mejorar el rendimiento en función de los datos.

Las tres técnicas principales de machine learning utilizadas en los agentes de IA son el aprendizaje supervisado, el aprendizaje no supervisado y el aprendizaje por refuerzo. Más específicamente, se trata de técnicas de aprendizaje profundo que utilizan redes neuronales complejas con muchas capas para procesar grandes cantidades de datos y aprender patrones intrincados.

Aprendizaje supervisado

El aprendizaje supervisado implica entrenar algoritmos de machine learning en conjuntos de datos etiquetados, en los que cada entrada corresponde a resultados conocidos.

El agente utiliza esta información para crear modelos predictivos. Por ejemplo, los chatbots de IA pueden entrenarse en conversaciones de atención al cliente y las resoluciones correspondientes para proporcionar respuestas previstas. Este enfoque se aplica ampliamente en el reconocimiento de imágenes, el procesamiento de voz a texto y el diagnóstico médico.

El aprendizaje por transferencia permite a los agentes de IA utilizar el conocimiento adquirido en una tarea y aplicarlo a otra. Por ejemplo, un modelo de lenguaje extenso (LLM) entrenado en un conjunto de datos puede ajustarse para un dominio específico, como el procesamiento de textos legales o médicos.

Aprendizaje no supervisado

Por el contrario, el aprendizaje no supervisado permite a los agentes de IA realizar análisis de datos en datos no etiquetados para encontrar patrones y estructuras sin supervisión humana.

Este método es útil en tareas como la agrupación en clústeres del comportamiento del cliente para mejorar las estrategias de marketing, la detección de anomalías de ciberseguridad y los sistemas de recomendación, como los que utilizan los servicios de streaming.

El aprendizaje autosupervisado utiliza el aprendizaje no supervisado para tareas que convencionalmente requieren aprendizaje supervisado. En lugar de depender de conjuntos de datos etiquetados para las señales de supervisión, los modelos de IA autosupervisados generan etiquetas implícitas a partir de datos no estructurados.

El aprendizaje autosupervisado es útil en campos como la visión artificial y el procesamiento de lenguaje natural (PLN), que requieren grandes cantidades de datos de entrenamiento etiquetados.

Aprendizaje por refuerzo

El aprendizaje por refuerzo es un proceso de machine learning que se centra en los flujos de trabajo de toma de decisiones en agentes autónomos. Aborda los procesos secuenciales de toma de decisiones en entornos inciertos.

A diferencia del aprendizaje supervisado, el aprendizaje de refuerzo no emplea ejemplos etiquetados de comportamiento correcto o incorrecto. Sin embargo, el aprendizaje por refuerzo también se diferencia del aprendizaje no supervisado en que el aprendizaje por refuerzo aprende por ensayo y error y por función de recompensa en lugar de extraer información de patrones ocultos.

El aprendizaje por refuerzo también se diferencia del aprendizaje autosupervisado porque no produce pseudoetiquetas ni mide contra una verdad fundamental: no es un método de clasificación sino un aprendiz en acción.

Los agentes de IA que utilizan el aprendizaje por refuerzo operan a través de un proceso de prueba y error, en el que toman medidas dentro de un entorno, observan los resultados y ajustan sus estrategias en consecuencia. El proceso de aprendizaje implica definir una política que asigne estados a acciones, optimizando para obtener recompensas acumulativas a largo plazo en lugar de ganancias inmediatas.

Con el tiempo, el agente refina sus capacidades de toma de decisiones a través de interacciones repetidas, mejorando gradualmente su capacidad para realizar tareas complejas de manera efectiva. Este enfoque es beneficioso en entornos dinámicos donde las reglas predefinidas pueden no ser suficientes para un rendimiento óptimo.

Los vehículos autónomos utilizan el aprendizaje por refuerzo para aprender comportamientos de conducción óptimos. A través de prueba y error, la IA mejora su capacidad para navegar por carreteras, evitar obstáculos y tomar decisiones de conducción en tiempo real. Los chatbots impulsados por IA mejoran sus habilidades conversacionales aprendiendo de las interacciones de los usuarios y optimizando las respuestas para mejorar la interacción.

Aprendizaje continuo



El aprendizaje continuo de los agentes de IA se refiere a la capacidad de un sistema de inteligencia artificial para aprender y adaptarse con el tiempo, incorporando nuevos datos y experiencias sin olvidar los conocimientos previos. A diferencia del machine learning tradicional, que comúnmente implica el entrenamiento en un conjunto de datos fijo, el aprendizaje continuo permite a la IA actualizar sus modelos a medida que encuentra nueva información o cambios en su entorno. Esto permite al agente mejorar su rendimiento en tiempo real, adaptándose a nuevos patrones, situaciones cambiantes y condiciones dinámicas.

El aprendizaje continuo es importante en las aplicaciones del mundo real, en las que los datos cambian constantemente y la IA debe mantenerse actualizada con nuevas entradas para seguir siendo eficaz. Ayuda a prevenir el "olvido catastrófico", en el que el modelo olvida los conocimientos antiguos al aprender nueva información y ayuda a garantizar que el sistema pueda manejar un conjunto de tareas y desafíos en constante evolución.

Aprendizaje y colaboración multiagente

Uno de los beneficios de los agentes de IA es que pueden trabajar juntos. En las arquitecturas multiagente, los agentes de IA aprenden a través de la colaboración y la competencia. En el aprendizaje cooperativo, los agentes comparten conocimientos para lograr un objetivo común, como se ve en la robótica de enjambre.

Sin embargo, el aprendizaje competitivo ocurre cuando los agentes refinan sus estrategias compitiendo en entornos opuestos, como la IA de comercio financiero.

Imagine una red de agentes de IA que trabajan para mejorar la atención al paciente, agilizar los flujos de trabajo, promover el cumplimiento de las consideraciones éticas y optimizar la asignación de recursos en una red hospitalaria.

En estos marcos multiagente, a veces un agente de aprendizaje más avanzado equipado con IA generativa supervisa agentes reflexivos o basados en objetivos más simples. En este caso de uso, cada agente podría representar un rol o tarea diferente dentro del sistema de atención médica, y colaborarían y compartirían información para mejorar los resultados de los pacientes y la eficiencia operativa.

Agentes de IA

Cinco tipos de agentes de IA: funciones autónomas y aplicaciones reales

Descubra cómo la IA orientada a objetivos y basada en utilidades se adapta a los flujos de trabajo y entornos complejos.

Mecanismos de retroalimentación

Con los mecanismos de retroalimentación, un sistema de IA recibe información sobre los resultados de sus acciones o predicciones, lo que le permite evaluar la precisión o eficacia de su comportamiento.

Esta retroalimentación, que puede ser positiva (reforzar el comportamiento correcto) o negativa (sancionar el comportamiento incorrecto), es esencial para guiar las decisiones del sistema y mejorar su rendimiento. La retroalimentación es un componente crítico que permite el aprendizaje en IA, pero no es la totalidad del proceso de aprendizaje.

La retroalimentación en tiempo real es crucial para los agentes de IA que operan en entornos dinámicos. Los sistemas autónomos, como los automóviles autónomos y la automatización robótica de procesos (RPA), recopilan continuamente datos de sensores y ajustan su comportamiento en función de la retroalimentación inmediata. Esto les permite adaptarse a las condiciones cambiantes y mejorar su toma de decisiones en tiempo real.

Retroalimentación de aprendizaje no supervisado

En el aprendizaje no supervisado, la retroalimentación no se proporciona explícitamente en forma de datos etiquetados o supervisión directa. En cambio, el agente de IA busca patrones, estructuras o relaciones dentro de los propios datos.

Por ejemplo, en tareas de clúster o reducción de dimensionalidad, el feedback ocurre implícitamente a medida que el agente ajusta su modelo para representar mejor la estructura subyacente de los datos.

El modelo refina su comprensión de los datos a través de métricas como la minimización de errores, por ejemplo, reduciendo el error de reconstrucción en autocodificadores u optimizando un criterio específico, como maximizar la similitud de los datos en una agrupación en clústeres.

En un sistema de gestión de la cadena de suministro que necesita predecir la demanda de productos y optimizar los niveles de inventario en múltiples almacenes y tiendas, un agente de IA podría usar técnicas de aprendizaje no supervisado, como la agrupación o la detección de anomalías para analizar grandes volúmenes de datos históricos de ventas, sin la necesidad de etiquetas explícitas o categorías predefinidas.

Retroalimentación de aprendizaje supervisado

En el aprendizaje supervisado, la retroalimentación es explícita y viene en forma de datos etiquetados. El agente de IA se entrena mediante pares de entrada/resultados (por ejemplo, una imagen con una etiqueta correspondiente). Después de que el agente hace predicciones, se proporciona retroalimentación comparando su salida con la etiqueta correcta (verdad fundamental).

La diferencia entre la salida prevista y la verdadera (error) se calcula, a menudo utilizando una función de pérdida. Esta retroalimentación se utiliza para ajustar los parámetros del modelo para que el este pueda mejorar sus predicciones con el tiempo.

Los agentes de IA pueden utilizar el aprendizaje supervisado para predecir qué productos o servicios es probable que interesen a un cliente, en función de su comportamiento pasado, historial de compras o preferencias de usuario.

Por ejemplo, una solución de IA para una plataforma de comercio electrónico puede utilizar datos históricos, como compras anteriores y calificaciones, como ejemplos etiquetados para entrenar un modelo que predice los productos que un cliente podría querer comprar a continuación, mejorando las experiencias del cliente.

El aprendizaje supervisado se considera aprendizaje humano en el ciclo (HITL) porque los agentes de IA integran la retroalimentación humana para refinar sus modelos, mejorar la toma de decisiones y adaptarse a nuevas situaciones.

Este método combina el aprendizaje automatizado con la experiencia humana, lo que permite a la IA manejar tareas complejas de manera más eficaz y, al mismo tiempo, minimizar los errores y los sesgos. HITL también se puede integrar como un mecanismo de retroalimentación en otros tipos de aprendizaje, pero solo es parte integral del proceso de aprendizaje autosupervisado.

Retroalimentación del aprendizaje por refuerzo

En el aprendizaje por refuerzo (RL), la retroalimentación se proporciona en forma de recompensas o penalizaciones. Un agente de RL interactúa con un entorno, realizando acciones que conducen a diferentes resultados. Después de cada acción, el agente recibe retroalimentación en forma de recompensa o penalización escalar que indica qué tan bueno o malo fue el resultado en relación con el objetivo.

El agente utiliza esta retroalimentación para ajustar su política o estrategia de toma de decisiones, con el objetivo de maximizar las recompensas acumulativas a lo largo del tiempo. Este ciclo de retroalimentación permite al agente aprender acciones o estrategias óptimas a través de prueba y error, refinando su comportamiento a medida que explora el entorno.

Retroalimentación de aprendizaje autosupervisado

En el aprendizaje autosupervisado, el agente genera sus propias etiquetas a partir de los datos, creando una forma de retroalimentación desde la estructura dentro de los propios datos. El modelo utiliza partes de los datos para predecir otras partes, como predecir palabras faltantes en una oración o predecir futuros fotogramas en un video.

La retroalimentación proviene de comparar las predicciones del modelo con los datos reales faltantes o futuros. El agente aprende minimizando el error de predicción, refinando sus representaciones internas basadas en esta retroalimentación autogenerada.

Soluciones relacionadas
Agentes de IA para empresas

Cree, implemente y gestione poderosos asistentes y agentes de IA que automaticen flujos de trabajo y procesos con IA generativa.

    Explore watsonx Orchestrate
    Soluciones de agentes de IA de IBM

    Construya el futuro de su empresa con soluciones de IA en las que pueda confiar.

    Explorar las soluciones de agentes de IA
    Servicios de IA de IBM Consulting

    Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

    Explorar los servicios de inteligencia artificial
    Dé el siguiente paso

    Ya sea que elija personalizar aplicaciones y habilidades predefinidas o crear y desplegar servicios agénticos personalizados utilizando un estudio de IA, la plataforma IBM watsonx responde a sus necesidades.

    Explore watsonx Orchestrate Explore watsonx.ai