¿Qué es el aprendizaje de agentes de IA?

Autores

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Cómo aprenden y se adaptan los agentes de IA con el tiempo?

El aprendizaje de agentes de IA se refiere al proceso mediante el cual un agente de inteligencia artificial (IA) mejora su rendimiento a lo largo del tiempo interactuando con su entorno, procesando datos y optimizando su toma de decisiones. Este proceso de aprendizaje permite a los agentes autónomos adaptarse, mejorar la eficiencia y gestionar tareas complejas en entornos dinámicos. El aprendizaje es un componente fundamental de muchos sistemas de IA agéntica.

No todos los tipos de agentes de IA pueden aprender. Algunos son simples agentes reflejos que toman datos de forma pasiva y, al carecer de capacidades de aprendizaje, realizan acciones reactivas programadas en respuesta.

Hay agentes reflejos basados en modelos que pueden razonar sobre su entorno, y agentes proactivos basados en objetivos que pueden perseguir objetivos específicos, pero no aprenden. Tampoco pueden hacerlo los agentes basados en el beneficio, que utilizan una función de beneficio para evaluar y seleccionar acciones que maximicen el beneficio general.

Un agente de aprendizaje mejora su rendimiento con el tiempo adaptándose a nuevas experiencias y datos. Otros agentes de IA trabajan con reglas o modelos predefinidos, mientras que los agentes de aprendizaje actualizan continuamente su comportamiento en función del feedback del entorno.

Esto les permite mejorar sus capacidades de toma de decisiones y desempeñarse mejor en situaciones dinámicas e inciertas. Los agentes de aprendizaje representan todo el potencial de las herramientas de IA para gestionar cargas de trabajo de resolución de problemas de varios pasos con una intervención humana mínima.

Los agentes de aprendizaje suelen constar de cuatro componentes principales:

  1. Elemento de rendimiento: toma decisiones informadas basadas en una base de conocimientos.

  2. Elemento de aprendizaje: ajusta y mejora los conocimientos del agente basándose en la experiencia y el feedback.

  3. Crítico: evalúa las acciones del agente y proporciona comentarios, a menudo en forma de recompensas o penalizaciones.

  4. Generador de problemas: sugiere acciones exploratorias para ayudar al agente a descubrir nuevas estrategias y mejorar su aprendizaje.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Tipos de aprendizaje de agentes de IA

El machine learning (ML) forma la columna vertebral de los distintos tipos de aprendizaje de agente de IA. Permite a los agentes identificar patrones, hacer predicciones y mejorar el rendimiento en función de los datos.

Las tres técnicas principales de machine learning utilizadas en los agentes de IA son el aprendizaje supervisado, el aprendizaje no supervisado y el aprendizaje por refuerzo. Más concretamente, se trata de técnicas de deep learning que utilizan redes neuronales complejas con muchas capas para procesar grandes cantidades de datos y aprender patrones intrincados.

Aprendizaje supervisado

El aprendizaje supervisado implica entrenar algoritmos de machine learning en conjuntos de datos etiquetados, donde cada entrada corresponde a una salida conocida. El agente utiliza esta información para crear modelos predictivos.

Por ejemplo, los chatbots de IA pueden entrenarse en conversaciones de servicio de atención al cliente y las resoluciones correspondientes para proporcionar respuestas previstas. Este enfoque se aplica ampliamente en el reconocimiento de imágenes, el procesamiento de voz a texto y el diagnóstico médico.

El aprendizaje por transferencia permite a los agentes de IA utilizar los conocimientos adquiridos en una tarea y aplicarlos a otra. Por ejemplo, un modelo de lenguaje de gran tamaño (LLM) entrenado en un conjunto de datos puede ajustarse para un dominio específico, como el procesamiento de textos legales o médicos.

Aprendizaje no supervisado

Por el contrario, el aprendizaje no supervisado permite a los agentes de IA realizar análisis de datos en datos no etiquetados para encontrar patrones y estructuras sin supervisión humana.

Este método es útil en tareas como la agrupación del comportamiento de los clientes para mejorar las estrategias de marketing, la detección de anomalías en ciberseguridad y los sistemas de recomendación, como los que utilizan los servicios de streaming.

El aprendizaje autosupervisado utiliza el aprendizaje no supervisado para tareas que convencionalmente requieren aprendizaje supervisado. En lugar de depender de conjuntos de datos etiquetados para las señales de supervisión, los modelos de IA autosupervisados generan etiquetas implícitas a partir de datos no estructurados.

El aprendizaje autosupervisado es útil en campos como la visión artificial y el procesamiento del lenguaje natural (PLN), que requieren grandes cantidades de datos de entrenamiento etiquetados.

Aprendizaje de refuerzo

El aprendizaje por refuerzo es un proceso de machine learning que se centra en los flujos de trabajo de toma de decisiones en agentes autónomos. Aborda los procesos secuenciales de toma de decisiones en entornos inciertos.

A diferencia del aprendizaje supervisado, el aprendizaje por refuerzo no utiliza ejemplos etiquetados de comportamiento correcto o incorrecto. Sin embargo, el aprendizaje por refuerzo también se diferencia del aprendizaje no supervisado en que el primero aprende por ensayo y error y por función de recompensa en lugar de extraer información de patrones ocultos.

El aprendizaje por refuerzo también se diferencia del aprendizaje autosupervisado porque no produce pseudoetiquetas ni mide contra una verdad básica; no es un método de clasificación sino un aprendiz de acción.

Los agentes de IA que utilizan el aprendizaje por refuerzo operan a través de un proceso de prueba y error, en el que toman medidas dentro de un entorno, observan los resultados y ajustan sus estrategias en consecuencia. El proceso de aprendizaje implica definir una política que asigne estados a acciones, optimizando las recompensas acumulativas a largo plazo en lugar de las ganancias inmediatas.

Con el tiempo, el agente perfecciona sus capacidades de toma de decisiones a través de interacciones repetidas, mejorando gradualmente su capacidad para realizar tareas complejas de manera eficaz. Este enfoque es beneficioso en entornos dinámicos donde las reglas predefinidas pueden no ser suficientes para un rendimiento óptimo.

Los vehículos autónomos utilizan el aprendizaje por refuerzo para aprender comportamientos de conducción óptimos. A través de prueba y error, la IA mejora su capacidad para navegar por carreteras, evitar obstáculos y tomar decisiones de conducción en tiempo real. Los chatbots con IA mejoran sus habilidades conversacionales aprendiendo de las interacciones de los usuarios y optimizando las respuestas para mejorar el compromiso.

Aprendizaje continuo

El aprendizaje continuo en los agentes de IA se refiere a la capacidad de un sistema de inteligencia artificial para aprender y adaptarse a lo largo del tiempo, incorporando nuevos datos y experiencias sin olvidar los conocimientos previos.

A diferencia del machine learning tradicional, que suele implicar el entrenamiento en un conjunto de datos fijo, el aprendizaje continuo permite a la IA actualizar sus modelos continuamente a medida que encuentra nueva información o cambios en su entorno. Esto permite al agente mejorar su rendimiento en tiempo real, adaptándose a nuevos patrones, situaciones cambiantes y condiciones dinámicas.

El aprendizaje continuo es importante en las aplicaciones del mundo real, donde los datos cambian constantemente y la IA debe mantenerse al día con las nuevas entradas para seguir siendo eficaz. Ayuda a evitar el "olvido catastrófico", en el que el modelo olvida los conocimientos antiguos al aprender nueva información y ayuda a garantizar que el sistema pueda manejar un conjunto de tareas y desafíos en constante evolución.

Aprendizaje y colaboración multiagente

Uno de los beneficios de los agentes de IA es que pueden trabajar juntos. En las arquitecturas multiagente, los agentes de IA aprenden a través de la colaboración y la competencia. En el aprendizaje cooperativo, los agentes comparten conocimientos para lograr un objetivo común, como se ve en la robótica de enjambres.

Sin embargo, el aprendizaje competitivo se produce cuando los agentes refinan sus estrategias compitiendo en entornos adversarios, como la IA del comercio financiero.

Imagine una red de agentes de IA que trabajan para mejorar la atención al paciente, agilizar los flujos de trabajo, promover el cumplimiento de las consideraciones éticas y optimizar la asignación de recursos en una red hospitalaria.

En estos marcos multiagente, a veces un agente de aprendizaje más avanzado equipado con IA generativa (IA gen) supervisa agentes reflexivos o basados en objetivos más simples. En este caso de uso, cada agente podría representar una función o tarea diferente dentro del sistema sanitario, y colaborarían y compartirían información para mejorar los resultados de los pacientes y la eficiencia operativa.

Agentes de IA

Cinco tipos de agentes de IA: funciones autónomas y aplicaciones del mundo real

Descubra cómo la IA basada en objetivos y servicios se adapta a flujos de trabajo y entornos complejos.

Mecanismos de feedback

Con los mecanismos de feedback, un sistema de IA recibe información sobre los resultados de sus acciones o predicciones, lo que le permite evaluar la precisión o eficacia de su comportamiento.

Este feedback, que puede ser positivo (reforzando el comportamiento correcto) o negativo (penalizando el comportamiento incorrecto), es esencial para guiar las decisiones del sistema y mejorar su rendimiento. El feedback es un componente crítico que permite el aprendizaje en IA, pero no es la totalidad del proceso de aprendizaje.

El feedback en tiempo real es crucial para los agentes de IA que operan en entornos dinámicos. Los sistemas autónomos, como los coches autónomos y la automatización de procesos robóticos (RPA), recopilan continuamente datos de sensores y ajustan su comportamiento en función del feedback inmediato. Esto les permite adaptarse a las condiciones cambiantes y mejorar su toma de decisiones en tiempo real.

Feedback sobre el aprendizaje no supervisado

En el aprendizaje no supervisado, el feedback no se proporciona explícitamente en forma de datos etiquetados o supervisión directa. En su lugar, el agente de IA busca patrones, estructuras o relaciones dentro de los propios datos.

Por ejemplo, en tareas de clúster o reducción de dimensionalidad, el feedback se produce implícitamente a medida que el agente ajusta su modelo para representar mejor la estructura subyacente de los datos.

El modelo refina su comprensión de los datos a través de métricas como la minimización de errores, por ejemplo, reduciendo el error de reconstrucción en autocodificadores u optimizando un criterio específico, como maximizar la similitud de los datos en el clúster.

En un sistema de gestión de la cadena de suministro que necesita predecir la demanda de productos y optimizar los niveles de inventario en múltiples almacenes y tiendas, un agente de IA podría usar técnicas de aprendizaje no supervisadas, como la agrupación o la detección de anomalías para analizar grandes volúmenes de datos históricos de ventas, sin la necesidad de etiquetas explícitas o categorías predefinidas.

Feedback de aprendizaje supervisado

En el aprendizaje supervisado, el feedback es explícito y se presenta en forma de datos etiquetados. El agente de IA se entrena utilizando pares de entrada/salida (por ejemplo, una imagen con una etiqueta correspondiente). Después de que el agente hace predicciones, se proporciona feedback comparando su resultado con la etiqueta correcta (verdad básica).

La diferencia entre la salida prevista y la verdadera (error) se calcula, a menudo utilizando una función de pérdida. Este feedback se utiliza luego para ajustar los parámetros del modelo para que el modelo pueda mejorar sus predicciones con el tiempo.

Los agentes de IA pueden utilizar el aprendizaje supervisado para predecir en qué productos o servicios es probable que esté interesado un cliente, en función de su comportamiento anterior, historial de compras o preferencias de usuario.

Por ejemplo, una solución de IA para una plataforma de comercio electrónico puede utilizar datos históricos como compras anteriores y valoraciones como ejemplos etiquetados para entrenar un modelo que prediga los productos que un cliente podría querer comprar a continuación, mejorando la experiencia del cliente.

El aprendizaje supervisado se considera aprendizaje humano en el bucle (HITL) porque los agentes de IA integran el feedback humano para refinar sus modelos, mejorar la toma de decisiones y adaptarse a nuevas situaciones.

Este método combina el aprendizaje automatizado con la experiencia humana, lo que permite a la IA manejar tareas complejas de manera más efectiva al tiempo que minimiza los errores y los sesgos. HITL también puede integrarse como mecanismo de feedback en otros tipos de aprendizaje, pero solo es parte integral del proceso de aprendizaje autosupervisado.

Feedback del aprendizaje por refuerzo

En el aprendizaje por refuerzo (RL), el feedback se proporciona en forma de recompensas o penalizaciones. Un agente de RL interactúa con un entorno, realizando acciones que conducen a diferentes resultados. Después de cada acción, el agente recibe feedback en forma de recompensa o penalización escalar que indica qué tan bueno o malo fue el resultado en relación con el objetivo.

El agente utiliza estos comentarios para ajustar su política o estrategia de toma de decisiones, con el objetivo de maximizar las recompensas acumulativas a lo largo del tiempo. Este bucle de feedback permite al agente aprender acciones o estrategias óptimas mediante ensayo y error, refinando su comportamiento a medida que Explorar el entorno.

Feedback sobre el aprendizaje autosupervisado

En el aprendizaje autosupervisado, el agente genera sus propias etiquetas a partir de los datos, creando una forma de feedback a partir de la estructura dentro de los propios datos. El modelo utiliza partes de los datos para predecir otras partes, como predecir las palabras que faltan en una frase o predecir futuros fotogramas en un vídeo.

El feedback resulta de comparar las predicciones del modelo con los datos reales faltantes o futuros. El agente aprende minimizando el error de predicción, refinando sus representaciones internas en función de este feedback.

Soluciones relacionadas
Agentes de IA para empresas

Cree, implemente y gestione potentes asistentes y agentes de IA que automaticen flujos de trabajo y procesos con IA generativa.

    Explore watsonx Orchestrate
    Soluciones de agente de IA de IBM

    Construya el futuro de su empresa con soluciones de IA en las que puede confiar.

    Explore las soluciones de los agentes de IA
    Servicios de IA de IBM Consulting

    Los servicios de IA de IBM Consulting ayudan a reinventar la forma de trabajar de las empresas usando IA para la transformación.

    Explore los servicios de inteligencia artificial
    Dé el siguiente paso

    Tanto si opta por personalizar las aplicaciones y habilidades prediseñadas como si prefiere crear e implementar servicios agentivos personalizados mediante un estudio de IA, la plataforma IBM watsonx le ofrece todo lo que necesita.

    Explore watsonx Orchestrate Explore watsonx.ai