Un agente basado en utilidades es un sistema inteligente que usa una función de utilidades para tomar decisiones racionales maximizando la utilidad esperada de los posibles resultados. La función de utilidades predice matemáticamente la utilidad de todas las acciones posibles que el agente de inteligencia artificial (IA) puede llevar a cabo.
El objetivo de un agente basado en utilidades es maximizar la función de utilidades con cada acción. Para avanzar en su objetivo, el agente de IA utiliza los resultados de la función de utilidades para elegir la siguiente acción más beneficiosa.
Los componentes principales de un agente basado en utilidades son:
Función de utilidades
Sensores
Modelo interno
Mecanismo de selección de acciones
Actuadores
Una función de utilidades es una ecuación matemática que representa cómo el agente debe evaluar el beneficio de cualquier acción posible que pueda tomar. Se trata, en esencia, del sistema de valores del agente y refleja la forma en que este prioriza los factores relevantes a la hora de tomar decisiones.
Las funciones de utilidades asignan un valor numérico a cada resultado de una acción potencial, cuantificando las preferencias que el agente debe mantener. Los agentes basados en utilidades utilizan la función de utilidades para negociar entornos complejos, ponderar las compensaciones y maximizar la utilidad de sus elecciones.
Una buena función de utilidades tiene en cuenta múltiples factores, como la seguridad, la eficiencia, la asignación de recursos y los costos de oportunidad multiobjetivo. La función de utilidades es la piedra angular de un agente basado en utilidades y es lo que los distingue de los diferentes tipos de agentes de IA.
Los agentes de utilidades usan sensores para percibir sus entornos reales. Los sensores pueden ser físicos, como cámaras y termómetros, o digitales, como conexiones API y simulaciones. La percepción mediante IA agéntica usa algoritmos complejos para filtrar los datos ambientales y aislar los puntos de datos más importantes y relevantes para la toma de decisiones informadas.
Los agentes basados en utilidades mantienen un modelo interno simplificado de su entorno real. El modelo se crea y actualiza en función de los datos percibidos por los sensores del agente. Al realizar un seguimiento de los datos ambientales a lo largo del tiempo, el modelo interno también puede inferir datos no observables sobre el entorno del agente.
Muchos agentes basados en utilidades emplean un modelo de transición de estados del mundo, que establece los estados posibles del entorno y los criterios que determinan cuándo y cómo se pasa de uno a otro. Los modelos de transición de estados muestran cómo un sistema o entorno dinámico puede cambiar con el tiempo. Los modelos de transición de estados más avanzados calculan la probabilidad de que el entorno cambie su estado actual en cualquier momento.
La función de utilidades asigna un valor a cada estado, y el agente tiene como objetivo mover el entorno al estado futuro con la mayor utilidad. Los modelos de transición de estados resultan especialmente útiles en entornos estocásticos o dinámicos, en los que el agente debe basar su razonamiento en probabilidades en lugar de certezas.
El mecanismo de selección de acciones es el componente de toma de decisiones de IA del agente. Con base en el estado actual del modelo interno, el agente genera una lista de todas las acciones potenciales que puede tomar. Los algoritmos de selección de acciones utilizan la función de utilidades para evaluar todas las diferentes acciones y optimizar la elección del agente para obtener el máximo beneficio general.
En algunas implementaciones modernas, los modelos de lenguaje grandes (LLM) se utilizan para razonar sobre objetivos complejos y de alto nivel o para interpretar entradas ambiguas antes de convertirlas en cálculos estructurados de utilidades.
Los actuadores, o elementos de rendimiento, permiten al agente actuar en su entorno. Los actuadores físicos pueden ser un brazo robótico en una línea de fabricación, un termostato que controla la temperatura de una casa inteligente o un vehículo autónomo completo. Los actuadores virtuales o digitales pueden ser una conexión API, una interfaz de chatbot o una salida de software.
Los agentes basados en utilidades comparten un flujo de trabajo interno estándar que guía su comportamiento:
Percepción
Modelado interno
Generación de acciones
Predicción de resultados
Evaluación de utilidades
Selección de acciones
Acción
El agente utiliza sus sensores para percibir su entorno y recopilar datos. Estos datos se utilizan para informar al agente sobre su propio estado y el estado actual de su entorno.
Utilizando las percepciones actuales de sus sensores, el agente actualiza su modelo interno de su entorno en tiempo real. Esto le da al agente una comprensión de su entorno y de cualquier factor relevante que afecte su proceso de toma de decisiones.
El agente utiliza algoritmos de búsqueda y optimización para generar una lista de posibles acciones que puede realizar, en función del estado de su modelo interno. Las técnicas de generación y selección de acciones animan al agente a considerar ideas novedosas y a hacer referencia a experiencias pasadas con resultados probados para mantener un rendimiento confiable.
En la práctica, muchos agentes no generan explícitamente una lista completa de posibles acciones. En su lugar, utilizan métodos de optimización o refuerzo para evaluar las mejores acciones probables dentro de un espacio de acción continua.
Para cada acción generada en el paso anterior, el agente utiliza su modelo de transición de estados para predecir el resultado esperado. El modelo calcula la probabilidad de que se alcance un determinado estado cuando el agente realiza una acción específica.
El mecanismo de selección de acciones del agente aplica la función de utilidades a cada acción generada y al resultado probable asociado. La función devuelve una puntuación de utilidad numérica para cada opción posible. Las puntuaciones más altas representan una mayor utilidad general.
El agente selecciona la acción que conduce al resultado con el mayor beneficio general, según lo determinado por las preferencias de la función de utilidades. Debido a que el objetivo del agente es maximizar su función de utilidades, el proceso de selección de acciones lleva al agente a actuar de una manera que promueva los objetivos del sistema de IA en el que se utiliza el agente.
El agente selecciona la acción que conduce al resultado con el mayor beneficio general, según lo determinado por las preferencias de la función de utilidades. Dado que el objetivo del agente es maximizar su función de utilidades, este actúa de manera que favorezca los objetivos del sistema de IA en el que se utiliza.
Los agentes basados en utilidades son ideales para tareas complejas con múltiples directivas contrapuestas. Esto puede incluir:
Hogares inteligentes: los agentes basados en utilidades pueden impulsar los sistemas inteligentes de un hogar inteligente, sopesando prioridades como el confort, los costos energéticos y la sustentabilidad.
Vehículos autónomos: los vehículos autónomos plantean una serie de problemas complejos para los ingenieros de machine learning. Los vehículos controlados por agentes deben lidiar con conductores humanos, peatones, obstáculos, condiciones meteorológicas, cierres de carreteras y muchas otras situaciones en un entorno dinámico. La resolución de problemas en este entorno requiere una función de utilidades bien elaborada.
Atención médica: debido a que pueden gestionar varias consideraciones en busca del máximo beneficio, los agentes basados en utilidades podrían ayudar a formular planes de tratamiento y gestionar los costos.
Robótica: los robots también deben sopesar diversos factores para obtener el máximo beneficio. Los bots de entrega tienen muchas de las mismas consideraciones que los vehículos autónomos.
Sistemas de recomendación y fijación de precios: la función de utilidades permite al agente ponderar factores como las preferencias del usuario, la hora del día y del año, y las tendencias generales para mantener al usuario entretenido. En los sistemas de IA generativa, un enfoque basado en utilidades puede guiar la generación de contenido que mejor se adapte a la intención del usuario, el contexto y los objetivos de participación a largo plazo.
Sistemas de fijación de precios: del mismo modo, los agentes basados en utilidades pueden gestionar sistemas dinámicos de fijación de precios para maximizar las compras y los ingresos de una empresa.
Logística y automatización de la cadena de suministro: las cadenas de suministro complejas deben equilibrar factores como la eficiencia, los costos, el riesgo, la calidad y otros. Las empresas pueden adaptar la función de utilidades de un agente logístico para priorizar los factores más importantes para su negocio y crear un sistema escalable.
Tanto los agentes basados en utilidades como los agentes basados en objetivos son útiles en situaciones en las que el agente debe trabajar para lograr un resultado a largo plazo. Sin embargo, la diferencia es que si bien los agentes basados en utilidades buscan maximizar la utilidad de sus opciones, los agentes basados en objetivos persiguen objetivos específicos. Están motivados por el logro de objetivos.
Mientras que un agente basado en objetivos trata todos los estados de consecución de objetivos como igualmente deseables, un agente basado en utilidades puede diferenciarlos por grado, lo que permite una toma de decisiones más matizada. Los agentes basados en utilidades pueden gestionar múltiples objetivos conflictivos y mantener el rendimiento incluso frente a resultados inciertos.
Los agentes basados en utilidades son resilientes, capaces de navegar por problemas complejos y entornos cambiantes mientras ofrecen resultados congruentes. Los beneficios de los agentes basados en utilidades incluyen:
Adaptabilidad: los agentes basados en utilidades utilizan funciones de utilidades fluidas en lugar de sistemas fijos basados en reglas, como reglas de condición-acción. Son capaces de adaptarse a condiciones cambiantes y a nuevas tareas en las que los agentes reflejos simples de nivel inferior y los agentes reflejos basados en modelos pudieran tener dificultades debido a su rígida programación basada en reglas.
Flexibilidad: los agentes basados en utilidades pueden manejar con éxito las prioridades competitivas para tomar decisiones que aún llevan a buenos resultados. Los agentes basados en objetivos se centran singularmente en un objetivo específico y pueden tener dificultades para considerar otras directivas.
Confiabilidad: las funciones de utilidades llevan a los agentes basados en utilidades a tomar decisiones racionales incluso cuando los resultados son inciertos. Es probable que las decisiones que tomen estos agentes sean las que deriven en resultados más beneficiosos a largo plazo.
Si bien los agentes basados en utilidades son capaces en muchos entornos, no siempre son la mejor opción. Sus limitaciones incluyen:
Rigidez: sin un elemento de aprendizaje, los agentes basados en utilidades no pueden aprender de sus acciones y actualizar sus funciones de utilidades y modelos de transición de estados de manera autónoma. Agregar un elemento de aprendizaje les permite mejorar mediante el aprendizaje por refuerzo, pero los define de manera más formal como agentes híbridos o incluso agentes de aprendizaje.
Demandas computacionales: las funciones de utilidades son algoritmos complejos, y ejecutarlas continuamente requiere una cantidad significativa de computación y energía. Sin suficiente computación, los agentes basados en utilidades pueden ser demasiado lentos para su uso en tiempo real en situaciones urgentes.
Complejidad: las funciones de utilidades efectivas son difíciles de diseñar, y un agente basado en utilidades es tan efectivo como su función de utilidades. Los ingenieros de machine learning deben convertir con éxito su sistema de valores en una ecuación numérica que obligue al agente a tomar las decisiones adecuadas.
Consideraciones éticas: la elección basada en las utilidades plantea una preocupación ética. ¿Quién determina el sistema de valores para el agente —especialmente, como ocurre con los vehículos autónomos— si es un agente con la capacidad de dañar potencialmente a los humanos? A medida que los agentes inteligentes se vuelven más autónomos y generalizados, es crítico definir quién determina sus sistemas de valores subyacentes y cómo esos valores se alinean con la ética social.
Para superar algunos de estos desafíos, los agentes basados en utilidades a menudo se integran en sistemas multiagente, donde varios agentes especializados colaboran, comparten información y equilibran los objetivos de la competencia. En tales arquitecturas, la función de utilidades de cada agente contribuye a la estrategia de optimización colectiva del sistema.
Cree, implemente y gestione poderosos asistentes y agentes de IA que automaticen flujos de trabajo y procesos con IA generativa.
Construya el futuro de su empresa con soluciones de IA en las que pueda confiar.
Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.