Los sistemas inteligentes de un solo agente interactúan con su entorno para planificar, llamar a herramientas y producir respuestas de forma autónoma. Las herramientas puestas a disposición de un agente proporcionan información que de otro modo no estaría disponible para el agente. Como se ha descrito anteriormente, esta información puede ser una base de datos adquirida a través de una API u otro agente. Esta es una distinción entre sistemas de agente único y multiagente. Al llamar a otro agente como herramienta, ese agente secundario forma parte de los estímulos ambientales del agente original. Esa información se adquiere y no se produce más cooperación. Mientras que los sistemas multiagente se diferencian por la participación de todos los agentes del entorno para modelar los objetivos, la memoria y el plan de acción de los demás4. La comunicación entre agentes puede ser directa o indirecta mediante la alteración del entorno compartido.
Cada entidad dentro de un sistema multiagente es un agente autónomo hasta cierto punto. Esta autonomía suele verse reflejada en la planificación, la llamada de herramientas y el razonamiento general del agente. En un sistema multiagente, los agentes siguen siendo autónomos, pero también cooperan y se coordinan en estructuras de agentes3. Para resolver problemas complejos, la comunicación entre agentes y la resolución distribuida de problemas son clave. Este tipo de interacción entre agentes puede describirse como aprendizaje por refuerzo multiagente. La información compartida a través de esta forma de aprendizaje puede incluir información instantánea adquirida a través de sensores o acciones. Además, se pueden compartir las experiencias de un agente en forma de información episódica. Estos episodios pueden ser secuencias de sensaciones, acciones y políticas aprendidas. Por último, los agentes pueden compartir sus experiencias en tiempo real para evitar que otros agentes aprendan repetidamente las mismas políticas5.
Los agentes individuales son poderosos por sí mismos. Pueden crear subtareas, utilizar herramientas y aprender a través de sus interacciones. El comportamiento colectivo de los sistemas multiagente aumenta el potencial de precisión, adaptabilidad y escalabilidad. Los sistemas multiagente tienden a superar a los sistemas de un solo agente debido al mayor conjunto de recursos compartidos, optimización y automatización. En lugar de que varios agentes aprendan las mismas políticas, uno puede compartir las experiencias aprendidas para optimizar la complejidad del tiempo y la eficiencia5.