Was ist die Multi-Agenten-Kollaboration?

Autor

Shalini Harkar

Lead AI Advocate

Die Entwicklung von Large Language Models (LLMs) hin zur Integration von künstlichen intelligenten Agenten (KI-Agenten) hat die Landschaft der künstlichen Intelligenz (KI) verändert. Jetzt führen Multi-Agenten-Systeme (MAS) zu einer völlig neuen Welle von KI-nativen Produkten und Softwareentwicklungsdiensten.  

Traditionelle LLM-Anwendungen, die auf generativer KI basieren, waren hauptsächlich darauf ausgerichtet, die Produktivität zu steigern, Fragen zu beantworten oder Informationen zusammenzufassen. Aber mit der Einführung von Agenten und der Fähigkeit zur KI-Agenten-Kommunikation, haben wir die Macht erhalten, autonome Workflows zu erstellen, die die manuelle Arbeit in den Bereichen Recherche, Support, Analyse und Betrieb erheblich reduzieren. Inzwischen erledigen Multi-Agenten-Systeme komplexe reale Aufgaben wie Kundenservice-Triage, Finanzanalysen, technische Problembehebung und Compliance-Überwachung und sind skalierbar, autonom und kontinuierlich verbesserbar geworden.

Was ist Multi-Agenten-Kollaboration?

Die koordinierten Aktionen mehrerer unabhängiger Agenten in einem verteilten System, die jeweils über lokale Wissens- und Entscheidungsfindungskapazitäten verfügen, werden als Multi-Agenten-Kollaboration bezeichnet.

Bei der Multi-Agenten-Kollaboration kooperieren die Agenten, indem sie etablierte Kommunikationsprotokolle verwenden, um Zustandsinformationen auszutauschen, Verantwortlichkeiten zuzuweisen und Aktionen zu koordinieren. Die Zusammenarbeit umfasst in der Regel Methoden zur Arbeitszerlegung, Ressourcenverteilung, Konfliktlösung und kooperativen Planung. Dies kann explizit durch Nachrichtenübergabe oder implizit durch Änderungen an der gemeinsam genutzten Umgebung erfolgen. Diese Systeme priorisieren Skalierbarkeit, Fehlertoleranz und emergentes kooperatives Verhalten in ihrem Design und kommen ohne zentrale Steuerung aus. Betrachten wir eine Analogie: Nehmen wir an, dass eine Drohnenflotte einen Katastrophenort nach Überlebenden oder Informationen durchsucht. Jede Drohne nimmt ihren eigenen Weg, weicht anderen Drohnen aus, meldet, was sie findet und ändert im Falle eines unerwarteten Ereignisses die Richtung. Stellen Sie sich dieses Szenario als Multi-Agenten-Kollaboration vor: Jede Drohne operiert sowohl alleine als auch kollektiv, gewissermaßen wie ein Assistent. Ohne dass eine einzige Führungskraft sie verwaltet, arbeiten die Drohnen zusammen, koordinieren sich und teilen, was sie sehen. Mit diesem Ansatz arbeitet eine autonome Agentenflotte kollaborativ, intelligent und schnell zusammen, um komplexe Probleme zu lösen.

Diese kollaborative Architektur definiert die Produktarchitektur neu und führt zu verschiedenen Anwendungsfällen, die fast jederzeit ausgeführt werden, sich an wachsende Anforderungen anpassen und ohne manuelle Eingriffe kontinuierlich lernen und optimieren. Der Prozess der agentischen Automatisierung wird durch spezialisierte Agenten mit adaptiven Funktionen ermöglicht, die darauf ausgelegt sind, bestimmte Aufgaben präzise und autonom zu erledigen. Spezialisierte KI-Agenten arbeiten in Echtzeit zusammen, um intelligente, maßgeschneiderte End-to-End-Dienste in Chatbots bereitzustellen (unter Verwendung des RAG-Frameworks), einer neuen Art von Multi-Agenten-Anwendung.1

Warum müssen Agenten zusammenarbeiten?

Die Zusammenarbeit mehrerer Agenten ist eine wichtige Voraussetzung bei der Entwicklung und dem Einsatz eines intelligenten Systems, insbesondere in Umgebungen, die hochkomplex und verteilt sind und in denen der Datenschutz eingeschränkt ist. Die Multi-Agenten-Kollaboration bietet im Vergleich zu anderen agentischen Architekturtypen, insbesondere zu einem Single-Agent-Systeme, zahlreiche Vorteile in Bezug auf Architektur, Rechenleistung und Betrieb. Dies gilt insbesondere in komplexen, verteilten Echtzeitsystemen, in denen mehrere unterschiedliche Datenschutzebenen vorhanden sind. Multi-Agenten-Systeme (MAS) ermöglichen es dezentralen, autonomen Agenten, zusammenzuarbeiten, um kollektive oder voneinander abhängige Ziele zu erreichen, und tragen dazu bei, einige der strukturellen Beschränkungen eingeschränkter Single-Agent-Systeme zu überwinden. Ein Beispiel sind monolithische Single-Agent-Systeme, die nur bis zu einem begrenzten Grad skalierbar sind oder Grenzen hinsichtlich Latenz und allgemeiner Funktionalität haben. Jeder Agent behält ein gewisses Maß an Autonomie bei, führt lokale Berechnungen durch und arbeitet mit anderen Agenten zusammen, indem er Kommunikationsprotokolle verwendet, um Teilwissen über seine Umgebung auszutauschen, bei der Entscheidungsfindung zusammenzuarbeiten und eine verteilte Steuerungsstrategie zu koordinieren. Die Möglichkeit, die modulare Skalierbarkeit beizubehalten, ermöglicht eine nahtlose Integration neuer Agenten oder Subsysteme und bietet gleichzeitig adaptives Verhalten in dynamischen Umgebungen in Echtzeit.  In einem intelligenten Gesundheitssystem kann z. B. entweder eine Teilmenge oder alle Agenten domänenspezifische Zuweisungen haben. Dazu gehören die Überwachung physiologischer Signale, die Identifizierung von Anomalien, die Empfehlung einer Therapie und die Verwaltung von Daten zur Identifizierung von Patienten in Übereinstimmung mit den Richtlinien.  Die Zusammenarbeit von Agenten ermöglicht außerdem Kontinuität, Genauigkeit und Fehlertoleranz im gesamten Prozess.  Die Möglichkeit, Berechnungen über Agenten hinweg zu normalisieren, erhöht die Recheneffizienz, indem die Parametrisierung auf mehrere Agenten verteilt wird, und macht die Abhängigkeit von zentralisierten Berechnungen überflüssig.2

Wie kooperieren mehrere Agenten?

Um zu verstehen, wie Multi-Agenten-Systeme funktionieren, zerlegen wir den kooperativen Prozess in eine Abfolge gut koordinierter Schritte. Jeder dieser Schritte zeigt, wie unabhängige Individuen interagieren, Aufgaben zuweisen und zusammenarbeiten, um anspruchsvolle Aufgaben zu bewältigen.

Agenten arbeiten über strukturierte Kanäle zusammen und koordinieren sich, wobei jeder Agent eine intelligente Komponente mit fünf Schlüsselelementen darstellt.

a. Das Foundation Model (𝑚): Dieses Element ist die wichtigste Reasoning Engine des Agenten und ermöglicht die Erzeugung und das Verständnis natürlicher Sprache.

b. Ziel (o): Das Ziel oder die Aufgabe des Agenten, auf die er sich konzentriert, wird durch das Ziel (𝑜) definiert.

c. Umgebung (𝑒): Dieses Element gibt die Situation an, in der der Agent agiert. Dies könnte andere Agenten, Tools, gemeinsam genutzten Speicher oder Programmierschnittstellen (APIs) beinhalten.

d. Die Informationen, die ein Agent aus seiner Umgebung oder von anderen Agenten erhält, werden als Input-Wahrnehmung (𝑥) bezeichnet.

e. Ausgabe oder Aktion (𝑦): Das Verhalten oder die Reaktion des Agenten im Hinblick auf sein aktuelles Ziel und seine Argumentation.

Von Zusammenarbeit spricht man, wenn mehrere KI-Agenten als Team zusammenarbeiten, um eine Aufgabe zu erledigen. Während der Kollaborationsphase erhält das System eine Aufgabe vom Benutzer oder der Umgebung. Das System entscheidet, welche Agenten benötigt werden und welche Rollen sie einnehmen.

Das System unterteilt die komplexen Probleme in überschaubare Teile. Dies wird entweder durch einen Planer oder das Sprachmodell mit Argumentationsfunktion erreicht. Die Kommunikation erfolgt entweder über den gemeinsamen Speicher oder die Ausgaben. Die zugewiesenen Aufgaben werden von den Agenten entweder gleichzeitig, nacheinander oder dynamisch ausgeführt.

Die Ergebnisse verschiedener Agenten werden kompiliert, um eine aussagekräftige Antwort zu erstellen. Der Orchestrator oder der letzte Agent initiiert eine Aktion oder gibt dem Benutzer die vollständige Antwort.3

Flussdiagramm zum Verständnis der Funktionsweise der Multi-Agenten-Kollaboration Abbildung 1 zeigt ein umfassendes Framework zum Verständnis der Funktionsweise der Multi-Agenten-Kollaboration. Dieses Framework beschreibt die wichtigsten Dimensionen, die die kollaborativen Mechanismen zwischen Agenten charakterisieren.

Verschiedene Strategien der Zusammenarbeit

Agenten arbeiten mit anderen Agenten zusammen, indem sie verschiedene Strategien anwenden, die bestimmen, wie sie interagieren, sich koordinieren und zu gemeinsamen Zielen beitragen. Zu den verschiedenen Strategien der Zusammenarbeit gehören:

–  Regelbasierte Zusammenarbeit:

Bei dieser Art der Zusammenarbeit werden die Interaktionen der Agenten untereinander durch bestimmte Regeln oder Richtlinien streng kontrolliert. Diese Regeln bestimmen, wie Agenten auf vorhersehbare Weise handeln, kommunizieren und Entscheidungen treffen. Der Umfang des Lernens oder der Anpassung ist begrenzt, da sich die Agenten an eine festgelegte Richtlinie halten, die auf bestimmten Bedingungen oder Eingaben basiert. Diese Methode wird häufig mit Wenn-Dann-Anweisungen, Zustandsmaschinen oder logikbasierten Frameworks durchgeführt. Diese Zusammenarbeit eignet sich am besten für Aufgaben, die stark strukturiert oder vorhersehbar sind und bei denen Konsistenz entscheidend ist.

Vor- und Nachteile: Dieser Ansatz bietet große Effizienz und Fairness, aber er hat Probleme mit Anpassungsfähigkeit und Skalierbarkeit, insbesondere in sich schnell ändernden oder komplexen Situationen.

–  Rollenbasierte Zusammenarbeit:

Bei diesem Ansatz erhalten die Agenten bestimmte Rollen oder Verantwortlichkeiten, die mit einem klaren Organisations- oder Kommunikations-Framework übereinstimmen. Jede Rolle verfügt über einen eigenen Satz an Funktionen, Berechtigungen und Zielen, die oft mit verschiedenen Teilen des Gesamtsystemziels verknüpft sind. Während Agenten in ihren zugewiesenen Rollen halbunabhängig arbeiten, spielen sie auch eine Rolle im Gesamtbild, indem sie sich gegenseitig koordinieren und Informationen austauschen. Dieses Konzept ist von der Dynamik menschlicher Teams inspiriert, in der Einzelpersonen verschiedene Rollen übernehmen, z. B. als Führungskraft, Beobachter oder Ausführender. Dies ist besonders vorteilhaft, wenn es darum geht, Aufgaben zu zerlegen, modulare Systeme zu entwerfen und Agenten mit unterschiedlichem Fachwissen eine effektive Zusammenarbeit zu ermöglichen.

Vor- und Nachteile: Es ermöglicht eine modulare, Experten-gesteuerte Zusammenarbeit, könnte jedoch Herausforderungen hinsichtlich Flexibilität und seiner Abhängigkeit von der Agenten-Integration mit sich bringen.

–  Modellbasierte Zusammenarbeit:

Bei dieser Art der Zusammenarbeit erstellen Agenten interne Modelle, um ihren eigenen Zustand, ihr Umfeld, andere Agenten und das gemeinsame Ziel, auf das sie alle hinarbeiten, zu verstehen. Diese Modelle sind in der Regel probabilistisch oder erlernt, was den Agenten hilft, ihre Handlungen auch dann zu planen, wenn die Dinge unsicher sind. Ihre Interaktionen beruhen darauf, Überzeugungen zu aktualisieren, Schlussfolgerungen zu ziehen und Ergebnisse vorherzusagen, was es ihnen ermöglicht, ihre Strategien flexibel und kontextbewusst zu gestalten. Zu den gängigen Methoden, die sie verwenden, gehören Bayessches Denken, Markov-Entscheidungsprozesse (MDPs) und verschiedene ML-Modelle. Dieser Ansatz ist besonders nützlich in Situationen, in denen Agenten über unbekannte Faktoren nachdenken, sich an Veränderungen anpassen oder zusammenarbeiten müssen, ohne eine vollständige Übersicht zu haben.

Vor- und Nachteile: Dieser Ansatz bietet große Flexibilität und solide Möglichkeiten zur Entscheidungsfindung, ist aber mit einem erheblichen Maß an Komplexität und hohen Rechenkosten verbunden.4

Frameworks

Derzeit werden mehrere bekannte Frameworks entwickelt, die jeweils ihre eigenen Methoden verwenden, um Agenten bei der effektiven Zusammenarbeit in realen Anwendungen zu unterstützen. Erkunden wir die üblicherweise verwendeten Frameworks:

1. IBM® Bee Agent Framework: Es handelt sich um eine Open-Source-Anwendung, die die Entwicklung und Verwaltung von skalierbaren Prozessen mit mehreren Agenten erleichtert. Sie bildet die Grundlage für Anwendungen, bei denen mehrere KI-Agenten zusammenarbeiten, um mithilfe massiver LLMs wie IBM Granite, GPT-4 und Llama 3 anspruchsvolle Aufgaben zu erfüllen. Das Framework ist modular aufgebaut und enthält sofort einsatzbereite Komponenten für Agenten, Tools, Speicherverwaltung und Überwachung. Die Serialisierung von Agentenstatus ist eines der wichtigsten Merkmale. Auf diese Weise können komplexe Vorgänge gestoppt und fortgesetzt werden, ohne dass Daten gelöscht werden. Der Schwerpunkt auf Steuerung auf Produktionsebene, Erweiterbarkeit und Modularität ermöglicht die Entwicklung anspruchsvoller Multi-Agenten-Systeme für eine breite Palette von Anwendungen, mit Plänen für weitere Fortschritte bei der Multi-Agenten-Orchestrierung. 

2. LangChain-Agenten: LangChain ist ein robustes Framework für die Erstellung sprachmodellbasierter Anwendungen, die den Schwerpunkt auf eine starke agentenbasierte Architektur legen. Dadurch können die Agenten ihre Umgebung wahrnehmen und zahlreiche verfügbare Tools nutzen, um Informationen zu sammeln, zu interpretieren und zu handeln. Innerhalb von LangChain selbst haben Entwickler Zugang zu vielen Werkzeugen und Integrationen, die es einfacher machen, Agenten zu entwickeln, die komplexes Reasoning, dynamische Entscheidungsfindung und Aufgabenbewältigung durchführen. LangChain ermöglicht es Entwicklern, die stärksten Funktionen von Large Language Models (LLMs) bei der Entwicklung intelligenter Systeme zu nutzen, um anspruchsvolle Aufgaben wie die Beantwortung kontextbezogener Fragen, mehrstufige Workflows und die Erzeugung natürlicher Sprache zu bewältigen.

3. OpenAI Swarm Framework: Diese Struktur bietet eine neue Art der Koordination mehrerer Agenten in Bezug auf Routinen und Übergaben. Anstatt dass ein Agent unabhängig handelt, kann jeder Agent als spezialisierte Einheit betrachtet werden, die mit benutzerdefinierten Tools und Anweisungen arbeitet. Die Übertragung einer bestehenden Aufgabe oder Konversation von einem Agenten auf einen anderen ermöglicht eine reibungslose Benutzererfahrung, in der jeder Agent auf eine bestimmte Rolle spezialisiert ist. Dieser Ansatz erhöht letztendlich die Effizienz, Modularität und Reaktionsfähigkeit des Systems insgesamt. Der Begriff „Schwarm“ betont die einfache Koordination und effektive Durchführung einer Aufgabe, wodurch der Schwarm in größerem Maßstab in realen Aufgaben eingesetzt werden kann.5

Unternehmenslösungen

Watsonx Orchestrate

Watsonx Orchestrate erleichtert die Multi-Agenten-Kollaboration, indem es eine Sammlung miteinander verbundener Komponenten verwendet, die zusammenarbeiten, um KI-fähige Workflows zu orchestrieren Skills sind unabhängige Agenten, die bestimmte Aufgaben ausführen, wie das Versenden von E-Mails oder die Abfrage von Daten. Sie werden beschrieben und in einem Skill Registry registriert, in dem ihre Funktionen und Metadaten aufgeführt sind. Wenn ein Benutzer eine Anfrage absendet, verwendet ein Intent Parser Verarbeitung natürlicher Sprache (NLP), um die Eingabe des Benutzers zu lesen und sie den Fähigkeiten zuzuordnen.

Der Flow Orchestrator stellt die Ausführungslogik und den Ablauf bereit, einschließlich Aufgabensequenzierung, Verzweigung, Fehlern und Wiederholungsversuchen, um sicherzustellen, dass Agenten in der erforderlichen Reihenfolge ausgeführt werden und fehlgeschlagene Schritte wiederholt werden können. Mit dem Flow Orchestrator können Agenten bei Bedarf gleichzeitig ausgeführt werden. Der Shared Context and Memory Store bietet einen gemeinsamen Speicherort für Daten, Zwischenergebnisse und Entscheidungen. So können sich die Agenten gegenseitig erkennen und die Kontinuität während des Workflows gewährleisten. Der LLM-Assistent nutzt umfangreiche Sprachmodelle, um bei der Argumentation und Navigation in einem sich verändernden Kontext zu helfen und Wissenslücken während der Zusammenarbeit zu schließen. 

Human Interface ermöglicht es dem Benutzer, den Ablauf zu sehen und den agentischen Workflow zu verwalten, wenn er sich beteiligen möchte. Die Komponenten können die Multi-Agenten-Kollaboration unterstützen, um sicherzustellen, dass watsonx Orchestrate komplexe Workflows mit mehreren Agenten unabhängig verwalten kann, während gleichzeitig ein Mensch in die Prozesse einbezogen wird.6

Zukunftsprognosen

Emergente kollektive Intelligenz: In dem Maße, in dem autonome Agenten über ein klar definiertes Kollaborations-Framework mit Leitplanken zusammenarbeiten, um die Ausrichtung, Sicherheit und Aufgabenrelevanz zu gewährleisten, zeichnen sich intelligente Verhaltensweisen ab, die die Funktionen eines jeden einzelnen Agenten übersteigen. Genauigkeit, Relevanz, Effizienz, Erklärbarkeit und Gesamtsystemkohärenz sind einige der vielschichtigen Metriken, mit denen die Effizienz dieser Systeme kontinuierlich bewertet und verbessert werden kann.

Die kollektive Intelligenz verleiht diesen Systemen die Fähigkeit, komplexe und mehrdimensionale Probleme zu lösen, indem sie verteiltes Reasoning und Zerlegung von Aufgaben verwenden, was zu Automatisierung, Entscheidungsfindung und Orchestrierung von mehrstufigen Workflows führt.

Weiterführende Lösungen
Entwicklung von IBM KI-Agenten 

Ermöglichen Sie Entwicklern die Erstellung, Bereitstellung und Überwachung von KI-Agenten mit dem IBM watsonx.ai Studio.

watsonx.ai erkunden
IBM KI-Agenten und -Assistenten

Erzielen Sie bahnbrechende Produktivität mit einem der branchenweit umfassendsten Funktionenpakete, das Unternehmen bei der Erstellung, Anpassung und Verwaltung von KI-Agenten und KI-Assistenten unterstützt. 

Erkunden Sie KI-Agenten
IBM Granite

Erzielen Sie Kosteneinsparungen von über 90 % mit den kleineren und offenen Modellen von Granite, die auf Entwicklereffizienz ausgelegt sind. Diese auf Unternehmen abgestimmten Modelle bieten eine herausragende Leistung bei Sicherheitsbenchmarks und in einem breiten Spektrum von Unternehmensaufgaben von Cybersicherheit bis RAG.

Granite erkunden
Machen Sie den nächsten Schritt

Automatisieren Sie Ihre komplexen Workflows und erzielen Sie bahnbrechende Produktivität mit einem der branchenweit umfassendsten Funktionspakete, das Unternehmen bei der Erstellung, Anpassung und Verwaltung von KI-Agenten und KI-Assistenten unterstützt. 

watsonx.ai Agentenentwicklung erkunden Entdecken Sie watsonx Orchestrate
Fußnoten

1 Tran, K.-T., Dao, D., Nguyen, M.-D et.al (10. Januar 2025).Multi-Agent Collaboration Mechanisms: A Survey of LLMs. arXiv. https://arxiv.org/abs/2501.06322

2 Han, S., Zhang, Q., Yao, Y., Jin, W., & Xu, Z. (2024). LLM Multi-Agent Systems: Challenges and Open Problems. arXiv. https://arxiv.org/abs/2402.03578

3 Jennings, N. R., & Wooldridge, M. (1996). Intelligent agents: Theory and practice. The Knowledge Engineering Review, 10(2), 115–152. https://www.cambridge.org/core/journals/knowledge-engineering-review/article/abs/intelligent-agents-theory-and-practice/CF2A6AAEEA1DBD486EF019F6217F1597

4  Wang, Jialin und Zhihua Duan, „Agent AI with LangGraph: A Modular Framework for Enhancing Machine Translation Using Large Language Models.“ CoRR, abs/2412.03801, 5. Dezember 2024. arXiv:2412.03801 

5 Framework for evaluating LLM-based agents, https://github.com/vladfeigin/llm-agents-evaluation

6 Gomez-Sanz, J. J., & Pavón, J. (2004). Methodologies for developing multi-agent systems. Journal of Universal Computer Science, 10(4), 404–426.