Fortschritte bei großen Sprachmodellen (LLMs) wie OpenAIs GPT und verwandten Techniken mit Algorithmen des maschinellen Lernens führten zum Boom der generativen KI (Gen KI) der letzten Jahre, und weitere Fortschritte haben zum aufstrebenden Bereich der autonomen Agenten geführt.
Durch die Integration von Tools, APIs, Hardwareschnittstellen und anderen externen Ressourcen werden KI-Agentensysteme zunehmend autonom, fähig zur Echtzeit-Entscheidungsfindung und in der Lage, Probleme in verschiedenen Anwendungsfällen zu lösen.
Komplexe Agenten können nicht handeln, ohne eine Entscheidung zu treffen, die nur gut sein kann, wenn sie vorher geplant haben. Die agentenbasierte Planung besteht aus mehreren Schlüsselkomponenten, die gemeinsam eine optimale Entscheidungsfindung fördern.
Definition des Ziels
Der erste und entscheidendste Schritt bei der KI-Planung ist die Definition eines klaren Ziels. Das Ziel dient als Richtlinie für den Entscheidungsfindungsprozess des Agenten und bestimmt den Endzustand, den er erreichen möchte. Ziele können entweder statisch sein und während des gesamten Planungsprozesses unverändert bleiben, oder dynamisch und basierend auf Umgebungsbedingungen oder Benutzerinteraktionen angepasst werden.
Ein selbstfahrendes Auto könnte zum Beispiel das Ziel haben, ein bestimmtes Ziel effizient zu erreichen und dabei die Sicherheitsvorschriften einzuhalten. Ohne ein klar definiertes Ziel würde einem Agenten die Orientierung fehlen, was zu unberechenbarem oder ineffizientem Verhalten führen würde.
Wenn das Ziel komplex ist, zerlegen agentische KI-Modelle es in einem Prozess namens Aufgabenzerlegung in kleinere, besser handhabbare Unterziele. Dadurch kann sich das System auf hierarchische Weise auf komplexe Aufgaben konzentrieren.
LLMs spielen eine wichtige Rolle bei der Aufgabenzerlegung, indem sie ein übergeordnetes Ziel in kleinere Teilaufgaben zerlegen und diese Teilaufgaben dann in verschiedenen Schritten ausführen. So könnte ein Benutzer beispielsweise einen Chatbot mit einer natürlichsprachlichen Eingabeaufforderung bitten, eine Reise zu planen.
Der Servicemitarbeiter würde die Aufgabe zunächst in Komponenten wie Flugbuchung, Hotelsuche und Planung einer Routenplanung unterteilen. Einmal aufgeteilt, kann der Agent Programmierschnittstellen (APIs) verwenden, um Echtzeitdaten abzurufen, die Preisgestaltung zu überprüfen und sogar Zielvorschläge zu machen.
Vertretung des Staates
Um effektiv zu planen, muss ein Agent über ein strukturiertes Verständnis seiner Umgebung verfügen. Dieses Verständnis wird durch staatliche Repräsentation erreicht, die die aktuellen Bedingungen, Einschränkungen und kontextuellen Faktoren modelliert, die die Entscheidungsfindung beeinflussen.
Agenten verfügen über ein gewisses integriertes Wissen aus ihren Trainingsdaten oder Datensatz, die frühere Interaktionen darstellen, aber die Wahrnehmung ist erforderlich, damit Agenten ihre Umgebung in Echtzeit verstehen können. Agenten sammeln Daten durch sensorische Eingabe, was es ihnen ermöglicht, ihr Umfeld zu modellieren, zusammen mit Benutzereingaben und Daten, die ihren eigenen internen Zustand beschreiben.
Die Komplexität der Zustandsdarstellung variiert je nach Aufgabe. Beispielsweise umfasst der Zustand bei einem Schachspiel die Position aller Figuren auf dem Brett, während er bei einem Roboternavigationssystem Raumkoordinaten, Hindernisse und Geländebedingungen involvieren kann.
Die Genauigkeit der Zustandsdarstellung wirkt sich direkt auf die Fähigkeit eines Agenten aus, fundierte Entscheidungen zu treffen, da sie bestimmt, wie gut der Agent die Ergebnisse seiner Handlungen vorhersagen kann.
Abfolge von Aktionen
Sobald der Agent sein Ziel festgelegt und seine Umgebung bewertet hat, muss er eine Abfolge von Aktionen bestimmen, die ihn von seinem aktuellen Zustand in den gewünschten Zielzustand überführen. Dieser als Aktionssequenzierung bezeichnete Prozess umfasst die Strukturierung einer logischen und effizienten Abfolge von Schritten, die der Agent befolgen muss.
Der Agent muss potenzielle Aktionen identifizieren, diese Liste auf optimale Aktionen reduzieren, Prioritäten setzen und Abhängigkeiten zwischen Aktionen und bedingten Schritten auf der Grundlage potenzieller Veränderungen in der Umgebung identifizieren. Der Agent könnte jedem Schritt in der Sequenz Ressourcen zuweisen oder Aktionen auf der Grundlage von Umgebungsbedingungen planen.
Ein Staubsaugerroboter muss zum Beispiel den effizientesten Weg zum Reinigen eines Raumes wählen und sicherstellen, dass er alle notwendigen Bereiche ohne unnötige Wiederholungen reinigt. Wenn die Abfolge von Aktionen nicht gut geplant ist, kann es passieren, dass der KI-Agent ineffiziente oder redundante Schritte ausführt, was zu einer Verschwendung von Ressourcen und einer längeren Ausführungszeit führt.
Das ReAct-Framework ist eine Methodik, die in der KI zur Handhabung dynamischer Entscheidungsfindung verwendet wird. Im Framework von ReAct bezieht sich Argumentation auf den kognitiven Prozess, bei dem der Agent bestimmt, welche Aktionen oder Strategien erforderlich sind, um ein bestimmtes Ziel zu erreichen.
Diese Phase ähnelt der Planungsphase in der agentischen KI, in der der Agent eine Abfolge von Schritten generiert, um ein Problem zu lösen oder eine Aufgabe zu erfüllen. Andere aufkommende Frameworks sind ReWOO, RAISE und Reflexion, die jeweils ihre eigenen Stärken und Schwächen haben.
Optimierung und Evaluierung
Bei der KI-Planung geht es oft um die Auswahl des optimalen Wegs zur Erreichung eines Ziels, insbesondere wenn mehrere Optionen zur Verfügung stehen. Die Optimierung trägt dazu bei, dass die von einem Agenten gewählte Abfolge von Aktionen unter den gegebenen Umständen die effizienteste, kostengünstigste oder anderweitig vorteilhafteste ist. Dieser Prozess erfordert häufig die Bewertung verschiedener Faktoren wie Zeit, Ressourcenverbrauch, Risiken und potenzielle Chancen.
Ein Lagerroboter, der Artikel auslagern soll, muss zum Beispiel die kürzeste und sicherste Route ermitteln, um Kollisionen zu vermeiden und die Betriebszeit zu verkürzen. Ohne angemessene Optimierung könnten KI-Agenten Pläne ausführen, die zwar funktionieren, aber suboptimal sind, was zu Ineffizienzen führt. Zur Optimierung der Entscheidungsfindung können mehrere Methoden eingesetzt werden, darunter:
Heuristische Suche
Heuristische Suchalgorithmen helfen Agenten, optimale Lösungen zu finden, indem sie den besten Weg zu einem Ziel abschätzen. Diese Algorithmen stützen sich auf heuristische Funktionen - mathematische Schätzungen darüber, wie nahe ein bestimmter Zustand dem gewünschten Ziel ist. Heuristische Suchverfahren sind besonders effektiv für strukturierte Umgebungen, in denen Agenten schnell optimale Pfade finden müssen.
Verstärkendes Lernen
Reinforcement Learning ermöglicht es Mitarbeitern, ihre Planung durch Ausprobieren zu optimieren und zu lernen, welche Aktionsabläufe im Laufe der Zeit zu den besten Ergebnissen führen. Ein Agent interagiert mit einer Umgebung, erhält Feedback in Form von Belohnungen oder Strafen und passt seine Strategien entsprechend an.
Probabilistische Planung
In realen Szenarien agieren KI-Agenten oft in unsicheren Umgebungen, in denen die Ergebnisse nicht deterministisch sind. Probabilistische Planungsmethoden berücksichtigen Unsicherheiten, indem sie mehrere mögliche Ergebnisse bewerten und Maßnahmen mit dem höchsten erwarteten Nutzen auswählen.
Collaboration
Die Planung durch einen einzelnen Agenten ist eine Sache, in einem System mit mehreren Agenten müssen KI-Agenten jedoch autonom arbeiten und gleichzeitig miteinander interagieren, um individuelle oder gemeinsame Ziele zu erreichen.
Der Planungsprozess für KI-Agenten in einem Multiagentensystem ist komplexer als für einen einzelnen Agenten, da Agenten nicht nur ihre eigenen Aktionen planen, sondern auch die Aktionen anderer Agenten berücksichtigen müssen und wie ihre Entscheidungen mit denen anderer interagieren.
Abhängig von der Agentenarchitektur hat jeder Agent im System in der Regel seine eigenen individuellen Ziele, die die Erfüllung bestimmter Aufgaben oder die Maximierung einer Belohnungsfunktion beinhalten können. In vielen Multiagentensystemen müssen Agenten zusammenarbeiten, um gemeinsame Ziele zu erreichen.
Diese Ziele könnten durch ein übergreifendes System definiert werden oder sich aus den Interaktionen der Agenten ergeben. Agenten benötigen Mechanismen, um zu kommunizieren und ihre Ziele aufeinander abzustimmen, insbesondere in kooperativen Szenarien. Dies kann durch explizites Messaging, gemeinsame Aufgabendefinitionen oder implizite Koordination erfolgen.
Die Planung in Multiagentensystemen kann zentralisiert werden, wobei eine einzelne Entität oder ein Controller, wahrscheinlich ein LLM-Agent, einen gesamten Systemplan generiert.
Jeder Bearbeiter erhält Anweisungen oder Pläne von dieser zentralen Behörde. Das kann auch dezentralisiert sein, wobei die Agenten ihre eigenen Pläne erstellen, aber zusammenarbeiten, damit sie aufeinander abgestimmt sind und zu den allgemeinen Zielen beitragen, was oft Kommunikation und Verhandlungen erfordert.
Dieser kollaborative Entscheidungsprozess steigert die Effizienz, reduziert Verzerrungen bei der Aufgabenausführung, hilft, Halluzinationen durch gegenseitige Validierung und Konsensbildung zu vermeiden und ermutigt die Agenten, auf ein gemeinsames Ziel hinzuarbeiten.