Was sind die Komponenten von KI-Agenten?

Autoren

Cole Stryker

Staff Editor, AI Models

IBM Think

Was sind die Komponenten von KI-Agenten?

KI-Agenten treffen intelligente Entscheidungen und interagieren nahtlos mit digitalen Systemen, wobei nur minimales menschliches Eingreifen erforderlich ist. Doch was macht diese Agenten wirklich intelligent? Im Kern basieren KI-Agenten auf einer Reihe miteinander verbundener Komponenten, die es ihnen ermöglichen, ihre Umgebung wahrzunehmen, Informationen zu verarbeiten, Entscheidungen zu treffen, zusammenzuarbeiten, sinnvolle Maßnahmen zu ergreifen und aus ihren Erfahrungen zu lernen.

Es gibt viele Arten von KI-Agenten mit unterschiedlichen Funktionen, und das Verhalten der Agenten wird von der KI-Agent-Architektur bestimmt, in der sie arbeiten.

Einerseits sind reaktive Agenten einfache Reflexionsagenten, die sofort auf Reize reagieren, manchmal mit Aktuatoren, die es ihnen ermöglichen, mit ihrer Umgebung zu interagieren. Modellbasierte Reflexionsagenten verwenden ein internes Modell der Umgebung, um ihre Entscheidungsfindung zu verbessern. Am anderen Ende des Spektrums sind proaktive kognitive Agenten in der Lage, fortgeschrittene Schlussfolgerungen zu ziehen und langfristig zu planen. Einige Agenten sind auf bestimmte Aufgaben spezialisiert, andere sind darauf ausgelegt, andere Agenten als eine Art „Dirigent“ in einer KI-Orchestrierung zu führen.

Mit diesem Vorbehalt sind dies die Hauptkomponenten von KI -Agenten, die jeweils für die Erstellung adaptiver, intelligenter Systeme entscheidend sind.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und darüber hinaus auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Wahrnehmung und Umgang mit Eingaben

Agentische KI muss in der Lage sein, Informationen aus verschiedenen Quellen aufzunehmen und zu interpretieren. Eingaben können in unterschiedlicher Form erfolgen, z. B. durch Benutzeranfragen, Systemprotokolle, strukturierte Daten aus APIs oder Sensorwerte. Der Agent muss in der Lage sein, diese Informationen zu analysieren und zu verstehen. Dabei kommen häufig KI-Technologien wie die Verarbeitung natürlicher Sprache (NLP) für textbasierte Eingaben oder Datenextraktionstechniken für strukturierte Quellen zum Einsatz. Die Komplexität des Wahrnehmungsmoduls hängt vom Zweck des Agenten ab. Ein Chatbot wie Alexa von Amazon verlässt sich beispielsweise auf NLP, um menschliche Eingaben zu interpretieren, während ein selbstfahrendes Auto Kamerabilder, LIDAR-Daten und Radarsignale verarbeitet, um Objekte zu erkennen und Straßen zu navigieren. Diese überlappende Multisensor-Fusion in Verbindung mit Computer Vision ermöglicht autonomen Fahrzeugen eine Wahrnehmung ihrer Umgebung in Echtzeit.

Nachdem die Rohdaten empfangen wurden, werden sie vom Wahrnehmungsmodul bereinigt, verarbeitet und in ein verwendbares Format strukturiert. KI-Lösungen wie Speech to Text, Objekterkennung, Stimmungsanalyse, Entitätserkennung und Anomalieerkennung werden häufig eingesetzt. In Echtzeit-KI-Systemen muss die Wahrnehmung effizient und anpassungsfähig sein, Rauschen herausfiltern und relevante Informationen priorisieren. Die Genauigkeit und Robustheit dieses Moduls wirken sich direkt auf die Effektivität des KI-Agenten aus, da Fehlinterpretationen der Wahrnehmung zu falschen Entscheidungen und Handlungen führen können.

Um das Verhalten von Mitarbeitern innerhalb bestimmter Workflows erfolgreich zu steuern, kann Prompt-Engineering erforderlich sein.

KI-Agenten

5 Arten von KI-Agenten: Autonome Funktionen und Anwendungen in der echten Welt

Erfahren Sie, wie sich zielgerichtete und dienstprogrammbasierte KI an Workflows und komplexe Umgebungen anpassen kann.

Planung und Aufgabenzerlegung

Im Gegensatz zu reaktiven Agenten, die instinktiv auf unmittelbare Eingaben reagieren, planen Planungsagenten vor der Ausführung Abläufe von Aktionen. Dieses Modul ist wichtig für KI-Anwendungen wie autonome Roboter, Logistikoptimierung und KI-gestützte Planungssysteme.

Nachdem die KI die Eingabe verstanden hat, muss sie komplexe Probleme in kleinere, überschaubare Aufgaben zerlegen. Einige Schlüsselkomponenten sind die Sequenzierung von Aktionen und das Bestimmen von Abhängigkeiten zwischen Aufgaben. KI-Agenten verwenden Logik, Modelle für maschinelles Lernen oder vordefinierte Heuristiken, um die beste Vorgehensweise festzulegen.

In Systemen mit mehreren Agenten wird die Planung noch ausgefeilter, da die Agenten Ressourcen koordinieren oder darüber verhandeln müssen. Eine effektive Planung beinhaltet auch Unsicherheiten und nutzt probabilistische KI-Modelle, um sich auf unerwartete Ereignisse vorzubereiten. Ohne ein robustes Planungsmodul könnte ein Agent Probleme mit langfristigen Aufgaben haben, Prozesse nicht optimieren oder im Umgang mit sich ändernden Bedingungen ineffizient werden.

Hauptspeicher

Das Speichermodul ermöglicht es dem KI-Agenten, Informationen zu speichern und abzurufen, wodurch sichergestellt wird, dass er aus vergangenen Interaktionen lernen und den Kontext im Laufe der Zeit beibehalten kann. Dieses Modul ist typischerweise in Kurzzeit- und Langzeitgedächtnis unterteilt. Das Kurzzeitgedächtnis speichert sitzungsbasierten Kontext, sodass ein KI-Assistent sich an die letzten Nachrichten in einer Konversation erinnern und die Kohärenz aufrechterhalten kann. Dies ermöglicht kontextbezogenes Lernen. Das Langzeitgedächtnis hingegen besteht aus strukturierten Wissensdatenbanken, Vektoreinbettungen und historischen Daten, auf die sich der Agent bei seiner Entscheidung beziehen kann.

Speicherpersistenz und Organisation sind entscheidend für die Verbesserung der Personalisierung in Anwendungen wie Kundensupport-Bots, Empfehlungs-Engines und virtuellen Assistenten. Ohne ein effizientes Speichermodul funktioniert ein Agent statusunabhängig, was Benutzer dazu zwingt, Informationen zu wiederholen, was wiederum die Erfahrung beeinträchtigt. Arbeitsspeicher spielt auch eine Rolle in Multiagentensystemen, in denen Agenten eine kollektive Wissensdatenbank teilen und aktualisieren, um die Zusammenarbeit zu verbessern.

Argumentation und Entscheidungsfindung

Die einfachen Chatbots des letzten Jahrzehnts nutzten vordefinierte Regeln, um aus einer begrenzten Anzahl von Entscheidungen auszuwählen. Fortschrittlichere KI-Agenten arbeiten daran, verschiedene Lösungspfade zu bewerten, die Leistung zu bewerten und ihren Ansatz im Laufe der Zeit zu verfeinern. Das Herzstück eines Agenten ist das Argumentationsmodul. Dieses Modul bestimmt, wie ein Agent auf seine Umgebung reagiert, indem es verschiedene Faktoren abwägt, Wahrscheinlichkeiten bewertet und logische Regeln oder erlernte Verhaltensweisen anwendet. Je nach Komplexität der KI kann die Schlussfolgerung regelbasiert, probabilistisch, heuristisch oder durch Deep-Learning-Modelle unterstützt werden. Zwei beliebte Argumentationsparadigmen sind ReAct (Reasoning and Action) und ReWOO (Reasoning WithOut Observation).

Verschiedene Agententypen gehen unterschiedlich an das Argumentieren heran. Zielorientierte Agenten zum Beispiel entscheiden, indem sie ein vordefiniertes Ziel in Betracht ziehen und Aktionen auswählen, die zum Erreichen dieses spezifischen Ziels führen. Diese Agenten konzentrieren sich darauf, ob ein Ergebnis erreicht wird, anstatt das bestmögliche Ergebnis anzustreben. Nutzenbasierte Agenten hingegen gehen bei der Entscheidungsfindung einen Schritt weiter, indem sie nicht nur bewerten, ob ein Ziel erreicht wird, sondern auch, wie optimal das Ergebnis ist, und zwar auf der Grundlage einer Nutzenfunktion.

Einfache, regelbasierte KI-Systeme folgen einer vordefinierten Logik, z. B. „wenn X passiert, tue Y.“ Fortgeschrittenere Systeme verwenden Bayes'sche Inferenz, verstärkendes Lernen oder neuronale Netze, um sich dynamisch an neue Situationen anzupassen. Dieses Modul kann auch Chain-of-Thought-Reasoning und mehrstufige Problemlösungstechniken implementieren, die für KI-Anwendungen wie die automatisierte Finanzanalyse oder die juristische Vertragsprüfung unerlässlich sind. Die Fähigkeit des Agenten, effektiv zu denken und fundierte Entscheidungen zu treffen, bestimmt die allgemeine Intelligenz und Zuverlässigkeit des Agenten bei der Bewältigung komplexer Aufgaben.

Action Calling und Tool Calling

Das Aktionsmodul setzt die Entscheidungen des Agenten in der realen Welt um und ermöglicht ihm die Interaktion mit Benutzern, digitalen Systemen oder sogar physischen Umgebungen. Nachdem die Denk- und Planungsmodule eine angemessene Reaktion festgelegt haben, führt das Aktionsmodul die erforderlichen Schritte aus, sei es der Aufruf eines Tools wie einer API oder die Interaktion mit der externen Umgebung durch die Bewegung eines ARM.

Agenten-Workflows erfordern möglicherweise den Zugriff auf externe Tools, Datensätze, APIs und Automatisierungssysteme, um Aufgaben auszuführen. Tool Calling ist der Mechanismus, der in agentischen KI-Systemen verwendet wird, bei denen ein Agent externe Tools, APIs oder Funktionen aufruft, um seine Fähigkeiten über sein natives Reasoning und Wissen hinaus zu erweitern. So kann die KI Aktionen ausführen, Echtzeitdaten abrufen, Berechnungen ausführen und dynamisch mit externen Systemen interagieren.

Kurz gesagt: Tool Calling ermöglicht es einem Large Language Model (LLM), sich mit strukturierten Tools zu verbinden. So erhält das Modell Zugriff auf Informationen, die über die beim Training verwendeten Daten hinausgehen.

Kommunikation

Das Kommunikationsmodul ermöglicht es einem Agenten, mit Menschen, anderen Agenten oder externen Softwaresystemen zu interagieren, um eine nahtlose Integration und Zusammenarbeit zu gewährleisten. Dieses Modul befasst sich mit der Generierung natürlicher Sprache (NLG) und protokollbasiertem Messaging. Der Aufwand der Kommunikation variiert; Einfache Agenten können vordefinierten Skripten folgen, während fortgeschrittene Agenten generative KI-Modelle verwenden, die auf riesigen Datenmengen trainiert wurden, um dynamische, kontextbezogene Antworten zu generieren.

Die Kommunikations-Komponente ist wichtig für Multiagentensysteme (MAS), um Wissen zu teilen, Maßnahmen zu verhandeln oder Aufgaben zu koordinieren. Im Finanzwesen können beispielsweise mehrere Agenten Markttrends analysieren und Erkenntnisse austauschen, um Strategien zu optimieren. Ebenso verlassen sich KI-gestützte Lieferketten auf Softwareagenten, um Inventar zu synchronisieren, Engpässe vorherzusagen und die Logistik zu optimieren. Bei Anwendungsfällen mit Menschenkontakt, wie z. B. virtuelle Assistenten oder Chatbots, sorgt dieses Modul dafür, dass sich die Antworten natürlich, informativ und ansprechend anfühlen. Die Fähigkeit, effektiv mit menschlichen Agenten zu kommunizieren, erhöht die Benutzerfreundlichkeit eines Agenten und macht ihn in verschiedenen Bereichen wertvoller.

Lernen und Anpassung

Ein Hauptmerkmal intelligenter Agenten ist ihre Fähigkeit, aus Erfahrungen zu lernen und sich im Laufe der Zeit zu verbessern. Lernende Algorithmen ermöglichen es einem Agenten, Muster zu erkennen, Vorhersagen zu verfeinern und seine Entscheidungsfindung auf der Grundlage von Feedback anzupassen. Dies wird durch verschiedene Lernparadigmen erreicht, darunter überwachtes Lernen, unüberwachtes Lernen und verstärkendes Lernen.

Zum Beispiel kann ein Chatbot für Kundenservice mit einem Lernmodul vergangene Interaktionen analysieren, um seinen Tonfall, seine Genauigkeit und seine Reaktionseffizienz zu verbessern. In ähnlicher Weise kann ein Empfehlungssystem seine Vorschläge auf der Grundlage von Benutzerpräferenzen kontinuierlich verfeinern. Reinforcement-Learning-Agenten, wie sie in der Robotertechnik und im Gaming eingesetzt werden, optimieren ihre Aktionen, indem sie Belohnungen maximieren und Strafen minimieren. Ohne ein Lernmodul würde ein KI-System statisch bleiben und sich nicht an neue Trends, Benutzererwartungen oder unvorhergesehene Herausforderungen wie das Scheitern von Abhängigkeiten anpassen können.

In verschiedenen Branchen, vom Gesundheitswesen über die Lieferkette bis hin zum Transportwesen, können wir mit der Bereitstellung vieler weiterer Agenten rechnen, die durch ihre beeindruckende Skalierbarkeit ermöglicht werden. Führungskräfte müssen sich über den aktuellen Stand der Agententechnologie auf dem Laufenden halten, um diese Tools in vollem Umfang nutzen und gleichzeitig ethische Überlegungen berücksichtigen zu können.

Weiterführende Lösungen
KI-Agenten für Unternehmen

Entwickeln, implementieren und verwalten Sie leistungsstarke KI-Assistenten und -Agenten, die Workflows und Prozesse mit generativer KI automatisieren.

    Entdecken Sie watsonx Orchestrate
    IBM KI-Agenten-Lösungen

    Gestalten Sie die Zukunft Ihres Unternehmens mit KI-Lösungen, denen Sie vertrauen können.

    KI-Agenten-Lösungen erkunden
    IBM Consulting KI-Dienstleistungen

    Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

    Erkunden Sie die Services im Bereich der künstlichen Intelligenz
    Machen Sie den nächsten Schritt

    Ganz gleich, ob Sie vorgefertigte Apps und Skills anpassen oder mithilfe eines KI-Studios eigene Agentenservices erstellen und bereitstellen möchten, die IBM watsonx-Plattform bietet Ihnen alles, was Sie brauchen.

    Entdecken Sie watsonx Orchestrate watsonx.ai erkunden