Was ist KI-Agent-Lernen?

Autoren

Cole Stryker

Staff Editor, AI Models

IBM Think

Wie lernen und passen sich KI-Agenten im Laufe der Zeit an?

Das KI-Agenten-Lernen bezieht sich auf den Prozess, durch den ein KI-Agent seine Leistung im Laufe der Zeit verbessert, indem er mit seiner Umgebung interagiert, Daten verarbeitet und seine Entscheidungsfindung optimiert. Dieser Lernprozess ermöglicht es autonomen Agenten, sich anzupassen, ihre Effizienz zu verbessern und komplexe Aufgaben in dynamischen Umgebungen zu bewältigen. Lernen ist ein grundlegender Bestandteil vieler Agenten-KI-Systeme.

Nicht alle KI-Agententypen sind lernfähig. Einige sind einfache Reflexionsagenten, die passiv Daten aufnehmen und keine Lernfunktionen haben. Als Reaktion darauf führen sie reaktive programmierte Aktionen aus.

Es gibt modellbasierte Reflexagenten, die über ihre Umgebung nachdenken können, und proaktive zielbasierte Agenten, die bestimmte Ziele verfolgen können, aber sie lernen nicht. Auch nutzenbasierte Agenten, die eine Dienstprogrammfunktion verwenden, um Aktionen zu bewerten und auszuwählen, die den Gesamtnutzen maximieren, sind nicht geeignet.

Ein Lernagent verbessert seine Leistung im Laufe der Zeit, indem er sich an neue Erfahrungen und Daten anpasst. Andere KI-Agenten arbeiten mit vordefinierten Regeln oder Modellen, während Lernagenten ihr Verhalten auf der Grundlage von Feedback aus der Umgebung kontinuierlich aktualisieren.

Dies ermöglicht es ihnen, ihre Entscheidungsfindung zu verbessern und in dynamischen und unsicheren Situationen bessere Leistungen zu erbringen. Lernende Agenten stellen das volle Potenzial von AI-Tools dar, um mehrstufige Problemlösungs-Workload mit minimalem menschlichen Eingriff zu bewältigen.

Lernagenten bestehen typischerweise aus 4 Hauptkomponenten:

  1. Leistung: Trifft fundierte Entscheidungen auf der Grundlage einer Wissensbasis.

  2. Lernelement: Passt das Wissen des Agenten an und verbessert es auf der Grundlage von Feedback und Erfahrung.

  3. Kritiker: Bewertet die Aktionen des Agenten und gibt Feedback, oft in Form von Belohnungen oder Strafen.

  4. Problemgenerator: Schlägt explorative Aktionen vor, die dem Agenten helfen, neue Strategien zu entdecken und sein Lernen zu verbessern.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Arten des Lernens von KI-Agenten

Maschinelles Lernen (ML) bildet das Rückgrat der verschiedenen Arten des KI-Agenten-Lernens. Es ermöglicht es Mitarbeitern, Muster zu erkennen, Vorhersagen zu treffen und die Leistung auf der Grundlage von Daten zu verbessern.

Die drei wichtigsten Techniken des maschinellen Lernens, die in KI-Agenten verwendet werden, sind überwachtes Lernen, unüberwachtes Lernen und verstärkendes Lernen. Genauer gesagt handelt es sich hierbei um Deep-Learning-Techniken, die komplexe neuronale Netze mit vielen Schichten verwenden, um große Datenmengen zu verarbeiten und komplizierte Muster zu lernen.

Überwachtes Lernen

Beim überwachten Lernen werden Algorithmen für maschinelles Lernen anhand von gekennzeichneten Datensätzen trainiert, wobei jede Eingabe einer bekannten Ausgabe entspricht. Der Agent verwendet diese Informationen, um Vorhersagemodelle zu erstellen.

Zum Beispiel können intelligente Chatbots an Kundenservicegesprächen und entsprechenden Lösungen trainiert werden, um vorhergesagte Antworten zu liefern. Dieser Ansatz wird häufig in den Bereichen Bilderkennung, Speech-to-Text-Verarbeitung und medizinischer Diagnostik eingesetzt.

Transfer-Learning ermöglicht es KI-Agenten, das bei einer Aufgabe erworbene Wissen auf eine andere Aufgabe anzuwenden. Zum Beispiel kann ein Large Language Model (LLM), das auf einem allgemeinen Datensatz trainiert wurde, für einen bestimmten Bereich optimiert werden, wie z. B. juristische oder medizinische Textverarbeitung.

Unüberwachtes Lernen

Im Gegensatz dazu ermöglicht unüberwachtes Lernen KI-Agenten, Datenanalysen an nicht gekennzeichneten Daten durchzuführen, um Muster und Strukturen ohne menschliche Aufsicht zu finden.

Diese Methode eignet sich hervorragend für Aufgaben wie das Clustering des Kundenverhaltens zur Verbesserung der Marketingstrategien sowie die Erkennung von Anomalien in der Cybersicherheit und Empfehlungssysteme, wie sie von Streaming-Diensten verwendet werden.

Selbstüberwachtes Lernen verwendet unbeaufsichtigtes Lernen für Aufgaben, die herkömmlicherweise überwachtes Lernen erfordern. Statt auf gelabelte Datensätze für Überwachungssignale zurückzugreifen, erzeugen selbstüberwachte KI-Modelle implizite Labels aus unstrukturierten Daten.

Selbstüberwachtes Lernen ist in Bereichen wie Computer Vision und Verarbeitung natürlicher Sprache (NLP) nützlich, die große Mengen an gekennzeichneten Trainingsdaten erfordern.

Verstärkendes Lernen

Verstärkungslernen ist ein maschineller Lernprozess, der sich auf Entscheidungsprozesse in autonomen Agenten konzentriert. Es behandelt Entscheidungsfindung in unsicheren Umgebungen.

Im Gegensatz zum überwachten Lernen werden beim verstärkenden Lernen keine Beispiele für richtiges oder falsches Verhalten verwendet. Aber auch das verstärkende Lernen unterscheidet sich vom unüberwachten Lernen dadurch, dass es durch Versuch und Irrtum und Belohnungsfunktion lernt und nicht durch die Extraktion von Informationen über verborgene Muster.

Verstärkendes Lernen unterscheidet sich auch vom selbstüberwachten Lernen, weil es keine Pseudo-Labels erstellt oder anhand einer Ground Truth misst – es handelt sich nicht um eine Klassifizierungsmethode, sondern um einen handlungsorientierten Lernprozess.

KI-Agenten, die verstärkendes Lernen nutzen, arbeiten nach einem Trial-and-Error-Prozess, bei dem sie Maßnahmen in einer Umgebung ergreifen, die Ergebnisse beobachten und ihre Strategien entsprechend anpassen. Der Lernprozess umfasst die Definition einer Richtlinie, die Zustände Aktionen zuordnet und langfristig kumulative Belohnungen statt unmittelbare Gewinne optimiert.

Im Laufe der Zeit verfeinert der Agent seine Entscheidungsfindung durch wiederholte Interaktionen und verbessert so allmählich seine Funktionen, um komplexe Aufgaben effektiv auszuführen. Dieser Ansatz ist in dynamischen Umgebungen von Vorteil, in denen vordefinierte Regeln für eine optimale Leistung möglicherweise nicht ausreichen.

Autonome Fahrzeuge nutzen verstärkendes Lernen, um optimales Fahrverhalten zu erlernen. Durch Versuch und Irrtum verbessert die KI ihre Fähigkeit, sich durch Straßen zu bewegen, Hindernissen auszuweichen und Fahrentscheidungen in Echtzeit zu treffen. KI-gestützte Chatbots verbessern ihre Dialogfähigkeiten, indem sie aus Benutzerinteraktionen lernen und die Antworten optimieren, um das Engagement zu steigern.

Kontinuierliches Lernen

Kontinuierliches Lernen bei KI-Agenten bezieht sich auf die Fähigkeit eines künstlichen Intelligenzsystems, im Laufe der Zeit zu lernen und sich anzupassen und dabei neue Daten und Erfahrungen einzubeziehen, ohne vorheriges Wissen zu vergessen.

Im Gegensatz zum traditionellen maschinellen Lernen, bei dem in der Regel mit einem festen Datensatz trainiert wird, kann die KI beim kontinuierlichen Lernen ihre Modelle kontinuierlich aktualisieren, wenn sie auf neue Informationen oder Veränderungen in ihrer Umgebung stößt. Dadurch kann der Agent seine Leistung in Echtzeit verbessern und sich an neue Muster, sich entwickelnde Situationen und dynamische Bedingungen anpassen.

Kontinuierliches Lernen ist wichtig in realen Anwendungen, bei denen sich die Daten ständig ändern und die KI mit neuen Eingaben auf dem Laufenden bleiben muss, um effektiv zu bleiben. Sie trägt dazu bei, ein „katastrophales Vergessen“ zu verhindern, bei dem das Modell beim Lernen neuer Informationen altes Wissen vergisst, und stellt sicher, dass das System eine sich ständig weiterentwickelnde Reihe von Aufgaben und Herausforderungen bewältigen kann.

Multiagenten-Lernen und Zusammenarbeit

Einer der Nutzen von KI-Agenten ist, dass sie zusammenarbeiten können. In Multiagenten-Architekturen lernen KI-Agenten durch Zusammenarbeit und Wettbewerb. Beim kooperativen Lernen teilen Agenten Wissen, um ein gemeinsames Ziel zu erreichen, wie es bei der Schwarmrobotik der Fall ist.

Wettbewerbsorientiertes Lernen tritt jedoch dann auf, wenn Agenten ihre Strategien verfeinern, indem sie in feindlichen Umgebungen konkurrieren, wie z. B. bei der KI für den Finanzhandel.

Stellen Sie sich ein Netzwerk von KI-Agenten vor, die daran arbeiten, die Patientenversorgung zu verbessern, Workflows zu rationalisieren, die Einhaltung ethischer Überlegungen zu fördern und die Ressourcenverteilung in einem Krankenhausnetzwerk zu optimieren.

In diesen Multiagenten-Frameworks überwacht manchmal ein fortgeschrittener lernender Agent, der mit generativer KI ausgestattet ist, einfachere reflexive oder zielbasierte Agenten. In diesem Anwendungsfall könnte jeder Agent eine andere Rolle oder Aufgabe innerhalb des Gesundheitssystems darstellen und sie würden zusammenarbeiten und Informationen teilen, um die Ergebnisse für die Patienten zu verbessern und die betriebliche Effizienz zu verbessern.

KI-Agenten

5 Arten von KI-Agenten: Autonome Funktionen und Anwendungen in der echten Welt

Erfahren Sie, wie sich zielgerichtete und dienstprogrammbasierte KI an Workflows und komplexe Umgebungen anpassen kann.

Feedback-Mechanismen

Mit Feedback-Mechanismen erhält ein KI-System Informationen über die Ergebnisse seiner Aktionen oder Vorhersagen, sodass es die Genauigkeit oder Effektivität seines Verhaltens beurteilen kann.

Dieses Feedback, das positiv (Verstärkung des richtigen Verhaltens) oder negativ (die Bestrafung falscher Verhaltensweisen) sein kann, ist unerlässlich für die Entscheidungsfindung des Systems und die Verbesserung seiner Leistung. Feedback ist eine kritische Komponente, die das Lernen in KI ermöglicht, aber es ist nicht der gesamte Lernprozess.

Feedback in Echtzeit ist für KI-Agenten, die in dynamischen Umgebungen agieren, von entscheidender Bedeutung. Autonome Systeme, wie selbstfahrende Autos und Robotic Process Automation (RPA), sammeln kontinuierlich Sensordaten und passen ihr Verhalten auf der Grundlage von sofortigem Feedback an. So können sie sich an veränderte Bedingungen anpassen und ihre Entscheidungsfindung in Echtzeit verbessern.

Feedback zum unüberwachten Lernen

Beim unüberwachten Lernen wird das Feedback nicht explizit in Form von gelabelten Daten oder direkter Supervision gegeben. Stattdessen sucht der KI-Agent selbst nach Mustern, Strukturen oder Beziehungen in den Daten.

Bei Cluster- oder Dimensionalitätsreduktionsaufgaben erfolgt das Feedback beispielsweise implizit, da der Agent sein Modell so anpasst, dass es die zugrunde liegende Struktur der Daten am besten darstellt.

Das Modell verfeinert sein Verständnis der Daten durch Metriken wie Fehlerminimierung, zum Beispiel die Reduzierung von Rekonstruktionsfehlern bei Autoencodern oder die Optimierung eines bestimmten Kriteriums, wie die Maximierung der Datenähnlichkeit im Cluster.

In einem Lieferkettenmanagementsystem, das die Produktnachfrage vorhersagen und den Bestand über mehrere Lager und Geschäfte hinweg optimieren muss, könnte ein KI-Agent unüberwachte Lerntechniken wie Clustering oder Anomalieerkennung verwenden, um große Mengen historischer Verkaufsdaten zu analysieren, ohne dass dafür explizite Kennzeichnungen oder vordefinierte Kategorien erforderlich sind.

Feedback zum überwachten Lernen

Beim überwachten Lernen ist das Feedback explizit und kommt in Form von gekennzeichneten Daten daher. Der KI-Agent wird anhand von Eingabe-/Ausgabepaaren trainiert (z. B. ein Bild mit einer entsprechenden Beschriftung). Nachdem der Agent Vorhersagen getroffen hat, wird Feedback gegeben, indem seine Ausgabe mit der korrekten Bezeichnung (Ground Truth) verglichen wird.

Die Differenz zwischen dem vorhergesagten und dem wahren Output (Fehler) wird berechnet, häufig mithilfe einer Verlustfunktion. Dieses Feedback wird dann verwendet, um die Modellparameter anzupassen, sodass das Modell seine Vorhersagen im Laufe der Zeit verbessern kann.

KI-Agenten können mithilfe von überwachtem Lernen vorhersagen, an welchen Produkten oder Dienstleistungen ein Kunde wahrscheinlich interessiert sein wird, basierend auf seinem Verhalten in der Vergangenheit, seiner Kaufhistorie oder seinen Benutzerpräferenzen.

Zum Beispiel kann eine KI-Lösung für eine E-Commerce-Plattform historische Daten wie vergangene Käufe und Bewertungen als beschriftete Beispiele verwenden, um ein Modell zu trainieren, das vorhersagt, welche Produkte ein Kunde als Nächstes kaufen möchte, wodurch die Customer Experience verbessert wird.

Überwachtes Lernen wird als Human-in-the-Loop-Lernen (HITL) bezeichnet, da KI-Agenten menschliches Feedback integrieren, um ihre Modelle zu verfeinern, die Entscheidungsfindung zu verbessern und sich an neue Situationen anzupassen.

Diese Methode kombiniert automatisiertes Lernen mit menschlichem Fachwissen, sodass die KI komplexe Aufgaben effektiver erledigen und gleichzeitig Fehler und Verzerrungen minimieren kann. HITL kann auch als Feedback-Mechanismus in andere Arten des Lernens integriert werden, aber es ist nur ein wesentlicher Bestandteil des Prozesses des selbstüberwachten Lernens.

Feedback bei verstärkendem Lernen

Beim Reinforcement Learning (RL) wird Feedback in Form von Belohnungen oder Strafen gegeben. Ein RL-Agent interagiert mit einer Umgebung und führt Aktionen aus, die zu unterschiedlichen Ergebnissen führen. Nach jeder Aktion erhält der Agent Feedback in Form einer skalaren Belohnung oder Strafe, die angibt, wie gut oder schlecht das Ergebnis im Vergleich zum Ziel war.

Der Agent nutzt dieses Feedback, um seine Richtlinien oder Entscheidungsfindung und Strategie anzupassen und dabei zu versuchen, die kumulativen Prämien im Laufe der Zeit zu maximieren. Diese Feedback-Schleife ermöglicht es dem Agenten, durch Ausprobieren optimale Aktionen oder Strategien zu erlernen und sein Verhalten beim Erkunden der Umgebung zu verfeinern.

Feedback bei selbstüberwachtem Lernen

Beim selbstüberwachten Lernen generiert der Agent seine eigenen Kennzeichnungen aus den Daten und erzeugt so eine Form des Feedbacks aus der Struktur innerhalb der Daten selbst. Das Modell verwendet Teile der Daten, um andere Teile vorherzusagen, z. B. fehlende Wörter in einem Satz vorherzusagen oder zukünftige Frames in einem Video vorherzusagen.

Das Feedback ergibt sich aus dem Vergleich der Vorhersagen des Modells mit den tatsächlich fehlenden oder zukünftigen Daten. Der Agent lernt, indem er den Vorhersagefehler minimiert und seine internen Darstellungen auf der Grundlage dieses selbst generierten Feedbacks verfeinert.

Weiterführende Lösungen
KI-Agenten für Unternehmen

Entwickeln, implementieren und verwalten Sie leistungsstarke KI-Assistenten und -Agenten, die Workflows und Prozesse mit generativer KI automatisieren.

    Entdecken Sie watsonx Orchestrate
    IBM KI-Agenten-Lösungen

    Gestalten Sie die Zukunft Ihres Unternehmens mit KI-Lösungen, denen Sie vertrauen können.

    KI-Agenten-Lösungen erkunden
    IBM Consulting KI-Dienstleistungen

    Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

    Erkunden Sie die Services im Bereich der künstlichen Intelligenz
    Machen Sie den nächsten Schritt

    Ganz gleich, ob Sie vorgefertigte Apps und Skills anpassen oder mithilfe eines KI-Studios eigene Agentenservices erstellen und bereitstellen möchten, die IBM watsonx-Plattform bietet Ihnen alles, was Sie brauchen.

    Entdecken Sie watsonx Orchestrate watsonx.ai erkunden