Was ist die Wahrnehmung von KI-Agenten?

Autoren

Cole Stryker

Staff Editor, AI Models

IBM Think

Was ist KI-Agenten-Wahrnehmung?

Die Wahrnehmung eines KI-Agenten bezieht sich auf die Fähigkeit eines Agenten mit künstlicher Intelligenz (KI), Daten aus seiner Umgebung zu sammeln, zu interpretieren und zu verarbeiten, um fundierte Entscheidungen zu treffen. Dazu gehört die Verwendung von Sensoren, Dateneingaben oder externen Quellen, um den aktuellen Zustand des Systems, in dem es betrieben wird, zu verstehen.

Der Wahrnehmungsprozess ermöglicht es einem KI-gestützten Agenten, auf reale Veränderungen zu reagieren, sich an dynamische Umgebungen anzupassen und komplexe Aufgaben effektiv zu bewältigen.

Zunächst nehmen Agenten ihre Umgebung wahr, dann verarbeiten sie die gesammelten Daten, um eine Aktion durchzuführen. Ein KI-Agent ohne Wahrnehmung wäre ein regelbasiertes System oder ein logikgesteuertes Programm, das ausschließlich mit vordefinierten Eingaben und internen Zuständen arbeitet, anstatt dynamisch mit der Umgebung zu interagieren.

Mit anderen Worten, es wäre kein Agent. Die Wahrnehmung ist ein zentraler Bestandteil dessen, was KI-Agenten in realen Anwendungen wirklich intelligent und nützlich macht.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und darüber hinaus auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Arten der KI-Agenten-Wahrnehmung

Je nach Einsatzzweck und verfügbaren Sensoren können KI-Systeme die Welt durch Bild, Ton, Text, Umweltfaktoren und prädiktive Analysen wahrnehmen.

Diese unterschiedlichen Wahrnehmungstypen ermöglichen es KI-Agenten, mit ihrer Umwelt zu interagieren, Workflows zu optimieren, die Automatisierung zu verbessern und vieles mehr.

Visuelle Wahrnehmung

Die visuelle Wahrnehmung ermöglicht es Agenten, die Welt durch Bilder, Videos und andere visuelle Daten zu interpretieren und auf sie zu reagieren. Diese Fähigkeit ahmt das menschliche Sehen nach und ermöglicht es der KI, Objekte zu erkennen und Umgebungen zu verstehen.

Fortschritte in den Bereichen Computer Vision und Deep Learning haben die visuelle Wahrnehmung von KI verbessert, was zu Durchbrüchen in zahlreichen Bereichen geführt hat, wie z. B. autonome Fahrzeuge, Gesundheitswesen und Robotertechnik.

Da KI-Modelle immer ausgefeilter werden, werden KI-Agenten zunehmend menschenähnliches visuelles Verständnis aufweisen, sodass sie in komplexen realen Szenarien autonom und sicher arbeiten können.

Auditive Wahrnehmung

Die auditive Wahrnehmung ermöglicht es Agenten, Geräusche zu verarbeiten und zu verstehen. Diese Fähigkeit ermöglicht es der KI, Sprache zu interpretieren, Umgebungsgeräusche zu erkennen und mit Benutzern durch sprachbasierte Kommunikation zu interagieren.

Fortschritte in der Verarbeitung natürlicher Sprache (NLP) und Deep Learning haben die auditive Wahrnehmung der KI erheblich verbessert, was zu weit verbreiteten KI-Anwendungen in virtuellen Assistenten, Barrierefreiheitstools und Überwachungssystemen geführt hat.

Eine der wichtigsten Technologien hinter der auditiven Wahrnehmung durch KI ist die automatische Spracherkennung (ASR). ASR-Systeme wandeln gesprochene Sprache in Text um und ermöglichen es Sprachassistenten wie Siri, Alexa und Google Assistant, Benutzerbefehle zu verstehen und darauf zu reagieren.

Diese Systeme stützen sich auf Neural Networks und auf große Datensätze, um selbst in verrauschten Umgebungen oder mit unterschiedlichen Akzenten die Genauigkeit zu verbessern.

Neben Sprache kann KI auch andere Geräusche analysieren, z. B. zur Diagnose von Krankheiten durch Analyse von Atemgeräuschen oder zur Erkennung von Unregelmäßigkeiten in Equipment.

Textuelle Wahrnehmung

Die Textwahrnehmung ermöglicht es Agenten, Text zu verarbeiten, zu interpretieren und zu generieren. Agenten nutzen NLP, um Bedeutungen aus Text zu extrahieren und die Kommunikation in verschiedenen Anwendungen zu erleichtern, z. B. in Chatbots, Suchmaschinen und automatischen Tools für Zusammenfassungen. Fortschritte bei transformatorbasierten großen Sprachmodellen (LLMs) wie GPT-4 haben die Fähigkeit der KI verbessert, Texte zu verstehen und zu interpretieren.

Eine der wichtigsten Komponenten der Textwahrnehmung ist das semantische Verständnis, das es der KI ermöglicht, über das Erkennen von Wörtern hinauszugehen und ihre Bedeutung in einem bestimmten Kontext

zu erfassen. Dies ist wichtig für Anwendungsfälle wie maschinelle Übersetzung, Stimmungsanalyse und juristische oder medizinische Dokumentenanalyse.

Darüber hinausermöglicht es die Named Entity Recognition (NER) der KI, bestimmte Personen, Orte und Unternehmen zu identifizieren, was ihre Fähigkeit verbessert, wertvolle Erkenntnisse aus großen Datensätzen zu extrahieren – eine wertvolle Funktion bei Anwendungsfällen wie Marketing und Customer Experience.

Wahrnehmung der Umgebung

Die Umgebungswahrnehmung bei KI-Agenten unterscheidet sich von der auditiven und visuellen Wahrnehmung, da sie ein breiteres, multimodales Verständnis der Umgebung beinhaltet und Daten von verschiedenen Sensoren integriert, die über Bild und Geräusch hinausgehen.

Fortschritte in den Bereichen Computer Vision, Sensorfusion und maschinelles Lernen haben die Fähigkeit der KI, die physische Welt wahrzunehmen und mit ihr zu interagieren, erheblich verbessert.

Anders als beim reinen Sehen oder Hören kombiniert die Umweltwahrnehmung mehrere Eingaben (Bild, Ton, LiDAR, Berührung), um ein ganzheitliches Verständnis der Umgebung zu schaffen. Sie ermöglicht es KI-Agenten, ihre Umgebung mithilfe realer Physik abzubilden und zu navigieren, während sich die visuelle und auditive Wahrnehmung eher auf passives Erkennen konzentriert.

Während Sehen und Hören die Fähigkeiten menschlicher Agenten imitieren, geht die Umweltwahrnehmung über diese hinaus, indem sie Radar, Temperatursensoren und Druckerkennung integriert, sodass die KI Dinge wahrnehmen kann, die Menschen nicht wahrnehmen können.

Prädiktive Wahrnehmung

Die prädiktive Wahrnehmung ermöglicht es Agenten, zukünftige Ereignisse auf der Grundlage beobachteter Daten vorherzusehen. Im Gegensatz zur traditionellen Wahrnehmung, die sich auf die Interpretation der gegenwärtigen Umgebung konzentriert, ermöglicht die prädiktive Wahrnehmung der KI die Vorhersage von Veränderungen, die Ableitung von Absichten und die proaktive Anpassung des Verhaltens.

Wenn man an KI-Funktionen denkt, fallen eher Schlagwörter wie Analyse, Vorhersage oder Schlussfolgerung als Wahrnehmung im traditionellen Sinne ein. Die vorausschauende Wahrnehmung kann jedoch sinnvollerweise als eigene Kategorie betrachtet werden, bei der die KI nicht nur die Umgebung wahrnimmt, sondern auch voraussieht, wie sie sich verändern wird, indem sie die Wahrnehmung mit vorausschauenden logischem Denken verbindet.

Im Mittelpunkt der vorausschauenden Wahrnehmung stehen Modelle des maschinellen Lernens (ML), Deep Learning, probabilistische Modellierung und Reinforcement Learning. KI-Systeme analysieren historische und Echtzeitdaten, um Muster zu erkennen und Vorhersagen zu treffen.

Während sich die vorausschauende Analyse auf historische Daten und statistische Modelle stützt, umfasst die prädiktive Wahrnehmung Echtzeiterfassung in Kombination mit Prognosen, wodurch sie dynamischer wird und besser auf die unmittelbare Umgebung reagieren kann. Obwohl es sich um ein hybrides Konzept handelt, schließt die prädiktive Wahrnehmung die Lücke zwischen Erkennung und Voraussicht und ermöglicht es KI-Agenten, die Gegenwart nicht nur zu verstehen, sondern sich auch in Echtzeit auf die Zukunft vorzubereiten.

KI-Agenten

5 Arten von KI-Agenten: Autonome Funktionen und Anwendungen in der echten Welt

Erfahren Sie, wie sich zielgerichtete und dienstprogrammbasierte KI an Workflows und komplexe Umgebungen anpassen kann.

Wie die agentische Wahrnehmung funktioniert

KI-Agenten arbeiten in einem Ökosystem aus anderen Tools, Anwendungen und Frameworks. Sie verbinden sich über Anwendungsprogrammierschnittstellen (APIs), die ihnen die Integration mit externen Wissensdatenbanken und Systemen ermöglichen. In Szenarien wie der Softwareentwicklung helfen KI-Agenten dabei, Code zu optimieren, die Latenzzeit zu verbessern und bestimmte Aufgaben zu automatisieren.

Bei der generativen KI können diese Agenten Ausgaben wie Text, Bilder oder Musik basierend auf der von ihnen wahrgenommenen Eingabe erstellen, indem sie Deep-Learning-Modelle verwenden, die auf riesigen Datenmengen trainiert wurden.

Bevor dies jedoch geschehen kann, müssen die Agenten wahrnehmen. Obwohl sich die Prozesse je nach Design und Art des Agenten unterscheiden, sind hier die grundlegenden Schritte der Agenten-Wahrnehmung:

1. Sammlung von sensorischen Eingaben

KI-Agenten sammeln Rohdaten aus verschiedenen Quellen wie Kameras (für das Sehen), Mikrofonen (für Sound), LiDAR und Radar (für das Bewusstsein) und Druck- oder Temperatursensoren (für die Umwelterkennung). Diese sensorischen Informationen bilden die Grundlage für die Wahrnehmung.

2. Datenverarbeitung und Merkmalsextraktion

Nach der Erfassung werden die Daten vorverarbeitet, um Rauschen zu entfernen und wichtige Merkmale hervorzuheben. In der Computervision analysieren beispielsweise Convolutional Neural Networks (CNNs) Bilder, um Objekte, Gesichter oder Bewegungen zu erkennen. In der Spracherkennung wandeln Deep-Learning-Modelle Audiowellen in Text um.

3. Mustererkennung und -interpretation

Mithilfe von Algorithmen des maschinellen Lernens erkennt die KI Muster, Beziehungen und kontextuelle Hinweise. NLP-Modelle, wie z. B. Transformatoren, helfen der KI, menschliche Sprache zu verstehen und zu generieren, während Reinforcement Learning es Robotern ermöglicht, ihre Umgebung dynamisch wahrzunehmen und sich an sie anzupassen.

4. Entscheidungsfindung und Reaktion

Wahrnehmung führt zum Handeln. KI-Agenten verwenden Inferenzmodelle, um anhand wahrgenommener Daten zu entscheiden, wie sie reagieren. Ein selbstfahrendes Auto erkennt zum Beispiel Fußgänger und Verkehrszeichen und nimmt dann Fahranpassungen in Echtzeit vor.

Wie verschiedene Arten von Agenten wahrnehmen

Die Art und Weise, wie Agenten funktionieren und wahrnehmen, kann je nach Art des Agenten, seines Zwecks und der von ihm verwendeten Technologien stark variieren. Sie reicht von einfachen Reaktionsagenten, die auf unmittelbare Reize reagieren, bis hin zu komplexen Lernagenten, die ihre Wahrnehmung im Laufe der Zeit anpassen und verbessern.

Einfache Reflexagenten

Reaktive Reflexagenten nehmen die Umwelt mithilfe von Sensoren wahr und reagieren direkt, oft mit Aktoren, auf der Grundlage vordefinierter Regeln, ohne sich an vergangene Ereignisse zu erinnern. Ihre Wahrnehmung ist oft auf aktuelle sensorische Eingaben beschränkt.

Modellbasierte Reflexagenten

Mit Modellen ausgestattete Reflexagenten verbessern einfache Reflexagenten, indem sie ein internes Modell der Welt beibehalten. Sie nehmen die Umgebung mithilfe von Sensoren wahr, verwenden aber auch interne Zustände, um die Entwicklung der Umgebung im Laufe der Zeit zu verfolgen.

Zielbasierte Agenten

Zielorientierte Agenten nehmen die Umgebung so wahr, dass sie bestimmte Ziele verfolgen können. Sie verwenden Sensoren, um Informationen zu sammeln und zu bewerten, wie der aktuelle Zustand mit ihren Zielen übereinstimmt.

Nutzenbasierte Agenten

Nutzenorientierte Agenten verfolgen nicht nur Ziele, sondern bewerten auch verschiedene mögliche Aktionen auf der Grundlage einer Nutzenfunktion, die misst, wie gut jede Aktion ihre Ziele erreicht. Diese Agenten nutzen die Wahrnehmung, um die Umgebung zu bewerten und wählen dann Aktionen, die ihre Gesamtzufriedenheit oder Leistung maximieren.

Lernende Agenten

Lernende Agenten nehmen die Umgebung wahr und treffen Entscheidungen auf der Grundlage von Eingaben und Erfahrungen. Sie verfügen über eine Komponente, wie zum Beispiel einen Lernalgorithmus, der es ihnen ermöglicht, ihre Leistung im Laufe der Zeit zu verbessern, indem sie aus ihren Interaktionen lernen. Diese Agenten passen ihre Wahrnehmung und ihre Entscheidungsfindung auf der Grundlage von Feedback an.

Multiagentensysteme

Multiagentensysteme (MAS) nähern sich der Wahrnehmung, indem sie mehreren autonomen Agenten ermöglichen, Informationen auszutauschen, zusammenzuarbeiten und ihre Umgebung kollektiv zu interpretieren.

Anstatt sich auf die Sinneseindrücke eines einzelnen Agenten zu verlassen, verwenden Multiagentensysteme einen verteilten, manchmal hierarchischen Wahrnehmungsansatz, bei dem jeder Agent verschiedene Aspekte der Umgebung wahrnehmen und Informationen zu einem gemeinsamen Verständnis beitragen kann.

Diese kollektive Wahrnehmung verbessert die Gesamtfähigkeit des Systems, mit komplexen und dynamischen Umgebungen umzugehen.

Darüber hinaus werden Sensorfusionstechniken häufig in Multiagentensystemen eingesetzt, um sensorische Daten von verschiedenen Agenten zu kombinieren und eine genauere und ganzheitlichere Wahrnehmung der Umgebung zu schaffen.

Dieser Ansatz kann auch Techniken wie verteiltes Denken umfassen, bei dem Agenten ihre Beobachtungen teilen, ihre internen Modelle auf der Grundlage gemeinsam genutzter Daten aktualisieren und zusammenarbeiten, um kollektive Entscheidungen zu treffen, beispielsweise bei Such- und Rettungsmissionen oder verteilten Überwachungssystemen.

Multiagentenarchitekturen nutzen zudem kollaboratives Lernen. Da Agenten im Laufe der Zeit interagieren und Informationen austauschen, können sie aus den Erfahrungen der anderen lernen und so die kollektive Wahrnehmung und Entscheidungsfindung des Systems verbessern. Diese verteilte Wahrnehmung ermöglicht MAS, anpassungsfähiger und skalierbar zu sein und komplexe Probleme mit so wenig menschlichem Eingriff wie möglich zu lösen.

Weiterführende Lösungen
KI-Agenten für Unternehmen

Entwickeln, implementieren und verwalten Sie leistungsstarke KI-Assistenten und -Agenten, die Workflows und Prozesse mit generativer KI automatisieren.

    Entdecken Sie watsonx Orchestrate
    IBM KI-Agenten-Lösungen

    Gestalten Sie die Zukunft Ihres Unternehmens mit KI-Lösungen, denen Sie vertrauen können.

    KI-Agenten-Lösungen erkunden
    IBM Consulting KI-Dienstleistungen

    Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

    Erkunden Sie die Services im Bereich der künstlichen Intelligenz
    Machen Sie den nächsten Schritt

    Ganz gleich, ob Sie vorgefertigte Apps und Skills anpassen oder mithilfe eines KI-Studios eigene Agentenservices erstellen und bereitstellen möchten, die IBM watsonx-Plattform bietet Ihnen alles, was Sie brauchen.

    Entdecken Sie watsonx Orchestrate watsonx.ai erkunden