Ein KI-Agent bezieht sich auf ein Softwaresystem, das in der Lage ist, Aufgaben für einen Benutzer oder ein anderes System selbstständig auszuführen, indem es seinen eigenen Workflow entwickelt und bei Bedarf externe Tools verwendet.
Agenten gehen weit über die einfache Verarbeitung und das Verständnis von Sprache hinaus. Sie sind in der Lage, Entscheidungen zu treffen, Probleme zu lösen, mit ihrer Umwelt zu interagieren und Ziele zu verfolgen.
KI-Agenten werden mittlerweile in eine Vielzahl von Unternehmenslösungen integriert, von IT-Automatisierung und Software-Engineering bis hin zu Konversationsschnittstellen und der Implementierung von Codegenerierung. Angetrieben von großen Sprachmodellen (LLMs) können sie komplexe Anweisungen verstehen, sie in Schritte zerlegen, mit Ressourcen aus externen Quellen interagieren und verfügen über die kognitive Fähigkeit zu wissen, wann bestimmte Tools oder Dienste bereitgestellt werden müssen, um Aufgaben zu erfüllen.
Die Agentenbewertung ist ein wichtiges Verfahren bei der Entwicklung und dem bereitstellen autonomer KI-Systeme, da sie misst, wie gut ein Agent die zugewiesenen Aufgaben ausführt, Entscheidungen trifft und mit Benutzern oder Umgebungen interagiert. Auf diese Weise können wir sicherstellen, dass die Agenten in den beabsichtigten Anwendungsfall zuverlässig, effizient und ethisch korrekt arbeiten.
Zu den wichtigsten Gründen für die Bewertung eines Agenten gehören:
Zur Bewertung der Leistung eines KI-Agenten werden Metriken verwendet, die in mehrere formale Leistungsklassen unterteilt sind: Genauigkeit, Reaktionszeit (Geschwindigkeit) und Kosten der verwendeten Ressourcen. Die Genauigkeit beschreibt, wie gut der Agent die richtigen und relevanten Antworten gibt, sowie die Fähigkeit des Agenten, die beabsichtigten Funktionen zu erfüllen. Die Antwortzeit misst die Geschwindigkeit, mit der der Agent die Eingabe verarbeitet und eine Ausgabe erzeugt. Die Minimierung der Latenz ist besonders wichtig bei interaktiven und Echtzeitprogrammen. Die Kosten messen die Rechenressourcen, die der Agent verbraucht, wie z. B. die Verwendung von Token, der Aufruf einer Anwendungsprogrammierschnittstelle (API) oder die Systemzeit. Diese Metriken bieten Richtlinien zur Verbesserung der Leistung des Systems und zur Begrenzung der Betriebskosten.
Während wichtige Metriken wie Korrektheit ,Nützlichkeit und Kohärenz unter Genauigkeit fallen, misst die Antwortzeit (Latenz) Metriken wie Durchsatz, durchschnittliche Latenz und Timeout-Verzögerung. Zu den Kostenmetriken gehören die Token-Nutzung, die Rechenzeit, die Anzahl der API-Aufrufe und der Speicherverbrauch.
In diesem Tutorial werden die wichtigsten Metriken für Korrektheit, Nützlichkeit und Kohärenz untersucht, die unter Genauigkeit fallen.
Sie entwickeln ein Reisebüro und bewerten seine Leistung mit Hilfe eines „LLM-as-a-Judge“.
Sie benötigen ein IBM® Cloud-Konto, um ein watsonx.ai®-Projekt zu erstellen.
Sie benötigen außerdem Python Version 3.12.7
Sie können zwar aus mehreren Tools wählen, aber dieses Tutorial führt Sie durch die Einrichtung eines IBM® Kontos für die Verwendung eines Jupyter Notebook.
Melden Sie sich bei watsonx.ai mit Ihrem IBM® Cloud-Konto an.
Erstellen Sie ein watsonx.ai-Projekt. Sie können Ihre Projekt-ID in Ihrem Projekt abrufen. Klicken Sie auf die Registerkarte Verwalten. Kopieren Sie dann die Projekt-ID aus dem Abschnitt Detailsder Seite Allgemein. Sie benötigen diese ID für dieses Lernprogramm.
Erstellen Sie ein Jupyter Notebook. Dieser Schritt öffnet eine Jupyter Notebook-Umgebung, in die Sie den Code aus diesem Tutorial kopieren können. Alternativ können Sie dieses Notebook auf Ihr lokales System herunterladen und als Asset in Ihr watsonx.ai-Projekt hochladen. Weitere IBM® Granite-Tutorials finden Sie in der IBM® Granite Community.
Erstellen Sie eine watsonx.ai-Laufzeit-Service-Instanz (wählen Sie Ihre entsprechende Region aus und wählen Sie den Lite-Plan, der eine kostenlose Instanz ist).
Generieren Sie einen Schlüssel für eine Anwendungsprogrammierschnittstelle (API) .
Verknüpfen Sie die Instanz des watsonx.ai-Runtime-Service mit dem Projekt, das Sie in watsonx.ai erstellt haben.
Für dieses Tutorial benötigen wir einige Bibliotheken und Module. Stellen Sie sicher, dass Sie die folgenden importieren. Falls sie nicht installiert sind, kann eine schnelle Pip-Installation das Problem beheben.
Hinweis, dieses Tutorial wurde mit Python 3.12.7 erstellt.
Um unsere Zugangsdaten festzulegen, benötigen wir den WATSONX_APIKEY und die WATSONX_PROJECT_ID, die Sie in Schritt 1 generiert haben. Wir legen auch die URL fest, die als API-Endgerät dient. Ihr API-Endgerät kann je nach Ihrem geografischen Standort unterschiedlich sein.
Für dieses Tutorial verwenden wir das Granite 3 -8B Instruct-Modell. Um das LLM zu initialisieren, müssen wir die Modellparameter festlegen. Weitere Informationen zu diesen Modellparametern, beispielsweise den minimalen und maximalen Token-Grenzwerten, finden Sie in der Dokumentation.
Erstellen wir einen Partner für Reiseexplorer, der Benutzern bei der Reiseplanung und Reiserecherche hilft.
Wir werden eine einfache Reiseassistentenanwendung entwickeln, die als Antwort auf Benutzeranfragen Informationen zu Fluggesellschaften und Hotels abrufen kann, indem sie sich mit einer externen Reise-API verbindet. Um die Integration in KI-Agenten für die dynamische Reiseplanung zu ermöglichen, werden wir eine einfache Funktion haben, die API-Abfragen durchführt und in ein Tool einbindet.
Abschließend führen wir eine Bewertung durch und drucken das Endergebnis aus. Zur Bewertung des Reiseplaners anhand der drei Kriterien Korrektheit, Hilfsbereitschaft und Kohärenz wird ein strukturierter Prompt für ein Bewerter-LLM entwickelt.
Die Ausgabe zeigt eine qualitative sowie eine quantitative Bewertung des Reiseplaners, die anhand der drei Kriterien Richtigkeit, Hilfsbereitschaft und Kohärenz erstellt wurde.
Sehen wir uns an, was die einzelnen Bewertungen und Metriken im Kontext des Outputs des Agenten bedeuten:
Bei der Bewertung der Fähigkeit eines Agenten, die Bedürfnisse der Benutzer wirklich zu erfüllen, spielen Kriterien wie Kohärenz, Nützlichkeit und Korrektheit eine zentrale Rolle. Unabhängig davon, ob Sie mit OpenAI, IBM Granite oder anderen LLM-as-a-Service-Modellen arbeiten: Es ist wichtig, sich auf strukturierte Bewertungsmethoden wie Datensätze, Benchmarks, Anmerkungen und Ground Truth zu stützen, um die endgültigen Ausgaben gründlich zu testen. In praktischen Anwendungsfällen, wie etwa beim Chatbot- oder RAG-basierten Kundensupport, sind Open-Source-Frameworks wie LangGraph von unschätzbarem Wert. Sie unterstützen skalierbare Automatisierung und zuverlässige Routen und ermöglichen zudem schnelle Iterationszyklen. Diese Technologien erleichtern auch die Nutzung von generativen KI-Systemen, das Debuggen von Verhaltensweisen sowie die Optimierung und Konfiguration komplexer Workflows. Durch die sorgfältige Definition von Testfällen und die Berücksichtigung von Observability-Metriken wie Rechenkosten, Preis und Latenz können Teams die Leistung kontinuierlich steigern. Letztendlich sorgt die Anwendung eines zuverlässigen und wiederholbaren Bewertungsansatzes dafür, dass maschinelles Lernen zuverlässiger wird und die Vertrauenswürdigkeit mit der Zeit steigt.
Entwickeln, implementieren und verwalten Sie leistungsstarke KI-Assistenten und -Agenten, die Workflows und Prozesse mit generativer KI automatisieren.
Gestalten Sie die Zukunft Ihres Unternehmens mit KI-Lösungen, denen Sie vertrauen können.
Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.