Was ist ein Toolaufruf?

Autoren

Cole Stryker

Staff Editor, AI Models

IBM Think

Was ist Tool-Calling?

Toolaufruf bezieht sich auf die Fähigkeit von KI-Modellen, mit externen Tools, Programmierschnittstellen (APIs) oder Systemen zu interagieren, um deren Funktionen zu verbessern.

Statt sich ausschließlich auf vortrainiertes Wissen zu verlassen, kann ein KI-System mit Funktionen zum Aufrufen von Tools Datenbanken abfragen, Echtzeitinformationen abrufen, Funktionen ausführen oder komplexe Vorgänge durchführen, die über seine nativen Fähigkeiten hinausgehen.

Der Aufruf von Tools, die manchmal auch als Funktionsaufrufe bezeichnet werden, ist ein wichtiger Faktor für die agentische KI. Es ermöglicht autonomen Systemen, komplexe Aufgaben zu erledigen, indem sie dynamisch auf externe Ressourcen zugreifen und darauf reagieren.

Anstatt nur Fragen zu beantworten, können Large Language Models (LLMs) mit Tool Calling Workflows automatisieren, mit Datenbanken interagieren, mehrstufige Problemlösungen durchführen, Entscheidungen in Echtzeit treffen und vieles mehr.

Dieser Wandel verwandelt LLMs von passiven Assistenten in proaktive digitale Agenten, die in der Lage sind, komplexe Aufgaben auszuführen.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Warum ist Tool Calling wichtig?

Große Sprachmodelle (LLMs) sind traditionell durch die Daten begrenzt, mit denen sie trainiert werden, ein Prozess, der zeit- und rechenintensiv sein kann.

Obwohl führende LLMs auf riesigen Datensätzen trainiert werden, führte der Bedarf an Echtzeitdaten, externen Berechnungen und verbesserter Interaktivität zur Integration von Tool Calling Capabilities.

Frühe LLMs, einschließlich GPT-2 von OpenAI, waren statisch. Sie generierten Antworten auf der Grundlage ihrer Trainingsdaten, ohne neue Informationen abrufen zu können.

Obwohl beeindruckend, fehlte ihnen das Bewusstsein für die reale Welt und sie hatten Schwierigkeiten mit dynamischen Abfragen, die Live-Daten wie aktuelle Ereignisse, Aktienkurse oder benutzerspezifische Aktionen erforderten.

Um diese Einschränkung zu umgehen, begannen die Entwickler, externe Plug-ins, APIs und Datenbanken zu integrieren, sodass Modelle Echtzeitinformationen anfordern und verarbeiten konnten, anstatt sich ausschließlich auf statische Trainingsdaten zu verlassen.

Entwickler trainierten LLMs darauf, zu erkennen, wann eine Anfrage externe Unterstützung benötigte. Darüber hinaus verfügen externe Systeme oft über ein bestimmtes Eingabeschema. Tool, das Anfragen aufruft, modelliert Antworten, die dem von externen Systemen verwendeten Schema entsprechen.

KI-Agenten

5 Arten von KI-Agenten: Autonome Funktionen und Anwendungen in der echten Welt

Erfahren Sie, wie sich zielgerichtete und dienstprogrammbasierte KI an Workflows und komplexe Umgebungen anpassen kann.

Wie funktioniert Tool Calling?

Toolaufruf umfasst mehrere Schlüsselkomponenten, die zusammenarbeiten, um die Interaktion der KI mit externen Tools zu erleichtern. Moderne LLMs wie Claude von Anthropic, Llama 3 von Meta, Mistral und IBM® Granite™ verfügen alle über Funktionen zum Aufrufen von Tools, gehen aber mit jedem etwas anders um.

Die erste Komponente ist das KI-Modell selbst, das erkennt, wenn es nicht über ausreichende Kenntnisse verfügt oder eine externe Funktion benötigt, um eine Anfrage zu erledigen.

Als Nächstes identifiziert der Mechanismus zur Werkzeugauswahl die geeigneten Abhängigkeiten zur Bewältigung der spezifischen Aufgabe, unabhängig davon, ob es sich um eine Suchmaschine, eine Datenbank oder eine Rechenressource handelt.

Bei Auswahl eines Tools kommt die API-Schnittstelle ins Spiel, über die KI strukturierte Abfragen senden und Antworten in einem maschinenlesbaren Format empfangen kann.

Schließlich sorgt das Antwortverarbeitungssystem dafür, dass die abgerufenen Daten korrekt formatiert und dem Benutzer auf sinnvolle Weise präsentiert werden.

Schritt 1. Erkennen der Notwendigkeit eines Tools

Nehmen wir an, ein Benutzer fragt ein LLM: „Wie ist das Wetter gerade in San Francisco?“ Die KI nutzt Natural Language Understanding, um zu erkennen, dass Echtzeit-Wetterdaten benötigt werden, die nicht aus ihrer statischen Wissensbasis abgeleitet werden können.

Einer von einem Modell gestellten Anfrage zur Verwendung eines Tools wird automatisch eine eindeutige Tool-Aufruf-ID zugewiesen, die als Trackingnummer dient, um die Anfrage mit dem entsprechenden Ergebnis zu verknüpfen.

Schritt 2. Auswahl des Werkzeugs

Die KI identifiziert das beste Tool für die Aufgabe, in diesem Fall die Überprüfung einer aktuellen Wetterdatenbank. Dieser Schritt trägt dazu bei, dass die abgerufenen Informationen korrekt und relevant sind.

Jedes Tool enthält Metadaten und strukturierte Informationen wie einen eindeutigen Toolnamen (oder Funktionsnamen), der dem Modell und System hilft, es korrekt zu identifizieren. Weitere Metadaten sind Beschreibungen, Werkzeugparameter und erforderliche Eingabe- und Ausgabetypen.

Das Modell trifft eine Toolauswahl, nachdem es festgestellt hat, dass die Daten aus einer Auswahl verfügbarer Tools abgerufen werden müssen.

Vorlagen sind strukturierte Promptformate, die dem Modell mitteilen, welches Tool verwendet werden soll und welche Argumente (oder „Argumente“) bereitgestellt werden müssen, was eine kontrolliertere und strukturiertere Interaktion mit APIs ermöglicht.

Im Kontext des Toolaufrufs beziehen sich Argumente auf die strukturierten Eingaben, die an ein Tool oder eine Funktion übergeben werden, wenn es von einem generativen Modell gestartet wird. Diese Argumente definieren die Parameter, die das Tool zur ordnungsgemäßen Ausführung benötigt.

Die Kombination von Tool-Calling mit Retrieval-Augmented Generation (RAG) verbessert die KI-Funktionen, indem Systeme sowohl strukturierte als auch unstrukturierte Daten abrufen können, bevor strukturierte Ausgaben generiert werden.

Dieser Ansatz verbessert die kontextuelle Relevanz, indem die relevantesten Daten abgerufen werden, bevor eine Antwort generiert wird, was zu fundierteren und genaueren Ausgaben führt.

Außerdem minimiert es den API-Overhead, indem mehrere Abrufe in einem einzigen Schritt zusammengefasst werden, wodurch Latenz und Kosten reduziert werden. RAG ist flexibler als herkömmliche Tools und ermöglicht es, Modelle aus verschiedenen Quellen zu beziehen, was es für unterschiedliche Bereiche äußerst anpassungsfähig macht.

Im Gegensatz zur starren Struktur herkömmlicher Werkzeuge ermöglicht RAG eine fließendere Integration des abgerufenen Wissens mit Argumentation und Generierung, was zu dynamischeren und einfühlsameren Antworten führt.

Schritt 3. Erstellen und Senden einer Abfrage

Die KI formuliert dann eine strukturierte Anfrage, die das Tool oder die API verstehen kann.

Jedes Tool ist mit bestimmten Toolfunktionen verknüpft, die bestimmen, was das Tool tut. Diese Funktionen basieren auf einer API-Referenz, die eine Dokumentation zur Interaktion mit der API des Tools enthält, einschließlich Endgerät-URLs, Anforderungsmethoden und Antwortformate.

Für den Zugriff auf eine externe API benötigen viele Dienste einen API-Schlüssel, eine eindeutige Kennung, die die Berechtigung zum Senden von Anforderungen gewährt. Wenn das Werkzeug ausgewählt und die Parameter festgelegt sind, wird ein API-Aufruf ausgeführt, um die angeforderten Daten abzurufen. Diese Anforderung wird in der Regel über HTTP an einen externen Server gesendet.

Schritt 4. Empfangen und Verarbeiten der Antwort

Das externe Tool gibt Daten zurück. Die KI muss dann die Tool-Ergebnisse analysieren. Bei einer Wetteranfrage kann die API mit einem JSON-Schemaobjekt antworten, das Temperatur, Luftfeuchtigkeit und Windgeschwindigkeit enthält. Die KI filtert und strukturiert diese Daten, um eine für den Nutzer sinnvolle Antwort zusammenzufassen.

Schritt 5: Präsentation der Informationen oder Ergreifen von Maßnahmen

Die KI liefert die verarbeiteten Informationen auf intuitive Weise. Wenn die Anfrage eine Automatisierung beinhaltet, z. B. das Festlegen einer Erinnerung, würde die KI bestätigen, dass eine Aktion geplant wurde.

Schritt 6. Verfeinerung der Suche

Wenn der Benutzer weitere Details oder Änderungen anfordert, kann die KI den Vorgang mit einer angepassten Abfrage wiederholen und so sicherstellen, dass sie ihre Antwort auf der Grundlage der Benutzeranforderungen fortlaufend weiter verfeinert.

LangChain wird häufig beim Toolaufruf verwendet, indem es ein Open-Source-Framework für die Integration externer Tools, APIs und Funktionen mit LLMs bietet. Es hilft bei der Verwaltung der Toolausführung, der Eingabe- oder Ausgabeverarbeitung und der kontextbezogenen Entscheidungsfindung.

Zum Beispiel verarbeitet LangChain Funktionsargumente mit einem Parser für Benutzerabfragen, extrahiert relevante Parameter und formatiert sie korrekt für das Tool. Im Gegensatz zum einfachen Werkzeugaufruf kann LangChain frühere Ausgaben speichern und abrufen, was bessere Multiturn-Interaktionen ermöglicht.

LangChain ermöglicht die Kombination mehrerer Tools in einer Sequenz und ermöglicht so komplexere Workflows. So kann es beispielsweise zunächst Daten aus der Wetter-API abrufen und dann ein separates Tool verwenden, um Kleidung auf Basis der Vorhersage zu empfehlen.

Arten von Tool Calling

Mithilfe von Tool Calling können LLMs alle möglichen Arten von Aufgaben ausführen. Es gibt unbegrenzt viele Anwendungsfälle für KI-Anwendungen, die Tool Calling verwenden. Hier sind 5 häufige Kategorien mit einigen Beispielen aus der Praxis.

Informationsbeschaffung und -suche

KI ruft Echtzeitdaten aus dem Internet, Nachrichtenquellen, akademischen Datenbanken oder Finanzmärkten ab. Ein KI-Chatmodell kann beispielsweise eine Such-API aufrufen, um die neuesten Aktienkurse oder KI-Forschungsartikel bereitzustellen und die Informationen über einen Chatbot bereitzustellen.

Ausführung von Code

Damit kann die KI komplexe Berechnungen durchführen oder Skripte mit Hilfe von mathematischen Engines wie Wolfram Alpha oder Python-Ausführungsumgebungen ausführen. Dies ist nützlich, um Gleichungen zu lösen, Simulationen durchzuführen oder kleine Codeschnipsel auszuführen.

Prozessautomatisierung

Durch Integrationen mit Plattformen wie Google Calendar und Zapier automatisiert KI Workflows wie das Planen von Meetings, das Versenden von E-Mails oder das Verwalten von To-Do-Listen. KI-Agenten können mit CRM-, Finanz- und Analysetools wie Salesforce und QuickBooks interagieren und ermöglichen es Unternehmen, Prozesse wie das Abrufen von Kundendaten oder die Finanzberichterstattung zu automatisieren.

Intelligente Geräte und IoT-Überwachung

Agentische KI-Systeme können Hausautomatisierungssysteme, industrielle IoT-Geräte und Robotertechnik überwachen und steuern. Wir können uns leicht vorstellen, dass eines Tages ganze End-to-End-Workflows von autonomen Agenten bearbeitet werden.

Weiterführende Lösungen
KI-Agenten für Unternehmen

Entwickeln, implementieren und verwalten Sie leistungsstarke KI-Assistenten und -Agenten, die Workflows und Prozesse mit generativer KI automatisieren.

    Entdecken Sie watsonx Orchestrate
    IBM KI-Agenten-Lösungen

    Gestalten Sie die Zukunft Ihres Unternehmens mit KI-Lösungen, denen Sie vertrauen können.

    KI-Agenten-Lösungen erkunden
    IBM Consulting KI-Dienstleistungen

    Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

    Erkunden Sie die Services im Bereich der künstlichen Intelligenz
    Machen Sie den nächsten Schritt

    Ganz gleich, ob Sie vorgefertigte Apps und Skills anpassen oder mithilfe eines KI-Studios eigene Agentenservices erstellen und bereitstellen möchten, die IBM watsonx-Plattform bietet Ihnen alles, was Sie brauchen.

    Entdecken Sie watsonx Orchestrate watsonx.ai erkunden