Implementieren Sie Prompt-Caching, indem Sie LangChain für die Erstellung effizienter LLM-Anwendungen verwenden

Autor

Lead AI Advocate

Was ist Prompt-Caching?

Prompt-Caching ist eine Möglichkeit, die Antworten, die aus ausgeführten Prompts generiert wurden, zu speichern und dann wiederzuverwenden, wenn Sie mit Sprachmodellen wie IBM Granite-Modellen arbeiten. Wenn dieselbe Eingabe (Prompt) noch einmal auftritt, ruft die Anwendung die zuvor gespeicherte Antwort im Prompt-Cache ab, anstatt einen neuen API-Aufruf durchzuführen.

Stellen Sie sich Prompt-Caching als eine Art „Gedächtnis“ für Ihre Anwendung vor. Das System behält Ergebnisse früherer Abfragen bei, um Rechenzeit zu sparen, da keine wiederholten Abfragen für dieselbe Eingabe gestellt werden müssen.

Warum ist es so wichtig?

Das Prompt-Caching ist wichtig, weil es wiederholte Aufrufe der Programmierschnittstelle (API) vermeidet, indem vorhandene Antworten für identische wiederholte Prompts wiederverwendet werden. Dies führt zu schnelleren Reaktionszeiten, konstanter Ausgabe und geringerer Nutzung der API, was hilfreich ist, um die Ratengrenzen einzuhalten. Es hilft auch, den Datenfluss zu skalieren und ausfallsicher zu gestalten. Prompt-Caching ist eine kritische Funktion, die einen Mehrwert für jede kostengünstige, effiziente und benutzerfreundliche KI-Anwendung bietet.

Voraussetzungen

Sie benötigen ein IBM Cloud-Konto, um für das Erstellen eines watsonx.ai- Projekts.
Sie benötigen außerdem Python Version 3.12.7

Schritte

Schritt 1: Einrichten Ihrer Umgebung

Sie können zwar aus mehreren Tools wählen, aber dieses Tutorial führt Sie durch die Einrichtung eines IBM Kontos für die Verwendung eines Jupyter Notebook.

Melden Sie sich bei watsonx.ai mit Ihrem IBM Cloud-Konto an.
Erstellen Sie ein watsonx.ai-Projekt. Sie können Ihre Projekt-ID in Ihrem Projekt abrufen. Klicken Sie auf die Registerkarte „Verwalten“. Kopieren Sie dann die Projekt-ID aus dem Abschnitt „Details“ der Seite „Allgemein“. Sie benötigen diese ID für dieses Tutorial.
Erstellen Sie ein Jupyter Notebook. Dieser Schritt öffnet eine Jupyter Notebook-Umgebung, in die Sie den Code aus diesem Tutorial kopieren können. Alternativ können Sie dieses Notebook auf Ihr lokales System herunterladen und als Asset in Ihr watsonx.ai-Projekt hochladen. Weitere Granite-Tutorials finden Sie in der IBM Granite-Community.

Schritt 2: Einrichten einer watsonx.ai Laufzeit-Instanz und eines API-Schlüssels

Erstellen Sie eine Instanz des watsonx.ai Runtime Service (wählen Sie den Lite-Plan als kostenlose Instanz).
Generieren Sie einen API-Schlüssel.
Verknüpfen Sie den watsonx.ai Runtime Service mit dem Projekt, das Sie in watsonx.ai erstellt haben.

Schritt 3: Installation der Pakete

Wir benötigen Bibliotheken, um mit dem Langchain-Framework und WatsonxLLM zu arbeiten. Lassen Sie uns zuerst die erforderlichen Pakete installieren. Dieses Tutorial wurde mit Python 3.12.7 erstellt

Hinweis: Wenn Sie eine ältere Version von pip verwenden, können Sie den Befehl pip install --upgrade pip verwenden, um die neuesten Pakete, die möglicherweise nicht mit älteren Versionen kompatibel sind, ganz einfach zu installieren. Wenn Sie jedoch bereits die neueste Version verwenden oder kürzlich ein Upgrade Ihrer Pakete durchgeführt haben, können Sie diesen Befehl überspringen.

!pip install -q langchain langchain-ibm langchain_experimental langchain-text-splitters langchain_chroma transformers bs4 langchain_huggingface sentence-transformers

Schritt 4: Importieren der erforderlichen Bibliotheken

Das os-Modul wird verwendet, um auf Umgebungsvariablen zuzugreifen, z. B. auf Projektanmeldeinformationen oder API-Schlüssel.

WatsonxLLM ist ein Modul von langchain_ibm, das IBM Watson LLM für die Generierung von Ausgaben von generativen KI-Modellen integriert.

ChatWatsonx Ermöglicht chatbasierte Interaktionen durch Verwendung von IBM watsonx über LangChain.

SimpleDirectoryReader dient zum Laden und Lesen von Dokumenten aus einem Verzeichnis zur Indizierung mit LlamaIndex.

GenParams enthält Metadatenschlüssel zum Konfigurieren der Parameter der Watsonx-Textgenerierung.

SQLiteCache ermöglicht die Einrichtung einer local.cache.db SQLite-Datenbank, um redundante API-Aufrufe zu vermeiden und die Entwicklung und das Testen zu beschleunigen.

Für dieses Tutorial benötigen wir mehrere Bibliotheken und Module. Stellen Sie sicher, dass Sie die folgenden importieren. Falls sie nicht installiert sind, kann eine schnelle Pip-Installation das Problem beheben.

import os
import getpass
import requests
import random
import json
from typing import Dict, List
from langchain_ibm import WatsonxLLM
from ibm_watsonx_ai.metanames import GenTextParamsMetaNames as GenParams
from langchain_ibm import WatsonxLLM
from langchain_ibm import ChatWatsonx
from llama_index.core import SimpleDirectoryReader

Schritt 5: Lesen der Textdaten

from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader(
input_files=["~/Artificial Intelligence/Generative_AI/files/FIle2.txt"],
).load_data()

document_text = documents[0].text
print(document_text[:200] + "...")

Schritt 6: Einrichten von Zugangsdaten

Dieser Code richtet die Zugangsdaten für den Zugriff auf die IBM Watson Machine Learning (WML) API ein und stellt sicher, dass die Projekt-ID korrekt konfiguriert ist.

Anmeldeinformationen für das Wörterbuch werden mit der WML-Dienst-URL und dem API-Schlüssel erstellt. Der API-Schlüssel wird sicher mithilfe von „getpass.getpass“ erfasst, um die Offenlegung sensibler Informationen zu vermeiden.
der Code versucht, die PROJECT_ID mithilfe von os.environ aus Umgebungsvariablen abzurufen. Wenn die PROJECT_ID nicht gefunden wird, wird der Benutzer dazu aufgefordert, manuelle Eingaben durchzuführen.

credentials = {
"url": "https://us-south.ml.cloud.ibm.com", # Replace with the correct region if needed
"apikey": getpass.getpass("Please enter your WML API key (hit enter): ")
}

# Set up project_id
try:
project_id = os.environ["PROJECT_ID"]
except KeyError:
project_id = input("Please enter your project_id (hit enter): ")

Schritt 7: Initialisieren eines Large Language Models

Dieser Code initialisiert das IBM Watson LLM zur Verwendung in der Anwendung:

Dieser Code erstellt eine Instanz von WatsonxLLM unter Verwendung des Modells ibm/granite-3-8b-instruct (Granite-3.1-8B-Instruct) für anweisungsbasierte generative KI-Aufgaben.
Die Werte für url, apikey und project_id aus den zuvor eingerichteten Zugangsdaten werden zur Authentifizierung und Verbindung zum IBM Watson LLM-Service weitergegeben.
Konfiguriert den Parameter max_new_tokens, um die Anzahl der Token zu begrenzen, die vom Modell in jeder Antwort generiert werden (in diesem Fall 2000 Token).

Weitere Informationen zu Modellparametern wie den minimalen und maximalen Token-Grenzwerten finden Sie in der Dokumentation.

llm = WatsonxLLM(
model_id= "ibm/granite-3-8b-instruct",
url=URL,
apikey=WATSONX_APIKEY,
project_id=WATSONX_PROJECT_ID,
params={
GenParams.DECODING_METHOD: "greedy",
GenParams.TEMPERATURE: 0,
GenParams.MIN_NEW_TOKENS: 5,
GenParams.MAX_NEW_TOKENS: 2000,
GenParams.REPETITION_PENALTY:1.2,
GenParams.STOP_SEQUENCES: ["\n\n"]
}
)

Schritt 8: Einrichten eines SQLite-Caches für schnellere LLM-Antworten

SQLiteCache ist ein persistentes Caching-Tool von LangChain, das Antworten von LLM-Aufrufen in einer SQLite-Datenbankdatei speichert. SQLiteCache verkürzt auf intelligente Weise die CPU-Zeit, indem es kostspielige Berechnungen speichert. Das bedeutet, dass es sich auf das Abrufen von Daten konzentriert, anstatt sie neu zu berechnen. Anstatt den gesamten Prozess noch einmal zu durchlaufen, werden einfach die Ergebnisse von der Festplatte abgerufen – das System ist daher effizient, zuverlässig und wiederverwendbar.

Workflow für die Zwischenspeicherung von Prompts

Die Abbildung veranschaulicht mit Prompt-Caching, wie Ergebnisse sofort von der Festplatte geladen werden. Ohne sie verschwendet jede Abfrage Zeit mit redundanten Berechnungen.

from langchain.cache import SQLiteCache
from langchain.globals import set_llm_cache
set_llm_cache(SQLiteCache(database_path=".langchain.db"))

%%time
prompt = "System: You are a helpful assistant.\nUser: Why did Paul Graham start YC?\nAssistant:"
resp = llm.invoke(prompt)
print(resp)

In diesem Fall arbeitete die CPU nur 22 ms, die tatsächlich verstrichene Zeit betrug jedoch 1,43 Sekunden.

Dieses Beispiel deutet darauf hin, dass die meiste Zeit mit Warten verbracht wurde, wahrscheinlich auf E/A-Vorgängen (z. B. Lesen und Schreiben der Festplatte, Netzwerkzugriff oder API-Aufrufe).

Führen wir das Modell nun ein zweites Mal mit dem Prompt aus und sehen uns die Antwortzeit an.

%%time
llm.predict(resp)

Mit SQLiteCache wird die CPU eindeutig nur 7,26 ms ausgelastet, die Wall Time jedoch betrug 6,15 Sekunden.

Dies weist eindeutig auf die Blockierung externer Abhängigkeiten hin (z. B. das Warten auf eine Antwort von einem Server).

Zusammenfassung

Prompt-Caching beschleunigt und reduziert die Kosten von API-Anfragen an große Sprachmodelle wie GPT-4o. Prompts speichern Inhalte im Cache, wie z. B. Eingabe-Token, Ausgabe-Token, Einbetten und Nachrichten von Benutzern, ein Prompt oder die Ausgabe einer Funktion, die nun einen zwischengespeicherten Inhalt im Gegensatz zu Netzwerkanfragen für eine neue Revision verwendet. Diese Methode sorgt für niedrigere Preise, eine optimierte Antwortlatenz und verbesserte Leistungsindikatoren (KPIs).

Prompt-Caching kann für Chatbots, RAG-Systeme, Feinabstimmung und Code Assistants von Vorteil sein. Eine robuste Caching-Strategie, die Funktionen wie Cache-Lesen, Cache-Schreiben, Systemnachricht, Cache-Kontrolle und richtige Time-to-Live (TTL) umfasst, verbessert die Cache-Trefferraten und senkt die Cache-Miss-Raten.

Die konstante Verwendung derselben Prompt-Token, Prompt-Präfixe und Systemanweisungen trägt zu einer konstanten Prompt-Leistung bei Multiturn-Konversationen und nachfolgenden Anfragen bei. Unabhängig davon, ob Sie Python, ein SDK oder die Zusammenarbeit mit OpenAI oder einem anderen Anbieter verwenden, können Sie mit einem Verständnis der Funktionsweise von Prompt-Caching dieses für viele Anwendungsfälle besser implementieren.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von Foundation Models den richtigen Ansatz wählen.

Ressourcen

ROI erzielen: KI-Agenten in Ihrem Unternehmen

Nehmen Sie an einem Webinar von IBM teil, in dem wir Ihnen anhand von Beispielen aus verschiedenen Branchen, Anwendungsfällen und sogar IBMs eigenen Erfolgsgeschichten zeigen, wie Sie durch agentische KI einen echten ROI erzielen können.

IBM wird als führend im Bereich Data Science und maschinelles Lernen ausgezeichnet

Erfahren Sie, warum IBM im Gartner Magic Quadrant™ for Data Science and Machine Learning Platforms 2025 als führend eingestuft wurde.

Von KI-Projekten zu Gewinnen: Wie agentische KI finanzielle Erträge sichern kann

Erfahren Sie, wie Unternehmen von der KI-Einführung in verteilten Pilotprojekten zu ihrer Nutzung übergehen, um die Transformation im Kern voranzutreiben.

Zu mehr KI-Know-how

Greifen Sie auf unseren vollständigen Katalog mit über 100 Online-Kursen zu, indem Sie noch heute ein Abonnement für Einzel- oder Mehrbenutzer erwerben, mit dem Sie Ihre Fähigkeiten in einer Reihe unserer Produkte zu einem günstigen Preis erweitern können.

IBM Granite erkunden

IBM Granite ist eine Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

IBM AI Academy

Das Programm, das von führenden IBM Experten geleitet wird, soll Führungskräften dabei helfen, das nötige Wissen zu erwerben, um die Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.

KI in Aktion 2024

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

CEO-Leitfaden 2025: 5 Denkanstöße zur Steigerung des Unternehmenswachstums

Nutzen Sie diese fünf Denkanstöße, um mit agentischer KI Unsicherheit zu durchbrechen, die geschäftliche Neuerfindung voranzutreiben und das Wachstum zu beflügeln.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

Beratung und Services zu künstlicher Intelligenz (KI)

Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

KI-Services entdecken

Machen Sie den nächsten Schritt

Mithilfe von KI liefert IBM Concert wichtige Erkenntnisse über Ihre Abläufe und gibt anwendungsspezifische Empfehlungen zur Verbesserung. Entdecken Sie, wie Concert Ihr Unternehmen voranbringen kann.

Entdecken Sie Concert

Erkunden Sie Lösungen zur Geschäftsprozessautomatisierung