효율적인 LLM 애플리케이션 구축을 위해 LangChain을 사용하는 프롬프트 캐싱 구현

작성자

Lead AI Advocate

프롬프트 캐싱이란 무엇인가요?

프롬프트 캐싱은 IBM® Granite 모델 같은 언어 모델을 사용할 때 실행된 프롬프트에서 생성된 응답을 저장한 다음 재사용하는 방법입니다. 동일한 인풋(프롬프트)이 다시 들어오면 애플리케이션이 새 API 호출을 수행하지 않고, 프롬프트 캐시에 저장되어 있던 응답을 검색합니다.

프롬프트 캐싱은 애플리케이션의 일종의 '메모리'라고 생각하면 됩니다. 시스템은 동일한 입력에 대한 요청을 반복할 필요가 없으므로, 이전 쿼리의 결과를 유지해서 컴퓨팅 시간을 절약합니다.

왜 중요한가요?

프롬프트 캐싱은 동일한 반복적인 프롬프트에 기존 응답을 재사용하여, 반복적인 애플리케이션 프로그래밍 인터페이스(API) 호출을 방지하는 중요한 역할을 합니다. 이 기능을 사용하면 응답 시간이 빨라지고 아웃풋의 일관성이 높아지며 API 사용량이 줄어들어 속도 제한을 지키는 데 도움이 됩니다. 또한 플로를 확장하고 가동 중단 시 복원력을 갖추는 데 도움이 됩니다. 프롬프트 캐싱은 비용 효과가 높고 효율적이며 사용자 친화적인 AI 애플리케이션에 가치를 더하는 중요한 기능입니다.

전제조건

watsonx.ai 프로젝트를 생성하려면 IBM Cloud 계정이 필요합니다.
Python 3.12.7 버전도 필요합니다.

단계

1단계: 환경 설정

여러 툴 중에서 선택할 수 있지만, 이 튜토리얼에서는 Jupyter Notebook을 사용하기 위해 IBM 계정을 설정하는 방법을 안내합니다.

IBM Cloud 계정을 사용하여 watsonx.ai에 로그인합니다.
watsonx.ai 프로젝트를 생성합니다. 프로젝트 내에서 프로젝트 ID를 가져올 수 있습니다. 관리 탭을 클릭합니다. 그런 다음 일반 페이지의 세부 정보 섹션에서 프로젝트 ID를 복사합니다. 이 튜토리얼에는 이 ID가 필요합니다.
Jupyter Notebook을 만듭니다. 이 단계에서는 이 튜토리얼의 코드를 복사할 수 있는 Notebook 환경이 열립니다. 또는 이 노트북을 로컬 시스템에 다운로드하여 watsonx.ai 프로젝트에 에셋으로 업로드할 수 있습니다. 더 많은 Granite 튜토리얼을 보려면 IBM Granite 커뮤니티 를 확인하세요.

2단계: watsonx.ai 런타임 인스턴스 및 API 키 설정

watsonx.ai 런타임 서비스 인스턴스를 만듭니다(무료 인스턴스인 Lite 요금제 선택).
API 키를 생성합니다.
watsonx.ai 런타임 서비스를 watsonx.ai에서 생성한 프로젝트에 연결합니다.

3단계: 패키지 설치

langchain 프레임워크 및 WatsonxLLM이 함께 작동하려면 라이브러리가 필요합니다. 먼저 필요한 패키지를 설치해 보겠습니다. 이 튜토리얼은 Python 3.12.7을 사용하여 작성했습니다.

참고: 이전 버전의 pip를 사용하는 경우 pip install --upgrade pip 명령을 사용하여 이전 버전과 호환되지 않을 수 있는 최신 패키지를 쉽게 설치할 수 있습니다. 그러나 이미 최신 버전을 사용하고 있거나 최근에 패키지를 업그레이드한 경우 이 명령을 건너뛸 수 있습니다.

!pip install -q langchain langchain-ibm langchain_experimental langchain-text-splitters langchain_chroma transformers bs4 langchain_huggingface sentence-transformers

4단계: 필요한 라이브러리 가져오기

os 모듈은 프로젝트 자격 증명이나 API 키와 같은 환경 변수에 액세스하는 데 사용됩니다.

WatsonxLLM은 IBM Watson LLM을 통합하여 생성 AI 모델에서 출력을 생성하는 langchain_ibm의 모듈입니다.

ChatWatsonx는 LangChain을 통해 IBM Watsonx를 사용하여 채팅 기반 상호작용을 가능하게 합니다.

SimpleDirectoryReader는 LlamaIndex를 사용하여 인덱싱하기 위해 디렉터리에서 문서를 로드하고 읽는 용도입니다.

GenParams에는 Watsonx 텍스트 생성 매개변수를 구성하기 위한 메타데이터 키가 포함되어 있습니다.

SQLiteCache를 사용하면 로컬 .cache.db SQLite 데이터베이스를 설정하여 중복된 API 호출을 피하고 개발 및 테스트 속도를 높일 수 있습니다.

이 튜토리얼에는 몇 가지 라이브러리와 모듈이 필요합니다. 다음 항목을 가져와야 합니다. 설치되지 않은 경우, 빠른 PIP 설치로 이 문제를 해결할 수 있습니다.

import os
import getpass
import requests
import random
import json
from typing import Dict, List
from langchain_ibm import WatsonxLLM
from ibm_watsonx_ai.metanames import GenTextParamsMetaNames as GenParams
from langchain_ibm import WatsonxLLM
from langchain_ibm import ChatWatsonx
from llama_index.core import SimpleDirectoryReader

5단계: 텍스트 데이터 읽기

from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader(
input_files=["~/Artificial Intelligence/Generative_AI/files/FIle2.txt"],
).load_data()

document_text = documents[0].text
print(document_text[:200] + "...")

6단계: 자격 증명 설정

이 코드는 IBM® Watson Machine Learning(WML) API에 액세스하기 위한 자격 증명을 설정하고 프로젝트 ID가 올바르게 구성되었는지 확인합니다.

사전 자격 증명은 WML 서비스 URL 및 API 키를 사용하여 생성합니다. API 키는 민감한 정보 노출을 방지하기 위해 `getpass.getpass`를 사용하여 안전하게 수집합니다.
코드는 os.environ을 사용하여 환경 변수에서 PROJECT_ID 가져오려고 시도합니다. PROJECT_ID를 찾을 수 없는 경우 사용자에게 인풋을 통해 수동으로 입력하라는 메시지가 표시됩니다.

credentials = {
"url": "https://us-south.ml.cloud.ibm.com", # Replace with the correct region if needed
"apikey": getpass.getpass("Please enter your WML API key (hit enter): ")
}

# Set up project_id
try:
project_id = os.environ["PROJECT_ID"]
except KeyError:
project_id = input("Please enter your project_id (hit enter): ")

7단계: 대규모 언어 모델 초기화

이 코드는 IBM WatsonxLLM을 애플리케이션에서 사용할 수 있도록 초기화합니다.

이 코드는 ibm/granite-3-8b-명령 모델(Granite-3.1-8B-Instruct)을 사용하여 WatsonXLLM 인스턴스를 만듭니다.
이전에 설정한 자격 증명의 url, apikey 및 project_id 값이 전달되어 IBM Watson LLM 서비스를 인증하고 연결합니다.
각 응답에서 모델이 생성하는 토큰 수(이 경우 토큰 2,000개)를 제한하도록 max_new_tokens 매개 변수를 구성합니다.

최소 및 최대 토큰 제한과 같은 모델 매개변수에 대해 자세히 알아보려면 문서를 참조하세요.

llm = WatsonxLLM(
model_id= "ibm/granite-3-8b-instruct",
url=URL,
apikey=WATSONX_APIKEY,
project_id=WATSONX_PROJECT_ID,
params={
GenParams.DECODING_METHOD: "greedy",
GenParams.TEMPERATURE: 0,
GenParams.MIN_NEW_TOKENS: 5,
GenParams.MAX_NEW_TOKENS: 2000,
GenParams.REPETITION_PENALTY:1.2,
GenParams.STOP_SEQUENCES: ["\n\n"]
}
)

8단계: 더 빠른 LLM 응답을 위한 SQLite 캐시 설정

SQLiteCache는 LangChain이 제공하는 영구 캐싱 도구로, LLM 호출의 응답을 SQLite 데이터베이스 파일에 저장합니다. SQLiteCache는 비용이 많이 드는 계산을 저장하여 CPU 시간을 스마트하게 줄여 데이터를 다시 계산하는 대신 검색하는 데 중점을 둡니다. 프로세스 전체를 되풀이하지 않고 디스크에서 결과를 가져오기만 해서 효율적이고 안정적이며 재사용할 수 있습니다.

그림은 프롬프트 캐싱을 사용할 때 결과가 디스크에서 즉시 로드되는 것을 보여줍니다. 프롬프트 캐싱이 없으면 모든 쿼리가 중복 계산에 시간을 허비합니다.

from langchain.cache import SQLiteCache
from langchain.globals import set_llm_cache
set_llm_cache(SQLiteCache(database_path=".langchain.db"))

%%time
prompt = "System: You are a helpful assistant.\nUser: Why did Paul Graham start YC?\nAssistant:"
resp = llm.invoke(prompt)
print(resp)

이 경우 CPU는 22ms 동안만 작동했지만 실제 경과 시간은 1.43초였습니다.

이 예시는 대부분의 시간이 I/O 작업(예: 디스크 읽기 및 쓰기, 네트워크 액세스 또는 API 호출)을 기다리는 데 소비되었음을 시사합니다.

이제 프롬프트와 함께 모델을 두 번째로 실행하고 응답 시간을 확인해 보겠습니다.

%%time
llm.predict(resp)

SQLiteCache를 사용하니 CPU가 7.26ms 동안 사용되었지만 실제 경과 시간은 6.15초였습니다.

이는 외부 종속성(서버의 응답 대기 등)을 차단한 덕분임을 확실하게 알 수 있습니다.

결론

프롬프트 캐싱은 GPT-4o와 같은 대규모 언어 모델에 대한 API 요청 비용을 절감하고 가속화합니다. 프롬프트는 입력 토큰, 아웃풋 토큰, 임베딩 및 사용자의 메시지, 시스템 프롬프트 또는 함수의 아웃풋과 같은 콘텐츠를 캐시하며, 이제 네트워크가 새 수정본을 요청하는 것이 아니라 캐시된 콘텐츠를 사용합니다. 이 방법을 택하면 가격이 저렴해지고, 응답 시간이 짧아지고, KPI가 개선됩니다.

프롬프트 캐싱은 챗봇, RAG 시스템, 미세 조정 및 코드 어시스턴트에 유용할 수 있습니다. 캐시 읽기, 캐시 쓰기, 시스템 메시지, 캐시 제어 및 적절한 TTL(Time to Live)과 같은 기능을 아우르는 강력한 캐싱 전략을 취하면 캐시 적중률을 높이고 캐시 누락률을 낮출 수 있습니다.

동일한 프롬프트 토큰, 프롬프트 접두사 및 사용 시스템 지침을 일관되게 사용하면 멀티턴 대화와 후속 요청에서 일관된 프롬프트 성능을 발휘하는 데 도움이 됩니다. Python, SDK를 사용하든 OpenAI 또는 다른 서비스와 협력하든, 프롬프트 캐싱의 작동 방식을 이해하면 프롬프트 캐싱을 많은 사용 사례에 맞춰 더 잘 구현할 수 있습니다.

IBM이 데이터 과학 및 머신러닝 분야의 리더로 선정

IBM은 2025년 Gartner® Magic Quadrant™ 에서 데이터 과학 및 머신러닝 플랫폼 부문에서 리더로 인정받았습니다.

리소스

ROI 달성: 비즈니스에 AI 에이전트 도입

IBM과 함께하는 웨비나에 참여하여 산업 전반의 사례, 사용 사례, IBM의 자체 성공 사례를 살펴보며 에이전틱 AI 이니셔티브를 통해 ROI를 실현하는 방법을 알아보세요.

IBM, 데이터 과학 및 머신 러닝 부문 리더로 선정

IBM이 2025년 Gartner Magic Quadrant™ 데이터 과학 및 머신 러닝 플랫폼 부문에서 리더로 선정된 이유를 알아보세요.

AI 프로젝트에서 수익으로: 에이전틱 AI로 지속 가능한 재무 성과를 달성하는 방법

조직이 서로 다른 파일럿을 통해 AI를 도입하는 것에서 AI를 사용하여 조직의 중심에서 혁신을 추진하는 것으로 전환하는 방법을 알아보세요.

AI 전문성 업그레이드

지금 개인 또는 여러 사용자 구독을 구매하여 100개가 넘는 온라인 과정에 액세스하세요. 저렴한 가격으로 다양한 제품에 걸쳐 기술을 확장할 수 있습니다.

IBM Granite 살펴보기

IBM® Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.

IBM AI Academy

IBM 사고 리더들이 이끄는 이 커리큘럼은 비즈니스 리더들에게 성장을 촉진하는 AI 투자의 우선순위를 정하는 데 필요한 지식을 제공합니다.

2024년 AI 사용 사례

IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시해 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.

2025년 CEO 가이드: 비즈니스 성장을 촉진하기 위한 다섯 가지 사고 전환

다음 다섯 가지 사고 전환을 실행하여 불확실성을 극복하고 비즈니스 혁신을 촉진하며 에이전틱 AI를 통해 성장을 가속화하세요.

생성형 AI와 ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

신뢰와 확신을 바탕으로 새로운 AI 시대에 성공하는 방법

강력한 AI 전략의 3가지 핵심 요소인 경쟁 우위 확보, 비즈니스 전반의 AI 확장, 신뢰할 수 있는 AI 발전에 대해 자세히 알아보세요.