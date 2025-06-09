Il caching dei prompt accelera e riduce il costo delle richieste API ai modelli linguistici di grandi dimensioni, come GPT-4o. Richiede il contenuto della cache come token di input, token di output, embedding e messaggi dell'utente, un prompt di sistema o l'output di una funzione, che ora utilizza un contenuto memorizzato nella cache anziché le richieste di rete per una nuova revisione. Questo metodo offre prezzi più bassi, una maggiore latenza di risposta e migliori indicatori chiave delle prestazioni (KPI).

La memorizzazione nella cache rapida può essere utile per chatbot, sistemi RAG, assistenti di fine-tuning e assistenti di codifica. Una solida strategia di caching che includa funzioni come lettura e scrittura della cache, messaggio di sistema, controllo della cache e time to live (TTL) effettivo migliorerà i tassi di accesso alla cache e ridurrà i tassi di perdita.

L'uso coerente degli stessi token di prompt, del prefisso di prompt e le istruzioni di utilizzo del sistema aiuta a garantire prestazioni di prompt costanti nelle conversazioni a più turni e nelle richieste successive. Indipendentemente dall'utilizzo di Python, di un SDK o dalla collaborazione con OpenAI o un altro provider, capire come funziona la memorizzazione dei prompt nella cache ti consentirà di implementarla al meglio per utilizzarla in molti casi d'uso.