Cos'è la messa a punto dei prompt?

Autore/i:

Vrunda Gadesha

AI Advocate | Technical Content Author

La messa a punto dei prompt è una tecnica di messa a punto efficiente dei parametri (PEFT) che adatta modelli preaddestrati di grandi dimensioni a nuove attività senza aggiornare i miliardi di parametri che contengono, ma imparando un piccolo set di vettori addestrabili, chiamati soft prompt o token virtuali, che vengono inseriti nello spazio di input del modello. Questi vettori agiscono come segnali continui, controllando il modello congelato per indirizzarlo verso il comportamento atteso e mantenendo intatto il backbone. Questa prospettiva riduce notevolmente i costi di elaborazione e storage, rendendola ideale per le organizzazioni che devono personalizzare modelli di grandi dimensioni in diversi casi d'uso. 1, 2

In che modo il "prompting" è diverso dalla "messa a punto"?

Il prompt Engineering si basa sulla creazione di istruzioni testuali intelligenti (prompt rigidi) per ottenere il comportamento giusto da un modello. Sebbene efficaci in alcuni casi, i prompt rigidi sono fragili e difficili da ottimizzare su larga scala. Ciò significa che, nel prompt engineering, anche lievi modifiche nella formulazione possono portare a variazioni significative e imprevedibili delle prestazioni, motivo per cui è difficile ottimizzarle in modo sistematico. Tuttavia, la messa a punto completa aggiorna tutti i parametri del modello, il che è costoso dal punto di vista computazionale e richiede molto spazio di storage, soprattutto per i modelli con centinaia di miliardi di pesi. La messa a punto dei prompt è il punto di equilibrio perfetto: utilizza embedding continui anziché testo discreto, addestra solo questi piccoli vettori e raggiunge prestazioni vicine alla messa a punto completa su molte attività, il tutto con molta più efficienza. 2, 3

Pensa oltre i prompt e considera il contesto completo 

Resta aggiornato sulle ultime novità del settore, sugli strumenti di AI e sulle tendenze emergenti nel prompt engineering con la Think Newsletter. Inoltre, avrai accesso a nuovi articoli esplicativi, tutorial e insight, direttamente nella tua casella di posta. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

Componenti principali

L'approccio di messa a punto dei prompt si basa su componenti che lavorano insieme per adattare modelli preaddestrati di grandi dimensioni. Il metodo utilizza un modello congelato, impara una serie di embedding di soft prompt tramite l'ottimizzazione basata sul gradiente ed è guidato da un set di dati specifico per l'attività. Questi elementi abilitano un adattamento efficiente in termini di parametri senza dovere riqualificare l'intero modello. 1, 2

Modello congelato preaddestrato: un modello linguistico di grandi dimensioni (LLM) o trasformatore di visione funge da backbone e rimane bloccato durante la formazione, mantenendo le sue conoscenze generali e riducendo i costi di elaborazione e storage.4

Embedding di soft prompt: questi prompt sono vettori addestrabili, noti anche come token virtuali allegati o inseriti nell'input tokenizzato. Agiscono come segnali continui che controllano il modello verso l'attività di output senza alterarne i pesi interni.4

Set di dati specifico per l'attività: un set di dati etichettato e allineato con l'attività a valle è essenziale per l'ottimizzazione supervisionata dei soft prompt.

Ottimizzazione basata sul gradiente: solo i parametri di soft prompt e lightweight head (facoltativo) vengono aggiornati utilizzando gli ottimizzatori, mentre il backbone rimane fisso. Questo metodo garantisce efficienza e stabilità durante l'attività.4

Componenti chiave del diagramma di flusso del prompt di ottimizzazione Figura 1 - Componenti principali della messa a punto dei prompt

Come mostrato nella figura, la messa a punto dei prompt funziona introducendo un piccolo set di vettori addestrabili nell'input di un modello preaddestrato congelato. Questi prompt funzionano come "istruzioni nascoste" che guidano il modello verso l'attività target senza aggiornare miliardi di parametri.

Oltre a questi componenti principali, diverse scelte di progettazione influiscono in modo significativo sulle prestazioni:

Durata del prompt: il numero di token virtuali nel soft prompt è un iperparametro critico. Vari ricercatori hanno eseguito esperimenti e hanno dedotto che la lunghezza ottimale varia in base all'attività. Ad esempio, le attività di classificazione semplici potrebbero funzionare meglio con prompt più brevi (ad esempio, meno di 20 token), mentre le attività complesse di etichettatura in sequenza potrebbero richiederne di più lunghe (ad esempio, circa 100 token).5

Posizionamento dei prompt: questo elemento ottimizza la posizione dei prompt, indipendentemente dal fatto che appaiano come prefissi, suffissi o che siano interlacciati nella sequenza di input.

Strategia di inizializzazione: l'avvio di prompt con valori casuali, embedding campionati o token specifici per attività può influire sulla velocità e sulla precisione della convergenza.4

Questi elementi aggiuntivi non sono obbligatori ma sono consigliati per ottenere risultati ottimali.

AI Academy

Diventa un esperto di AI

Acquisisci le conoscenze necessarie per dare priorità agli investimenti nell'AI alla base della crescita aziendale. Inizia oggi stesso con la nostra AI Academy gratuita e guida il futuro dell'AI nella tua organizzazione.

Esempio: analisi del sentiment con messa a punto dei prompt

Cerchiamo di capire l'attività di analisi del sentiment che fornisce una spiegazione chiara dei meccanismi e dei beneficio della messa a punto dei prompt. Supponiamo che l'obiettivo sia quello di adattare un modello di 175 miliardi di parametri per classificare le recensioni dei film come "positive" o "negative". Un approccio di messa a punto completa sarebbe esageratamente costoso e lento. Con la messa a punto dei prompt, la procedura è la seguente:

Inizia con un modello preaddestrato congelato: il backbone dei parametri 175B rimane completamente intatto, preservando il suo vasto archivio di conoscenze generali apprese durante il pre-addestramento.5

Aggiungi i soft :prompt un piccolo set di vettori addestrabili (ad esempio, 20 token virtuali) viene allegato agli embedding di input di ogni recensione di film. Questi vettori non sono testo leggibile dall'uomo. Si tratta di embedding continui che esistono nello stesso spazio di dimensioni elevate del vocabolario del modello (ad esempio, uno spazio di 12.288 dimensioni per un modello di questa scala). Attraverso l'ottimizzazione, questi vettori imparano a codificare un segnale continuo, specifico per il compito, che guida il comportamento del modello.

Fornisci l'input: ad esempio,

[Soft prompt] Il film è stato assolutamente fantastico!

In questo esempio, supponiamo di inizializzare 20 token soft prompt per un'attività di analisi del sentiment. Dopo l'addestramento, l'input potrebbe essere il seguente:

[<v1>, <v2>, <v3>, ... <v20>, The, movie, was, absolutely, fantastic, !]

Qui, ogni v1 è un vettore di prompt appreso e ad alta dimensione. L'obiettivo dell'addestramento è trovare i valori ottimali per i vettori che guidano il modello congelato a classificare correttamente il sentiment del testo successivo.

Addestra solo i soft prompt: utilizzando un set di dati etichettati di recensioni di film, viene avviato il processo di formazione. Tramite la retropropagazione viene calcolato il gradiente di errore, ma la fase di ottimizzazione aggiorna solo i parametri degli embedding del prompt. Questo approccio prevede la messa a punto di poche migliaia di parametri invece dei 175 miliardi di pesi del modello.5

Distribuisci in modo modulare: una volta completato l'addestramento, il set di 20 vettori risultante costituisce l'intero adattamento specifico per l'attività. Per adattare lo stesso modello base a un'attività diversa, come il rilevamento dello spam, basterà addestrare un nuovo set di prompt su un set di dati antispam e scambiarli al momento dell'inferenza

Questa tecnica offre molti vantaggi in termini di efficienza. Invece di archiviare una copia completa e separata del modello per ogni attività (un modello da 175 B di parametri può richiedere fino a 350 GB), basterà memorizzare i parametri del prompt specifici dell'attività, che potrebbero avere una dimensione di appena pochi KB.1 Questa modularità rende la messa a punto dei prompt rapida una soluzione pratica ed economica per l'adattamento dei modelli su larga scala.2

Analisi comparativa con altri metodi PEFT

L'ottimizzazione basata su prompt è una delle diverse famiglie all'interno del più ampio insieme di metodi e approcci di messa a punto efficiente dei parametri (PEFT). Comprendere la sovrapposizione del suo metodo con altri metodi è essenziale per permettere ai professionisti di selezionare la tecnica più appropriata. La scelta è tra prestazioni, espressività, efficienza e complessità di implementazione.

MetodiModifica all'architetturaEspressività o potenzaDimensioni addestrabiliProContro

Deep prompt tuning (P-tuning v2)3

Aggiunge vettori addestrabili ("prompt") a ogni livello del modello, influenzando il meccanismo di attenzione.

Elevato. Richiama e combina efficacemente le competenze del modello esistente.

~0,1–3% dei parametri del modello.

Universale su tutte le scale dei modelli; più semplice di LoRa per molte attività NLU/NLG.

Meno espressivo di LoRA per le attività veramente nuove; può essere sensibile agli iperparametri.

LoRA (Low-rank adaptation)6

Inserisce matrici di basso rango addestrabili in parallelo con matrici di peso esistenti (ad esempio, nei livelli di attenzione).

Molto alto. Può apprendere modelli e comportamenti di attenzione completamente nuovi, rendendoli più potenti dei metodi basati sui prompt.

~0,1–1% dei parametri del modello.

Metodo PEFT più espressivo; nessuna latenza di inferenza aggiuntiva poiché i pesi possono essere uniti.

Implementare e adattare l'iperparametro di rango è più complesso.

Adattatori

Inserisce nuovi moduli di reti neurali di piccole dimensioni in serie all'interno di ogni strato del trasformatore.

Elevato. Aggiunge nuova capacità di calcolo al modello.

~1–4% dei parametri del modello

Stabile e consolidato, altamente modulare.

Può introdurre una leggera latenza di inferenza dovuta all'elaborazione seriale e a un numero di parametri più elevato rispetto a LoRa o ai prompt.

Vantaggi e limitazioni

La messa a punto dei prompt offre molti vantaggi nelle applicazioni in tempo reale, ma è importante comprenderne i limiti.

Vantaggi

I principali punti di forza della messa a punto dei prompt sono l'efficienza, la modularità e la conservazione delle conoscenze del modello base.

Eccezionale efficienza dei parametri e dei costi: il vantaggio più significativo è la drastica riduzione dei parametri addestrabili. Aggiornando solo una piccola serie di prompt, che spesso rappresentano meno dell'1% del modello totale, la messa a punto dei prompt riduce drasticamente i costi di calcolo e di storage. Questa strategia rende possibile l'adattamento di foundation model enormi per le organizzazioni con risorse computazionali limitate.

Modularità e implementazione scalabile: poiché ogni attività è incapsulata in un piccolo set indipendente di parametri prompt, un singolo modello backbone congelato può essere adattato per numerose attività semplicemente scambiando questi file prompt leggeri al momento dell'inferenza. Questa architettura "plug-and-play" è altamente modulare ed evita di dover memorizzare e gestire copie separate del modello da più gigabyte per ogni applicazione.

Mitigazione dell'oblio catastrofico: la messa a punto completa rischia di sovrascrivere o degradare le conoscenze pre-addestrate di un modello durante l'apprendimento di una nuova attività. Mantenendo i pesi del modello di backbone completamente congelati, la messa a punto del prompt preserva il vasto archivio di conoscenze generali apprese durante il pre-addestramento, consentendo di riutilizzare il modello senza perderne le funzionalità.

Efficienza dei dati: rispetto alla messa a punto completa, che spesso richiede grandi set di dati etichettati per ogni nuova attività, la messa a punto del prompt permette di ottenere prestazioni elevate con set di dati più piccoli e modesti.

Limitazioni

Nonostante i suoi punti di forza, la messa a punto dei prompt non è priva di inconvenienti, tra cui limitazioni nella potenza espressiva, difficoltà di addestramento e mancanza di interpretabilità.

Potenza espressiva limitata: una limitazione teorica centrale è che la messa a punto di prompt e prefissi è meno espressiva di metodi come LoRa o la messa a punto completa. L'analisi formale ha dimostrato che questi metodi funzionano aggiungendo una distorsione all'output dei blocchi di attenzione, ma non possono alterare i modelli di attenzione appresi dal modello in modo sostanziale. Ciò significa che la messa a punto dei prompt è molto efficace per richiamare e combinare competenze già presenti all'interno del modello modello, ma potrebbe non essere in grado di apprendere compiti davvero nuovi che richiedono nuovi schemi di ragionamento.

Instabilità dell'addestramento e sensibilità agli iperparametri: una delle sfide pratiche più significative è la sensibilità del metodo agli iperparametri. Il processo di addestramento può essere difficile da far convergere e dipende fortemente dalla scelta del tasso di apprendimento e dalla strategia e dalla lunghezza della prompt di inizializzazione, che spesso richiedono una messa a punto attenta e approfondita per ottenere risultati ottimali.

Il problema della "black box" dell'interpretabilità: una limitazione importante e persistente è la mancanza intrinseca di interpretabilità dei prompt. Poiché sono vettori continui e ad alta dimensionalità ottimizzati attraverso la discesa del gradiente, non corrispondono ad alcun testo leggibile dall'uomo. Questa natura di "black box" rende difficile capire cosa ha imparato il prompt, perché sta guidando il modello in un certo modo e come risolvere il problema quando fallisce.

Dipendenza dalle dimensioni del modello: l'efficacia del metodo originale di messa a punto dei prompt a livello di input è correlata alle dimensioni del modello backbone. Sebbene diventi competitivo con la messa a punto completa su modelli con oltre 10 miliardi di parametri, le sue prestazioni sono particolarmente significative sui modelli più piccoli e più comunemente usati.

Casi d’uso

I principi della messa a punto dei prompt si sono dimostrati altamente adattabili, arrivando ad estendersi ben oltre le loro applicazioni iniziali nell'elaborazione del linguaggio naturale. La tecnica è ora un fattore chiave per personalizzare in modo efficiente i modelli in domini multimodali, l'elaborazione vocale e per paradigmi di apprendimento avanzati.

Messa a punto dei prompt multimodale (modelli di linguaggio-visione): la messa a punto dei prompt è una tecnica fondamentale per adattare modelli di linguaggio-visione (VLM) pre-addestrati, come per esempio CLIP, sulle attività visive a valle. In questo contesto, i prompt possono essere progettati per una o entrambe le modalità.7

Applicazioni nell'elaborazione vocale: il paradigma della messa a punto dei prompt è stato esteso con successo al dominio dell'elaborazione vocale. In questa applicazione, un enunciato vocale grezzo viene codificato in unità acustiche discrete, e a questa sequenza viene allegata una serie di soft prompt apprendibili e specifici per l'attività. Questo framework è unificato e consente di adattare un singolo modello vocale pre-addestrato a una vasta gamma di attività, fra cui l'individuazione delle parole chiave, la classificazione delle intenzioni vocali e persino il riconoscimento vocale automatico (ASR), il tutto mentre viene generato solo un piccolo prompt specifico per l'attività.

Apprendimento multitasking e multilingue: per migliorare ulteriormente l'efficienza e la generalizzazione, i ricercatori hanno spostato la formazione di prompt isolati e con un'unica attività. I metodi più avanzati ora si concentrano sull'apprendimento di prompt che possono essere trasferiti su più attività o lingue.

  • Multitask Prompt Tuning (MPT): questo approccio distilla le conoscenze provenienti da più attività di origine in un unico prompt condiviso e trasferibile che può essere adattato in modo efficiente alle nuove attività target, richiedendo solo lo 0,035% dei parametri del modello per attività e mostrando prestazioni elevate in scenari di apprendimento few-shot.
  • Ottimizzazione multilingue: studi su modelli multilingue hanno scoperto che l'ottimizzazione multitasking su una raccolta di set di dati e prompt solo in inglese può migliorare notevolmente le prestazioni zero-shot di un modello su attività in lingue diverse dall'inglese. Questo metodo dimostra che il modello acquisisce capacità di risoluzione dei compiti che sono, in una certa misura, indipendenti dalla lingua.

Conclusione

Nello spazio di ricerca AI, la messa a punto dei prompt con apprendimento automatico e AI generativa è emersa come un metodo critico per un'ottimizzazione efficiente dei modelli AI. A differenza dell'addestramento completo dei modelli, che altera tutti i pesi e rischia di adattarsi eccessivamente con dati di addestramento limitati, questa tecnica si concentra sull'ottimizzazione dei prompt di input allegati al testo di input. Attraverso un processo di automazione e iterazione, l'obiettivo è scoprire un prompt ottimale che crei prompt efficaci per attività specifiche, un processo il cui successo dipende spesso dalle dimensioni del modello. Questo approccio offre un'alternativa scalabile alla riqualificazione estensiva e integra altre strategie come la RAG, consolidando il suo ruolo di pietra miliare per la personalizzazione dei foundation model.

Soluzioni correlate
IBM® watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Esplora watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda con l'esperienza leader di settore e il portfolio di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi per l'intelligenza artificiale (AI)

I servizi di AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.

Esplora i servizi AI
Prossimi passi

Attraverso l'AI, IBM Concert scopre insight di importanza chiave sulle operazioni e fornisce raccomandazioni specifiche per migliorare le applicazioni. Scopri come Concert può migliorare il tuo business.

Esplora Concert Esplora le soluzioni di automazione dei processi aziendali
Note a piè di pagina

[1] Li, Z., Su, Y., & Collier, N. (2025). A Survey on Prompt Tuning. arXiv preprint arXiv:2507.06085.

[2] Lester, B., Al-Rfou, R., & Constant, N. (novembre 2021). The Power of Scale for Parameter-Efficient Prompt Tuning. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pagg. 3045-3059).

[3]Liu, X., Ji, K., Fu, Y., Tam, W., Du, Z., Yang, Z., & Tang, J. (maggio 2022). P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) (pagg. 61-68).

[4] Lei, S., Hua, Y., & Zhihao, S. (2025). Revisiting Fine-Tuning: A Survey of Parameter-Efficient Techniques for Large AI Models.

[5] Bian, J., Peng, Y., Wang, L., Huang, Y., & Xu, J. (2025). A survey on parameter-efficient fine-tuning for foundation models in federated learning. arXiv preprint arXiv:2504.21099.

[6] Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., ... & Chen, W. (2022). Lora: Low-rank adaptation of large language models. ICLR, 1(2), 3.

[7] Tian, Q., & Zhang, M. (2025). Enhancing visual-language prompt tuning through sparse knowledge-guided context optimization. Entropy, 27(3), 301.