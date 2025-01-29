Che cos'è il prompt di stimolo direzionale (DSP)?

Che cos'è il prompting di stimolo direzionale (DSP)?

Il Directional Stimulus Prompting (DSP) è una nuova metodologia di suggerimento nell'elaborazione del linguaggio naturale (NLP) in cui a un modello viene presentato uno stimolo direttivo o strutturato per generare gli output desiderati.

A differenza dei prompt standard come i prompt one-shot, zero-shot o la generazione di prompt few-shot, questo approccio si distingue perché consente il controllo diretto sull'output del modello, stabilendo criteri o fornendo istruzioni. In questo approccio, uno stimolo guida agisce come meccanismo di controllo del processo generativo del modello lungo linee definite da un determinato criterio.

Il Directional Stimulus Prompting (DSP) è utile quando un'attività richiede un insieme specifico di risposte, molto sensibili al contesto, ma ancora senza dati etichettati.

Ad esempio, nel caso di attività di riepilogo, in cui la conservazione delle informazioni essenziali è fondamentale, il DSP fornisce uno stimolo guida che spinge il modello a produrre in un determinato modo. Ciò porta alla generazione complessiva di riassunti più accurati e contestualmente appropriati.1

Necessità dei prompt di stimolo direzionale

I modelli linguistici di grandi dimensioni (LLM) come GPT-3, 4 e PalM sono comunemente chiamati modelli "black box" perché gli utenti non hanno accesso ai loro elementi interni, come parametri, metodi di ottimizzazione o processi decisionali.

Tale interazione avviene essenzialmente tramite prompt che utilizzano le chiamate application programming interface (API) come principali meccanismi di input e output. Sebbene questi modelli siano molto buoni, la loro capacità di produrre output precisi e specifici per un compito è spesso fortemente dipendente dalla qualità del prompt.2, 3

In questo caso, la prompt engineering per progettare prompt mirati a orientare il comportamento del modello è rilevante. Sia gli approcci manuali che quelli automatizzati alla prompt engineering hanno prodotto notevoli successi. Tuttavia, non sono privi di inconvenienti, soprattutto per i compiti che richiedono un forte controllo o un output molto specifico dell'istanza.

Ad esempio, attività come il riassunto o la generazione di dialoghi richiedono che il modello segua in modo sistematico i comportamenti target, come l'inclusione di dettagli chiave e l'adesione a un modello di ragionamento rigoroso o a linee guida stilistiche prescritte. Le tecniche convenzionali spesso non sono sufficienti per garantire una conformità costante a questi requisiti così dettagliati.

Il prompting di stimolo direzionale (DSP) colma questa lacuna. Il DSP è un piccolo modello di policy ausiliaria e genera prompt specifici per le istanze che guidano l'LLM verso le sue decisioni.

I prompt emessi rispondono a un contesto specifico per ogni istanza e sembrano convincere l'LLM a produrre output più allineati e desiderabili. Collegando il DSP al processo, gli utenti dispongono di un potente strumento per correggere il comportamento degli LLM black box per una maggiore coerenza, pertinenza e accuratezza in un lavoro che richiede precisione.1

Come funziona il DSP

Addestramento del modello di policy con messa a punto supervisionata (SFT)

Il processo di formazione del modello di policy inizia con la messa a punto supervisionata (SFT) su un modello preformato come T5, GPT-2 o qualsiasi altro LLM adatto. L'idea chiave è mettere a punto un modello di policy più piccolo sui dati di addestramento che generi stimoli direzionali anziché modificare direttamente l'LLM.

Questo processo è efficiente perché la messa a punto di un modello politico più piccolo e specifico per un'attività evita le problematiche e i costi computazionali associati all'addestramento diretto di modelli grandi e complessi.

Per addestrare questo modello di policy, viene creato un piccolo set di dati etichettato, in cui ogni input è associato a uno pseudo-stimolo. Questi pseudo-stimoli sono progettati per guidare le risposte dell'LLM nella direzione desiderata in base al compito da svolgere.

Ad esempio, in un'attività di riepilogo, lo pseudostimolo potrebbe consistere in parole chiave o frasi tratte da un riepilogo di riferimento. Allo stesso modo, per le attività di generazione del dialogo, atti di dialogo come richieste, domande o dichiarazioni possono essere usati come pseudo stimoli.

Gli stimoli fungono da segnali che il modello di policy utilizza per generare input specifici per le attività che indirizzano efficacemente l'output dell'LLM verso il comportamento target.

Il set di dati etichettato utilizzato per la SFT può essere relativamente piccolo, poiché l'obiettivo è fornire al modello del linguaggio di politica le conoscenze necessarie per generare stimoli, non sull'addestramento di un enorme LLM da zero. Questo rende la SFT un modo efficiente dal punto di vista delle risorse per avviare il modello di policy con conoscenze di base sui requisiti specifici del compito.4

Messa a punto attraverso l'apprendimento per rinforzo (RL)

Dopo la messa a punto iniziale con l'SFT, il modello di policy viene ottimizzato tramite il Reinforcement Learning (RL), che consente al modello di policy di esplorare e perfezionare la capacità di generare stimoli che portano a output LLM di qualità superiore. L'idea centrale in questa fase è quella di utilizzare una funzione di ricompensa per valutare l'efficacia degli stimoli generati.

Ad esempio, nelle attività di riepilogo, la funzione di ricompensa potrebbe basarsi su metriche come i punteggi ROUGE o BLEU, che misurano la qualità del riepilogo generato rispetto a cui fare riferimento. 

Concentrandosi sulla formazione diretta del modello di policy anziché sull'LLM, DSP supera le sfide associate alla messa a punto dei modelli black box, portando a un metodo più efficiente e scalabile. 

Figura 1: architettura del framework DSP 

 

Pro e contro del DSP

Lo stimolo direzionale presenta notevoli vantaggi e alcune sfide, che lo rendono una tecnica intrigante ma complessa. Ecco un esame più approfondito dei suoi meriti e demeriti.5

Vantaggi

Meccanismo di attenzione mirata: il meccanismo di attenzione mirata nel DSP enfatizza i token o le informazioni pertinenti, migliorando la precisione e l'efficienza concentrando l'elaborazione sui componenti essenziali.

Utilizzo ottimizzato delle risorse: concentrandosi sugli stimoli pertinenti, il prompt di stimolo direzionale riduce i requisiti dei set di dati, con conseguente riduzione dei tempi di elaborazione e dei costi computazionali.

Maggiore precisione: isolando ed enfatizzando i token di input più rilevanti, il prompt di stimolo direzionale aumenta la precisione delle risposte e delle interpretazioni del modello linguistico.

Adattabilità: questo approccio può essere personalizzato per varie attività linguistiche, dalla generazione di testo all'analisi del sentiment, offrendo versatilità tra diverse applicazioni di elaborazione del linguaggio naturale.

Svantaggi:

Affidamento su segnali accurati: il successo del prompting di stimolo direzionale si basa decisamente su stimoli precisi, che possono essere difficili da raggiungere in ambienti complessi o rumorosi. Se il contesto o gli stimoli subiscono cambiamenti significativi, l'efficacia del metodo potrebbe diminuire, con conseguente riduzione dell'affidabilità.

Complessità della configurazione: l'impostazione degli stimoli direzionali richiede un'attenta progettazione e calibrazione, il che può rendere più complicato il processo di configurazione iniziale.

Generalizzazione limitata: la sua capacità di generalizzare su diversi tipi di segnale o variazioni di input impreviste è limitata, riducendo l'applicabilità in contesti più ampi.

Casi d’uso

Il prompting di stimolo direzionale (DSP) mostra un grande potenziale in varie attività di NLP, poiché è in grado di guidare efficacemente i modelli per migliorarne le prestazioni.

Riepilogo: il DSP viene utilizzato per creare riepiloghi desiderati che si allineano più strettamente a quelli di riferimento. In un risultato sperimentale, utilizzando un piccolo set di dati di soli 4.000 campioni dal set di dati CNN/Daily Mail, il DSP ha migliorato le prestazioni di benchmark come ROUGE e BLEU o altre misure che includono i punteggi delle preferenze umane del 4-13%, superando alcuni modelli completamente supervisionati.6

Generazione di risposte al dialogo: nella generazione di dialoghi orientati alle attività, il DSP ha aiutato ChatGPT a produrre risposte più accurate e pertinenti. Ad esempio, con soli 80 dialoghi dal set di dati MultiWoz, il DSP ha ottenuto un aumento delle prestazioni del 41,4%, superando diversi modelli all'avanguardia (come ChatGPT, Codex e InstructGPT) addestrati su set di dati più grandi.7

Ragionamento chain of thought: il DSP migliora anche il ragionamento basato sul chain of thought generando prompt specifici per istanza che superano in prestazioni i prompt specifici per attività progettati dall'uomo e generati automaticamente, portando a una maggiore precisione del ragionamento. Questi esempi illustrano come il DSP può offrire una guida mirata, migliorando le prestazioni del modello in una gamma di applicazioni NLP.8

