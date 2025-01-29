O que é prompt de estímulo direcional (DSP)?

O que é prompt de estímulo direcional (DSP)?

O prompt de estímulo direcional (DSP) é uma nova metodologia de prompt no processamento de linguagem natural (NLP) em que um modelo é apresentado com uma diretiva ou estímulo estruturado para gerar as saídas desejadas.

Ao contrário do prompt padrão, como o prompt one-shot, zero-shot ou few-shot, essa abordagem se distingue por dar controle direto sobre a saída do modelo, ao estabelecer critérios ou fornecer instruções. Nessa abordagem, um estímulo orientador atua como um mecanismo de controle do processo generativo do modelo ao longo de linhas definidas por um determinado critério.

O prompt de estímulo direcional (DSP) é útil quando uma tarefa exige um conjunto específico de respostas, muito sensível ao contexto, mas ainda sem dados rotulados.

Por exemplo, no caso de tarefas de sumarização, em que a retenção de informações essenciais é crucial, a DSP fornece um estímulo orientador que incentiva o modelo a produzir de uma maneira específica. Isso leva à geração geral de resumos mais precisos e contextualmente apropriados.1

Necessidade do prompt de estímulo direcional
 

Os grandes modelos de linguagem (LLMs), como GPT-3, 4 e PaLM, são comumente chamados de modelos de "caixa-preta" porque os usuários não têm acesso a seus detalhes internos, como parâmetros, métodos de ajuste ou processos de tomada de decisão.

Essa interação ocorre essencialmente por meio de prompts de texto que usam chamadas de interfaces de programação de aplicativos (APIs) como os principais mecanismos de entrada e saída. Embora esses modelos sejam excelentes, sua capacidade de produzir saídas precisas específicas para cada tarefa geralmente depende da qualidade dos prompts.2, 3

Com isso, a engenharia de prompts para projetar prompts direcionados para orientar o comportamento do modelo é relevante. Tanto a abordagem manual quanto a automatizada para a engenharia de prompts produziram um sucesso notável. No entanto, elas não vêm sem problemas, especialmente para as tarefas que exigem um forte controle ou muita saída específica de uma instância.

Por exemplo, tarefas como sumarização ou geração de diálogos exigem que o modelo siga sistematicamente os comportamentos-alvo, como incluir detalhes importantes ou seguir um padrão de raciocínio rigoroso ou diretrizes estilísticas prescritas. As técnicas convencionais muitas vezes não são suficientes para garantir a conformidade consistente com esses requisitos sutis.

O prompt de estímulo direcional (DSP) vem para preencher essa lacuna. O DSP é um modelo de política auxiliar pequeno e gera prompts de estímulo direcionais específicos da instância que orientam o LLM em suas decisões.

Os prompts emitidos atendem a um contexto específico para cada instância e servem para persuadir o LLM a produzir saídas mais alinhadas e desejáveis. Ao conectar o DSP ao processo, os usuários têm uma ferramenta poderosa para corrigir o comportamento dos LLMs de caixa-preta para maior consistência, relevância e exatidão em um trabalho que precisa de precisão.1

Como o DSP funciona

Treinamento do modelo de políticas com ajuste fino supervisionado (SFT)

O processo de treinamento do modelo de políticas começa com o ajuste fino supervisionado (SFT) em um modelo pré-treinado, como T5, GPT-2 ou qualquer outro LLM adequado. A ideia principal é realizar um ajuste fino de um modelo de políticas menor em dados de treinamento que gerem estímulos direcionais em vez de modificar diretamente o LLM.

Esse processo é eficiente porque o ajuste fino de um modelo de políticas menor e específico para uma tarefa evita os desafios e custos computacionais associados ao treinamento direto de modelos grandes e complexos.

Para treinar esse modelo de políticas, é criado um pequeno conjunto de dados rotulado, onde cada entrada é emparelhada com um pseudo-estímulo. Esses pseudo-estímulos são projetados para guiar as respostas do LLM na direção desejada com base na tarefa em questão.

Por exemplo, em uma tarefa de sumarização, o pseudo-estímulo pode consistir em palavras-chave ou frases extraídas de um resumo de referência. Da mesma forma, para tarefas de geração de diálogos, atos de diálogo como solicitações, perguntas ou declarações podem ser usados como pseudo-estímulos.

Esses estímulos servem como sinais que o modelo de políticas usa para gerar entradas específicas da tarefa que direcionam efetivamente a saída do LLM para o comportamento-alvo.

O conjunto de dados rotulado usado para o SFT pode ser relativamente pequeno, pois o foco está em fornecer ao modelo de linguagem de políticas o conhecimento necessário para gerar estímulos, não treinar um LLM enorme a partir do zero. Isso torna o SFT uma maneira eficiente em termos de recursos para fazer o bootstrapping do modelo de políticas com conhecimento fundamental sobre os requisitos específicos da tarefa.4

Refinamento por meio de aprendizado por reforço (RL)

Após o ajuste inicial com SFT, o modelo de políticas é otimizado por meio do aprendizado por reforço (RL). O RL permite que o modelo de políticas explore e refine sua capacidade de gerar estímulos que levam a saídas da LLM de maior qualidade. A ideia central nesta fase é usar uma função de recompensa para avaliar a eficácia dos estímulos gerados.

Por exemplo, em tarefas de sumarização, a função de recompensa pode ser baseada em métricas como pontuações ROUGE ou BLEU, que medem a qualidade do resumo gerado em comparação com a referência. 

Ao se concentrar no treinamento do modelo de políticas em vez de no LLM diretamente, o DSP supera os desafios associados ao ajuste fino dos modelos de caixa-preta, levando a um método mais eficiente e escalável. 

Figura 1: Arquitetura do framework de DSP

 

Prós e contras do DSP

O prompt de estímulo direcional tem vantagens notáveis e alguns desafios, tornando-o uma técnica intrigante, porém complexa. Aqui está um exame mais detalhado de seus méritos e deméritos.5

Prós:

Mecanismo de atenção direcionada: o mecanismo de atenção direcionada no DSP enfatiza tokens ou informações relevantes, aumentando a precisão e a eficiência ao concentrar o processamento em componentes essenciais.

Uso de recursos otimizado: ao se concentrar em estímulos pertinentes, o prompt de estímulo direcional reduz os requisitos do conjunto de dados, resultando em tempos de processamento mais rápidos e custos computacionais mais baixos.

Precisão aprimorada: ao isolar e enfatizar os tokens de entrada mais relevantes, o prompt de estímulo direcional aumenta a precisão das respostas e interpretações do modelo de linguagem.

Adaptabilidade: essa abordagem pode ser personalizada para várias tarefas de linguagem, desde a geração de texto até a análise de sentimento, oferecendo versatilidade em diferentes aplicações de processamento de linguagem natural.

Contras:

Dependência de pistas precisas: o sucesso do prompt de estímulo direcional depende fortemente de estímulos precisos, o que pode ser difícil de alcançar em ambientes complexos ou ruidosos. Se o contexto ou os estímulos passarem por mudanças significativas, a eficácia do método pode diminuir, resultando em uma menor confiabilidade.

Complexidade da configuração: a configuração de estímulos direcionais requer um design e calibração cuidadosos, o que pode tornar o processo de configuração inicial mais complicado.

Generalização limitada: sua capacidade de generalizar entre diferentes tipos de sinais ou variações inesperadas de entradas é limitada, restringindo sua aplicabilidade em contextos mais amplos.

Casos de uso

O prompt de estímulo direcional (DSP) demonstra grande potencial em várias tarefas de NLP, orientando efetivamente os modelos para melhorar seu desempenho.

Sumarização: o DSP é usado para criar resumos desejados que se alinham mais de perto com os resumos de referência. Em um resultado experimental, usando um pequeno conjunto de dados de apenas 4.000 amostras do conjunto de dados CNN/Daily Mail, o DSP melhorou o desempenho do benchmark, como ROUGE e BLEU, ou outras medidas, incluindo pontuações de preferências humanas em 4 a 13%, superando alguns modelos totalmente supervisionados.6

Geração de respostas de diálogo: na geração de diálogo orientada a tarefas, o DSP auxiliou o ChatGPT na produção de respostas mais precisas e relevantes. Por exemplo, com apenas 80 diálogos do conjunto de dados MultiWOZ, o DSP obteve um aumento de desempenho de 41,4%, superando vários modelos de última geração (como ChatGPT, Codex e InstructGPT) treinados em conjuntos de dados maiores.7

Raciocínio da cadeia de pensamento: o DSP também melhora o raciocínio da cadeia de pensamento ao gerar prompts específicos de instâncias que superaram o desempenho os prompts específicos de tarefas projetados por seres humanos e gerados automaticamente, levando a uma maior precisão do raciocínio. Esses exemplos ilustram como o DSP pode oferecer orientação direcionada, aprimorando o desempenho do modelo em uma variedade de aplicações de NLP.8

