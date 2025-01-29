Os grandes modelos de linguagem (LLMs), como GPT-3, 4 e PaLM, são comumente chamados de modelos de "caixa-preta" porque os usuários não têm acesso a seus detalhes internos, como parâmetros, métodos de ajuste ou processos de tomada de decisão.

Essa interação ocorre essencialmente por meio de prompts de texto que usam chamadas de interfaces de programação de aplicativos (APIs) como os principais mecanismos de entrada e saída. Embora esses modelos sejam excelentes, sua capacidade de produzir saídas precisas específicas para cada tarefa geralmente depende da qualidade dos prompts.2, 3

Com isso, a engenharia de prompts para projetar prompts direcionados para orientar o comportamento do modelo é relevante. Tanto a abordagem manual quanto a automatizada para a engenharia de prompts produziram um sucesso notável. No entanto, elas não vêm sem problemas, especialmente para as tarefas que exigem um forte controle ou muita saída específica de uma instância.

Por exemplo, tarefas como sumarização ou geração de diálogos exigem que o modelo siga sistematicamente os comportamentos-alvo, como incluir detalhes importantes ou seguir um padrão de raciocínio rigoroso ou diretrizes estilísticas prescritas. As técnicas convencionais muitas vezes não são suficientes para garantir a conformidade consistente com esses requisitos sutis.

O prompt de estímulo direcional (DSP) vem para preencher essa lacuna. O DSP é um modelo de política auxiliar pequeno e gera prompts de estímulo direcionais específicos da instância que orientam o LLM em suas decisões.

Os prompts emitidos atendem a um contexto específico para cada instância e servem para persuadir o LLM a produzir saídas mais alinhadas e desejáveis. Ao conectar o DSP ao processo, os usuários têm uma ferramenta poderosa para corrigir o comportamento dos LLMs de caixa-preta para maior consistência, relevância e exatidão em um trabalho que precisa de precisão.1