O que é ajuste de prompts?

Autor(es):

Vrunda Gadesha

AI Advocate | Technical Content Author

O ajuste de prompst é uma técnica de ajuste fino com eficiência de parâmetros (PEFT) que adapta grandes modelos pré-treinados a novas tarefas sem atualizar seus bilhões de parâmetros. Em vez disso, ele aprende um pequeno conjunto de vetores treináveis (chamados de prompts flexíveis ou tokens virtuais), que são inseridos no espaço de entrada do modelo. Esses vetores atuam como sinais contínuos, controlando o modelo congelado em relação ao comportamento esperado e mantendo a espinha dorsal intacta. Essa perspectiva reduz significativamente os custos de computação e armazenamento, tornando-o ideal para organizações que precisam personalizar grandes modelos em vários casos de uso. 12

Qual é a diferença entre “prompting” e “ajuste fino”?

A engenharia de prompts se baseia na elaboração de instruções de texto inteligentes (prompts rígidos) para obter o comportamento correto de um modelo. Embora eficazes em alguns casos, os prompts são frágeis e difíceis de otimizar em escala. Isso significa que, na engenharia de prompts, pequenas alterações no texto podem levar a variações significativas e imprevisíveis no desempenho, e é por isso que é difícil otimizar sistematicamente. No entanto, o ajuste fino completo atualiza todos os parâmetros do modelo, o que é computacionalmente caro e requer muito armazenamento — especialmente para modelos com centenas de bilhões de pesos. O ajuste de prompts encontra um equilíbrio: ele usa embeddings contínuas em vez de texto discreto, treina apenas esses pequenos vetores e alcança desempenho próximo ao ajuste fino total em muitas tarefas, ao mesmo tempo em que é muito mais eficiente. 2, 3

Pense além dos prompts e tenha o contexto completo 

Fique à frente das últimas notícias do setor, ferramentas de IA e tendências emergentes em engenharia de prompts com o boletim informativo Think. Além disso, tenha acesso a novas explicações, tutoriais e insights, entregues diretamente na sua caixa de entrada. Consulte a declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Principais componentes

A abordagem de ajuste de prompts baseia-se em componentes que trabalham juntos para adaptar grandes modelos pré-treinados. O método usa um modelo congelado, aprende um conjunto de embeddings de prompts flexíveis por meio de otimização baseada em gradiente e é guiado por um conjunto de dados específico da tarefa. Esses elementos permitem a adaptação com eficiência de parâmetros sem treinar novamente todo o modelo. 1, 2

Modelo congelado pré-treinado: um grande modelo de linguagem (LLM) ou transformador de visão funciona como espinha dorsal. Ele permanece congelado durante o treinamento, mantendo seu conhecimento geral e reduzindo os custos de computação e armazenamento.4

Embedding de prompts flexíveis: esses prompts são vetores treináveis, também conhecidos como tokens virtuais anexados ou inseridos na entrada tokenizada. Eles atuam como sinais contínuos que controlam o modelo em relação à tarefa de saída sem alterar seus pesos internos.4

Conjunto de dados específico da tarefa: um conjunto de dados rotulado alinhado com a tarefa posterior é essencial para a otimização supervisionada dos prompts flexíveis.

Otimização baseada em gradiente: somente os parâmetros de prompts flexíveis e cabeçalho leve (opcionalmente) são atualizados usando otimizadores, enquanto a espinha dorsal permanece congelada. Esse método garante eficiência e estabilidade durante a tarefa.4

Conforme mostrado na figura, o ajuste de prompts funciona introduzindo um pequeno conjunto de vetores treináveis na entrada de um modelo pré-treinado congelado. Esses prompts funcionam como instruções ocultas que orientam o modelo em direção à tarefa de destino sem atualizar bilhões de parâmetros.

Além desses componentes principais, várias opções de design influenciam significativamente o desempenho:

Comprimento do prompt: o número de tokens virtuais no prompt flexível é um hiperparâmetro crítico. Vários pesquisadores realizaram experimentos e derivaram que o comprimento ideal varia de acordo com a tarefa. Por exemplo, tarefas de classificação simples podem ter um melhor desempenho com prompts mais curtos (por exemplo, menos de 20 tokens), enquanto tarefas complexas de rotulagem de sequências podem exigir prompts mais longos (por exemplo, cerca de 100 tokens).5

Posicionamento dos prompts: esse elemento otimiza o local dos prompts, independentemente de aparecer como prefixo, sufixo ou intercalados na sequência de entrada.

Estratégia de inicialização: iniciar prompts flexíveis com valores aleatórios, embeddings de amostras ou tokens específicos da tarefa pode afetar a velocidade de convergência e a precisão.4

Esses elementos adicionais não são obrigatórios, mas recomendados para alcançar resultados ideais.

AI Academy

Torne-se um especialista em IA

Adquira conhecimento para priorizar os investimentos em IA que estimulam o crescimento dos negócios. Comece a usar hoje mesmo a nossa AI Academy sem custo e lidere o futuro da IA na sua organização.

Exemplo: análise de sentimento com ajuste de prompts

Vamos entender a tarefa de análise de sentimento que fornece uma explicação clara dos mecanismos e benefícios do ajuste de prompts. Suponha que o objetivo seja adaptar um modelo de 175 bilhões de parâmetros para classificar avaliações de filmes como "positiva" ou "negativa". Uma abordagem de ajuste fino completo seria proibitivamente cara e lenta. Com o ajuste de prompts, o processo é o seguinte:

Comece com um modelo pré-treinado congelado: a espinha dorsal de 175 bilhões de permanece totalmente intocada, preservando seu vasto repositório de conhecimentos gerais aprendidos durante o pré-treinamento.5

Adicione prompts: um pequeno conjunto de vetores treináveis (por exemplo, 20 tokens) é anexado às embeddings de entrada de cada avaliação de filme. Esses vetores não são texto legível por humanos; são embeddings contínuas que existem no mesmo espaço de alta dimensão que o vocabulário do modelo (por exemplo, um espaço de 12.288 dimensões para um modelo dessa escala). Por meio da otimização, esses vetores aprendem a codificar um sinal contínuo específico da tarefa que orienta o comportamento do modelo.

Alimente a entrada: por exemplo,

[Prompts flexíveis] O filme foi absolutamente fantástico!

Neste exemplo, suponhamos que inicializemos 20 tokens de prompts flexíveis para uma tarefa de análise de sentimento. Após o treinamento, a entrada pode ter esta aparência internamente:

[<v1>, <v2>, <v3>, ... <v20>, The, movie, was, absolutely, fantastic, !]

Aqui, cada v1 é um vetor de prompt aprendido de alta dimensão. O objetivo do treinamento é encontrar os valores ideais para os vetores que orientam o modelo congelado a classificar corretamente o sentimento do texto subsequente.

Treine apenas os prompts flexíveis: o processo de treinamento é iniciado ao utilizar um conjunto de dados rotulado de avaliações de filmes. Por meio da retropropagação, o gradiente de erro é calculado, mas a etapa de otimização atualiza apenas os parâmetros das embeddings de prompts flexíveis. Essa abordagem envolve o ajuste de apenas alguns milhares de parâmetros, em vez dos 175 bilhões de pesos do modelo.5

Implemente com modularidade: após a conclusão do treinamento, o conjunto resultante de 20 vetores constitui toda a adaptação específica da tarefa. Para adaptar o mesmo modelo de base para uma tarefa diferente, como detecção de spam, basta treinar um novo conjunto de prompts em um conjunto de dados de spam e trocá-los no momento da inferência

Essa técnica oferece benefícios substanciais de eficiência. Em vez de armazenar uma cópia completa e separada do modelo para cada tarefa (um modelo com 175 bilhões de parâmetros pode exigir até 350 GB), é preciso armazenar os parâmetros de prompts específicos da tarefa, que podem ter apenas alguns kB de tamanho.1 Essa modularidade torna o ajuste de prompts uma solução prática e econômica para adaptação de modelos em grande escala.2

Análise comparativa com outros métodos de PEFT

O ajuste baseado em prompts é uma das várias famílias dentro do guarda-chuva mais amplo de métodos e abordagens de ajuste fino com eficiência de parâmetros (PEFT). Compreender sua sobreposição de método com outros métodos é essencial para que os profissionais selecionem a técnica mais apropriada. A escolha é entre desempenho, expressividade, eficiência e complexidade de implementação.

MétodoModificação arquitetônicaExpressividade ou poderTamanho treinávelVantagensDesvantagens

Ajuste de prompts profundo (P-ajuste v2)3

Adiciona vetores treináveis ("prompt") a cada camada do modelo, influenciando o mecanismo de atenção.

Alta. Extrai e combina as habilidades de modelo existentes de forma eficaz.

~0,1% a 3% dos parâmetros do modelo.

Universais em todas as escalas de modelos; mais simples que o LoRA para muitas tarefas de NLU/NLG.

Menos expressivas do que a LoRA para tarefas verdadeiramente novas; podem ser sensíveis a hiperparâmetros.

LoRA (adaptação de baixa classificação)6

Injeta matrizes de baixa classificação treináveis em paralelo com matrizes de peso existentes (por exemplo, em camadas de atenção).

Muito alta. Pode aprender padrões de atenção e comportamentos totalmente novos, tornando-o mais poderoso do que os métodos baseados em prompts.

~0,1% a 1% dos parâmetros do modelo.

Método PEFT mais expressivo; nenhuma latência de inferência adicional como pesos pode ser mesclada.

Mais complexo para implementar e ajustar o hiperparâmetro de classificação.

Adaptadores

Insere novos módulos de pequenas redes neurais em série em cada camada do transformador.

Alta. Adiciona nova capacidade computacional ao modelo.

~1% a 4% dos parâmetros do modelo

Estável e bem estabelecido, altamente modular.

Pode introduzir uma pequena latência de inferência devido ao processamento em série, contagem de parâmetros maior que a do LoRA ou prompts.

Vantagens e limitações

O ajuste de prompts vem com muitos benefícios em aplicações em tempo real, mas é importante entender suas limitações.

Vantagens

Os principais pontos fortes do ajuste de prompts é eficiência, modularidade e preservação do conhecimento do modelo de base.

Eficiência excepcional de parâmetros e custos: a vantagem mais significativa é a redução drástica dos parâmetros treináveis. Ao atualizar apenas um pequeno conjunto de vetores de prompts (que geralmente representam menos de 1% do modelo total), o ajuste de prompts reduz drasticamente os custos computacionais e de armazenamento. Essa estratégia viabiliza a adaptação de modelos de base maciços para organizações com recursos computacionais limitados.

Modularidade e implementação escalável: como cada tarefa é encapsulada em um conjunto pequeno e independente de parâmetros de prompts, um único modelo de espinha dorsal congelada pode ser adaptado para inúmeras tarefas simplesmente trocando esses arquivos de prompts flexíveis no momento da inferência. Essa arquitetura "plug-and-play" é altamente modular e evita a necessidade de armazenar e gerenciar cópias de modelo separadas de vários gigabytes para cada aplicação.

Mitigação do esquecimento catastrófico: o ajuste fino completo corre o risco de sobrescrever ou degradar o conhecimento pré-treinado de um modelo ao aprender uma nova tarefa. Ao manter os pesos da espinha dorsal do modelo totalmente congelados, o ajuste de prompts preserva o vasto repositório de conhecimentos gerais aprendidos durante o pré-treinamento, permitindo que o modelo seja reaproveitado sem perder seus recursos principais.

Eficiência de dados: em comparação com o ajuste fino completo, que geralmente requer conjuntos de dados grandes e rotulados para cada nova tarefa, o ajuste de prompts pode alcançar um forte desempenho com conjuntos de dados menores e mais modestos.

Limitações

Apesar de seus pontos fortes, o ajuste de prompts não está isento de desvantagens, que incluem limitações no poder expressivo, dificuldades de treinamento e falta de interpretabilidade.

Poder expresso limitado: uma limitação teórica central é que o ajuste de prompts e prefixos é menos expressivo do que métodos como LoRA ou ajuste fino completo. A análise formal mostrou que esses métodos funcionam adicionando um viés à saída dos blocos de atenção, mas não podem alterar fundamentalmente os padrões de atenção aprendidos do modelo. Isso significa que o ajuste de prompts é altamente eficaz em obter e combinar habilidades já presentes no modelo, mas pode não aprender tarefas verdadeiramente novas que exigem novos padrões de raciocínio.

Instabilidade de treinamento e sensibilidade de hiperparâmetros: um dos desafios práticos mais significativos é a sensibilidade do método a hiperparâmetros. O processo de treinamento pode ser difícil de convergir e é altamente dependente da escolha da taxa de aprendizado e da estratégia e duração da inicialização dos prompts, muitas vezes precisando de ajustes cuidadosos e extensos para alcançar os resultados ideais.

O problema da "caixa-preta" da interpretabilidade: uma limitação importante e persistente é a falta inerente de interpretabilidade dos prompts. Como são vetores contínuos de alta dimensão otimizados por meio de gradiente descendente, eles não correspondem a nenhum texto legível por seres humanos. Essa natureza de "caixa preta" torna difícil entender o que o prompt aprendeu, por que ele está direcionando o modelo de uma determinada maneira e como depurá-lo quando ele falha.

Dependência da escala do modelo: a eficácia do método original de ajuste de prompt no nível de entrada está correlacionada com a escala do modelo de espinha dorsal. Embora se torne competitivo com o ajuste fino completo em modelos com mais de 10 bilhões de parâmetros, seu desempenho é significativamente reduzido em modelos menores e mais comumente usados.

Casos de uso

Os princípios do ajuste de prompts provaram ser altamente adaptáveis, estendendo-se muito além de suas aplicações iniciais no processamento de linguagem natural. A técnica agora é um facilitador-chave para a personalização eficiente de modelos em domínios multimodais, processamento de fala e para paradigmas de aprendizado avançados.

Ajuste de prompts multimodal (modelos de linguagem de visão): o ajuste de prompts é uma técnica crítica para adaptar modelos de linguagem de visão (VLMs) pré-treinados, como o CLIP, para tarefas visuais posteriores. Nesse contexto, os prompts podem ser projetados para uma ou ambas as modalidades.7

Aplicações no processamento de fala: o paradigma de ajuste de prompts foi estendido com sucesso para o domínio do processamento de fala. Nessa aplicação, uma elocução de fala bruta é codificada em unidades acústicas discretas, e um conjunto de prompts aprendíveis e específicos da tarefa é anexado a essa sequência. Esse framework é unificado e permite que um único modelo de fala pré-treinado seja adaptado para uma gama diversificada de tarefas. Isso inclui identificação de palavras-chave, classificação de intenção falada e até mesmo reconhecimento automático de fala (ASR), tudo enquanto treina apenas um pequeno prompt específico da tarefa.

Aprendizado multitarefas e multilíngue: para melhorar ainda mais a eficiência e a generalização, os pesquisadores migraram além do treinamento de prompts isolados. Métodos avançados agora se concentram em aprender prompts compartilhados, que podem ser transferidos entre várias tarefas ou idiomas.

  • Ajuste de prompts multitarefas (MPT): essa abordagem destila o conhecimento de várias tarefas de origem em um único prompt compartilhado transferível. Esse prompt compartilhado pode, então, ser adaptado com eficiência a novas tarefas-alvo, exigindo apenas 0,035% dos parâmetros do modelo por tarefa e mostrando um forte desempenho em cenários de aprendizado few-shot.
  • Ajuste fino multilíngue: estudos sobre modelos multilíngues descobriram que o ajuste fino multitarefas em uma coleção de conjuntos de dados e prompts somente em inglês pode melhorar significativamente o desempenho zero-shot de um modelo em tarefas em idiomas diferentes do inglês. Este método demonstra que o modelo aprende habilidades de resolução de tarefas que são, em certa medida, independentes do idioma.

Conclusão

No espaço de pesquisa de inteligência artificial, o aprendizado de máquina e o ajuste de prompts de IA generativa surgiram como um método crítico para o ajuste eficiente dos modelos de IA. Ao contrário do treinamento de modelo completo, que altera todos os pesos do modelo e corre o risco de overfitting com dados de treinamento limitados, essa técnica se concentra na otimização dos prompts de entrada que são anexados ao texto de entrada. Por meio de um processo de automação e iteração, o objetivo é descobrir um prompt ideal que crie prompts eficazes para tarefas específicas, um processo cujo sucesso geralmente depende do tamanho do modelo. Essa abordagem oferece uma alternativa escalável ao retreinamento extensivo e complementa outras estratégias, como o RAG, solidificando seu papel como alicerce para a personalização de modelos de base.

Soluções relacionadas
IBM® watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em menos tempo com menos dados.

Explore o watsonx.ai
Soluções de inteligência artificial

Coloque a IA em ação na sua empresa com a experiência em IA líder do setor e com o portfólio de soluções da IBM.

Explore as soluções de IA
Consultoria e serviços em inteligência artificial (IA)

Os serviços de IA da IBM Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformação.

Explore os serviços de IA
Dê o próximo passo

Ao utilizar a IA, o IBM Concert revela insights cruciais sobre suas operações e fornece recomendações específicas para cada aplicação com foco em melhorias. Descubra como o Concert pode impulsionar sua empresa.

Explorar Concert Explore as soluções de automação de processos de negócios
Notas de rodapé

[1] Li, Z., Su, Y., & Collier, N. (2025). A Survey on Prompt Tuning. arXiv preprint arXiv:2507.06085.

[2] Lester, B., Al-Rfou, R. e Constant, N. (2021, November). The Power of Scale for Parameter-Efficient Prompt Tuning. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (pp. 3045-3059).

[3]Liu, X., Ji, K., Fu, Y., Tam, W., Du, Z., Yang, Z. e Tang, J. (maio de 2022). P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) (pp. 61-68).

[4] Lei, S., Hua, Y. e Zhihao, S. (2025). Revisiting Fine-Tuning: A Survey of Parameter-Efficient Techniques for Large AI Models.

[5] Bian, J., Peng, Y., Wang, L., Huang, Y. e Xu, J. (2025). A survey on parameter-efficient fine-tuning for foundation models in federated learning. arXiv preprint arXiv:2504.21099.

[6] Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., ... e Chen, W. (2022). Lora: Low-rank adaptation of large language models. ICLR, 1(2), 3.

[7] Tian, Q. e Zhang, M. (2025). Enhancing visual-language prompt tuning through sparse knowledge-guided context optimization. Entropy, 27(3), 301.