O que é prompt zero-shot?

Autor(es):

Meredith Syed

Technical Content, Editorial Lead

IBM

Vrunda Gadesha

AI Advocate | Technical Content Author

O que é prompt zero-shot?

O prompt zero-shot é um método de engenharia de prompts que depende do pré-treinamento de um grande modelo de linguagem (LLM) para inferir uma resposta apropriada. Ao contrário de outros métodos de engenharia de prompts, como o prompt few-shot, os modelos não recebem exemplos de saída quando enviam prompts com a técnica zero-shot.1

Como funciona o prompt zero-shot

Uma das promessas dos modelos de base é que eles podem ser adaptados a muitos casos de uso sem exigir dados de treinamento adicionais. No prompt zero-shot, o modelo é solicitado a gerar uma resposta sem receber um exemplo do resultado desejado para o caso de uso. O prompt zero-shot é uma aplicação do aprendizado zero-shot, um padrão de aprendizado de máquina que pede aos modelos para fazer previsões sem nenhum dado de treinamento.

No exemplo abaixo, o modelo granite-3-8b-instruct da IBM da Granite Series da IBM é solicitado usando o prompt zero-shot em um caso de uso de classificação.2 Nesse caso, pede-se que o modelo classifique um problema de TI como pertencente à classe "Alta" ou à classe "Baixa", indicando a urgência do problema. Neste exemplo, o modelo infere o rótulo de classificação "Alto" para o prompt (conforme representado pela saída em negrito ), uma resposta apropriada neste contexto.

Observação: o prompt foi executado no IBM watsonx.ai Prompt Lab usando o modo "Freeform".

Defina o nome da Classe para o problema descrito como Alto, Médio ou Baixo. Preveja apenas o nome da Classe do último problema. Forneça uma breve descrição do motivo pelo qual o nome da Classe foi escolhido.

Nome da classe: Alto
Descrição: um problema que tem um alto custo comercial afeta muitos usuários ou ambos.

Nome da classe: Médio
Descrição: um problema que fica entre alto e baixo.

Nome da classe: Baixo
Descrição: um problema que afeta alguns usuários, não tem um alto custo comercial ou ambos.

Problema: os usuários estão relatando que não conseguem fazer upload de arquivos.

Classe: Alto

Descrição: esse problema é considerado Alto porque afeta muitos usuários e tem um alto custo comercial. A incapacidade de carregar arquivos pode impedir que os usuários concluam suas tarefas, o que pode gerar atrasos e diminuição da produtividade. Além disso, esse problema pode afetar vários departamentos ou equipes, aumentando ainda mais o custo comercial.

Uma estratégia de prompt zero-shot é frequentemente a estratégia de engenharia de prompts atribuir um novo problema ao modelo.1 Este exemplo demonstra como se espera que o modelo gere uma inferência apropriada sem nenhum exemplo explícito de respostas. O cenário de prompt zero-shot imita o aprendizado humano na aplicação do conhecimento prévio para resolver novos problemas.3

Componentes de um prompt

Embora o modelo não seja fornecido com exemplos de prompts, ele fornece detalhes sobre como completar a tarefa:1

Instrução: primeiro, as instruções fornecidas ao modelo são para “Defina o nome da Classe para o problema descrito..."

Contexto: em seguida, o contexto do modelo inclui uma descrição dos nomes das classes.

Dados de entrada: o modelo recebe dados de entrada para executar a tarefa de classificação com o prompt “Problema: os usuários estão relatando que não conseguem fazer upload de arquivos.”

Indicador de saída: opcionalmente, o modelo pode receber um indicador de saída, neste caso o texto "Classe:" que indica ao modelo para responder com o nome da classe do problema. Os indicadores de saída indicam ao modelo que tipo de saída deve ser produzida para um tipo específico de resposta.

O formato personalizado desse prompt é para o problema de classificação em questão. Outros casos de uso podem exigir um formato diferente para o prompt e podem não conter as mesmas instruções, contexto, dados de entrada e componentes indicadores de saída.1 Modelos diferentes podem exigir formatos diferentes para um prompt. Certifique-se de seguir todas as instruções fornecidas sobre como formatar um prompt para um modelo específico. Neste exemplo, como resultado do pré-treinamento do modelo e desse prompt bem elaborado utilizando os componentes descritos, o modelo responde com a saída apropriada para essa tarefa.

Prompt zero-shot versus prompt few-shot

Ao contrário do prompt zero-shot, o prompt few-shot fornece ao modelo exemplos de entradas e saídas esperadas para a tarefa.1 A imagem anterior diagrama a diferença entre o prompt zero-shot e o prompt few-shot, com o prompt one-shot também mostrado como um caso especial. 

Utilizando o mesmo modelo IBM granite-3-8b-instruct, são fornecidos exemplos de "Problemas" e suas "Classes" correspondentes para esta tarefa.2 Os três exemplos de entradas e saídas apresentados ilustram a estratégia de prompt few-shot. Em resposta a esse prompt, o modelo faz uma previsão razoável da classe "Média" (conforme destacado em negrito).

Observação: o prompt foi executado com o IBM watsonx.ai Prompt Lab usando o modo "Freeform".

Defina o nome da Classe para o problema descrito como Alto, Médio ou Baixo. Forneci alguns exemplos de problemas e os nomes de Classes correspondentes. Preveja apenas o nome da Classe do último problema. Forneça uma breve descrição do motivo pelo qual o nome da Classe foi escolhido.

Nome da classe: Alto
Descrição: um problema que tem um alto custo comercial, afeta muitos usuários ou ambos.

Nome da classe: Médio
Descrição: um problema que fica entre alto e baixo.

Nome da classe: Baixo
Descrição: um problema que afeta alguns usuários, não tem um alto custo comercial ou ambos.

Problema: novos usuários relatam que não conseguem criar contas.
Classe: Alto

Problema: um usuário relata que os rótulos estão renderizando sobreposições na função de análise de dadosdo aplicativo.
Classe: Baixo

Problema: usuários nos Estados Unidos estão relatando que o aplicativo está falhando ao tentar fazer uma compra.
Classe: Alto

Problema: os usuários relatam que as imagens não estão carregando no aplicativo.

Classe: Médio

Explicação: o problema das imagens não carregarem no aplicativo afeta a experiência dos usuários e pode causar frustração, mas não tem um alto custo comercial ou afeta muitos usuários. Portanto, está classificado como um problema de nível Médio.

O prompt few-shot, que é uma estratégia derivada do paradigma de aprendizado few-shot , normalmente é usado para melhorar o desempenho do modelo em relação ao prompt zero-shot em uma tarefa.1 Neste exemplo, o modelo de IA produz inferências úteis tanto no cenário zero-shot quanto no few-shot. Ao se decidir se deve ser usado o prompt zero-shot ou o prompt few-shot, deve-se considerar as restrições do problema e o desempenho demonstrado de ambas as estratégias. Reynolds e McDonell (2021) descobriram que, com melhorias na estrutura do prompt, o prompt zero-shot pode superar o prompt few-shot em alguns cenários.4 Schulhoff et al. (2024) encontram resultados diferentes comparando o desempenho de várias estratégias de prompts.5

Vantagens e limitações do prompt zero-shot

O prompt zero-shot é uma abordagem popular devido às suas vantagens.6 Os pesquisadores continuam desenvolvendo técnicas para lidar com as limitações dessa técnica de engenharia de prompts.8

Vantagens

  1. Simplicidade: os prompts são simples de construir e fáceis de entender. Essa abordagem permite que os usuários experimentem diferentes prompts sem um conhecimento profundo de engenharia de prompts. 
  2. Facilidade de uso: o prompt zero-shot não exige nenhum dado adicional, o que o torna valioso nos casos em que os dados relevantes são difíceis de obter ou escassos.
  3. Flexibilidade: os prompts são fáceis de adaptar conforme a necessidade. Melhorar um prompt ou atualizar um prompt devido a mudanças nas circunstâncias requer pouco esforço.

Limitações

  1. Variabilidade de desempenho: embora o prompt zero-shot possa ser eficaz, seu desempenho pode variar significativamente dependendo da complexidade e especificidade da tarefa. Os modelos podem ter dificuldades com tarefas que exigem conhecimento profundo do domínio, compreensão sutil ou saídas altamente específicas, levando a resultados abaixo do ideal em comparação com modelos com ajuste fino específico para a tarefa.
  2. Dependência da qualidade do modelo pré-treinado: o sucesso do prompt zero-shot depende fortemente da qualidade e abrangência do modelo de linguagem pré-treinado. Se o modelo não tiver exposição suficiente a determinados tópicos, linguagens ou contextos durante o pré-treinamento, seu desempenho zero-shot em tarefas relacionadas provavelmente será ruim.

Os avanços nos métodos de treinamento para LLMs melhoraram a saída do modelo para prompt zero-shot em casos de uso.7

Pense além dos prompts e tenha o contexto completo 

Fique à frente das últimas notícias do setor, ferramentas de IA e tendências emergentes em engenharia de prompts com o boletim informativo Think. Além disso, tenha acesso a novas explicações, tutoriais e insights, entregues diretamente na sua caixa de entrada. Consulte a declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Melhorias no desempenho do prompt zero-shot

O prompt zero-shot depende do conhecimento pré-treinado do modelo de base e de sua flexibilidade para se adaptar ao prompt solicitado e fornecer uma resposta apropriada.1

Melhorar as respostas no cenário zero-shot é o foco dos pesquisadores.A precisão de resposta do prompt zero-shot é frequentemente usada como benchmark do desempenho do modelo enquanto testa novos métodos de treinamento de modelo.7 Duas melhorias que resultaram em melhor desempenho do prompt zero-shot são o ajuste de instruções e o aprendizado por reforço com feedback humano (RLHF).89

No ajuste de instruções, um modelo é ajustado usando aprendizado supervisionado em um conjunto de dados que inclui instruções para várias tarefas e resultados dessas tarefas. O conjunto de dados inclui tarefas como sumarização de texto, conversão e compreensão de leitura. Essa estratégia de ajuste fino com um conjunto de dados instrutivo resultou em um melhor desempenho do prompt zero-shot em novas tarefas nestas categorias.8

Outro exemplo do uso do ajuste fino para melhorar os resultados do prompt zero-shot é o ajuste fino RLHF, no qual o aprendizado por reforço aprende uma política que orienta o modelo para melhores saídas. Nesse processo de três etapas, o modelo é ajustado primeiro usando um conjunto de dados instrutivo no qual seres humanos forneceram as respostas desejadas. Em seguida, o modelo projeta saídas para vários prompts classificadas por seres humanos. Por fim, as saídas classificadas são usadas para treinar um modelo de aprendizado por reforço que aprende uma política para selecionar as melhores saídas com base nessas classificações fornecidas por seres humanos.12

A etapa final usa a capacidade de aprendizado por reforço de usar as consequências (recompensas ou punições) das ações (decisão ou caminho seguido) para aprender uma estratégia (ou política) para tomar boas decisões. Neste caso, o espaço do problema são todas as estratégias potenciais que podem ser usadas na seleção do modelo de uma boa saída como sua resposta.9

AI Academy

Torne-se um especialista em IA

Adquira conhecimento para priorizar os investimentos em IA que estimulam o crescimento dos negócios. Comece a usar hoje mesmo a nossa AI Academy sem custo e lidere o futuro da IA na sua organização.

Aplicações do prompt zero-shot

Em comparação com o aprendizado de máquina supervisionado tradicional para processamento de linguagem natural (NLP), o prompt zero-shot não requer dados de treinamento rotulados. Profissionais de inteligência artificial e cientistas de dados podem usar a tecnologia de IA generativa de grandes modelos de linguagem no cenário de prompt zero-shot para vários casos de uso, incluindo:10

Classificação de texto

Conforme mostrado no exemplo anterior, classificando a prioridade dos problemas de TI com o modelo granite-3-8b-instruct da IBM, o modelo pode obter a classificação sem exemplos anteriores pertencentes às diferentes classes. Esse recurso é ideal para situações em que existem dados de treinamento rotulados limitados ou inexistentes. Este tutorial de classificação zero-shot mostra uma implementação desse caso de uso.

Extração de informações

Dado um corpo de texto e uma pergunta, um LLM pode extrair as informações solicitadas de acordo com um prompt.

Respostas a perguntas

Usando o conhecimento pré-treinado de um modelo, um usuário pode solicitar uma resposta a uma pergunta.

Resumo de texto

Dado o texto e uma instrução para sumarização de texto, grandes modelos de linguagem podem executar essa tarefa no cenário de prompt zero-shot sem exigir resumos de exemplos de outros textos.

Geração

Os LLMs geram dados na forma de texto, código, imagens e outros para casos de uso específicos.

Conversa

Normalmente, usando modelos ajustados para chat (como a conhecida série chat-GPT), os LLMs podem interagir com um usuário no modo de chat, realizando muitos dos casos de uso anteriores.

Outros métodos de engenharia de prompts

Para casos de uso complexos, como tarefas de raciocínio multietapas, tanto o prompt zero-shot quanto o prompt few-shot podem não produzir uma resposta apropriada do modelo. Técnicas avançadas de engenharia de prompts, incluindo cadeia de pensamentos e árvore de pensamentos, podem ter mais sucesso nesses casos.

Cadeia de pensamentos: o prompt de cadeia de pensamentos (CoT) é uma estratégia que apresenta uma tarefa ao modelo, especificando a tarefa maior como uma série de etapas discretas a serem resolvidas. Essa exposição de etapas intermediárias melhora a capacidade do modelo de gerar uma resposta correta. A CoT também permite uma melhor transparência no processo de resolução de problemas devido à elucidação das etapas intermediárias. Essa técnica de engenharia de prompts demonstra sucesso em áreas que incluem a melhoria do desempenho de chatbots para atendimento ao cliente, ajudando a organizar os pensamentos de pesquisadores e escritores e gerando descrições passo a passo para problemas educacionais de matemática e ciências.11

Árvore de pensamentos: o prompt de árvore de pensamentos (ToT) gera uma árvore de texto ramificada de possíveis próximas etapas e possíveis soluções correspondentes para o problema. Essa estrutura em árvore permite que o modelo explore vários caminhos e volte atrás, se necessário, quando um caminho não resulta em uma solução aceitável. Ela foi projetada para aproximar as estratégias de raciocínio humano ao comparar possíveis caminhos para uma solução. As estratégias comuns para explorar soluções são a busca em largura (BFS) e a busca em profundidade (DFS), juntamente com as abordagens de busca heurística e de aprendizado por reforço. Pesquisadores têm usado essa aplicação para resolver quebra-cabeças como sudoku e o Jogo 24.12, 13

Soluções relacionadas
IBM® watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em menos tempo com menos dados.

Explore o watsonx.ai
Soluções de inteligência artificial

Coloque a IA em ação na sua empresa com a experiência em IA líder do setor e com o portfólio de soluções da IBM.

Explore as soluções de IA
Consultoria e serviços em inteligência artificial (IA)

Os serviços de IA da IBM Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformação.

Explore os serviços de IA
Dê o próximo passo

Ao utilizar a IA, o IBM Concert revela insights cruciais sobre suas operações e fornece recomendações específicas para cada aplicação com foco em melhorias. Descubra como o Concert pode impulsionar sua empresa.

Explorar Concert Explore as soluções de automação de processos de negócios
Notas de rodapé

1. E. Saravia. "Prompt Engineering Guide." https://github.com/dair-ai/Prompt-Engineering-Guide (acessado em outubro de 2024).

2. "Granite 3.0 Language Models," IBM Research, Yorktown Heights, NY, outubro de 2024. https://github.com/ibm-granite/granite-3.0-language-models/blob/main/paper.pdf

3. B. Romera-Paredes, P. Torr, "An embarrassingly simple approach to zero-shot learning," em ICML, 2015, pp. 2152–2161, https://proceedings.mlr.press/v37/romera-paredes15.pdf.

4. L. Reynolds, K. McDonell, "Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm", fevereiro de 2021, https://doi.org/10.48550/arXiv.2102.07350.

5. S. Schulhoff, M. Ilie, N. Balepur, K. Kahadze, A. Liu, C. Si, Y. Li, A. Gupta, H. Han, S. Schulhoff, P. S. Dulepet, S. Vidyadhara, D. Ki, S. Agrawal, C. Pham, G. Kroiz, F. Li, H. Tao, A. Srivastava et al. "The Prompt Report: A Systematic Survey of Prompting Techniques," dezembro de 2024, https://doi.org/10.48550/arXiv.2406.06608.

6. Y. Li, Yinheng, "A Practical Survey on Zero-shot Prompt Design for In-context Learning," in RANLP, julho de 2023, pp. 641‑647, https://acl-bg.org/proceedings/2023/RANLP%202023/pdf/2023.ranlp-1.69.pdf.

7. H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozi`ere, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave e G. Lample, “LLaMA: Open and efficient foundation language models,” fevereiro de 2023, https://doi.org/10.48550/arXiv.2302.13971.

8. J. Wei, M. Bosma, V. Y. Zhao, K. Guu, A. W. Yu, B. Lester, N. Du, A. M. Dai e Q. V. Le, "Finetuned Language Models are Zero-Shot Learners," em ICLR, 2022, https://doi.org/10.48550/arXiv.2109.01652.

9. L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. L. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray, J. Schulman, J. Hilton, F. Kelton, L. Miller, M. Simens, A. Askell, P. Welinder, P. Christiano, J. Leike e R. Lowe, “Training language models to follow instructions with human feedback,” em NeurIPS, 2022, https://proceedings.neurips.cc/paper_files/paper/2022/file/b1efde53be364a73914f58805a001731-Paper-Conference.pdf.

10. P. Liu, W. Yuan, J. Fu, Z. Jiang, H. Hayashi e G. Neubig, “Pre-train, prompt and predict: A systematic survey of prompting methods in Natural Language Processing,” ACM Computing Surveys, vol. 55, no. 9, pp. 1–35, janeiro de 2023, https://dl.acm.org/doi/pdf/10.1145/3560815.

11. J. Wei, X. Wang, D. Schuurmans, M. Bosma, B. Ichter, F. Xia, E. Chi, Q. Le e D. Zhou, “Chain-of-thought prompting elicits raciocínio em grandes modelos de linguagem”, janeiro de 2023, https://doi.org/10.48550/arXiv.2201.11903.

12. J. Long, "Large Language Model Guided Tree-of-Thought," maio de 2023, https://doi.org/10.48550/arXiv.2305.08291.

13. S. Yao, D. Yu, J. Zhao, I. Shafran, T. L. Griffiths, Y. Cao e K. Narasimhan, "Tree of Thoughts: Deliberate Problem Solving with Large Language Models," dezembro de 2023, https://doi.org/10.48550/arXiv.2305.10601.