Implementar modelos de inteligência artificial (IA) para tarefas complexas, como resumir relatórios, responder a consultas ou traduzir documentos, geralmente apresenta desafios significativos. Esses modelos geralmente exigem um extenso retreinamento com grandes conjuntos de dados anotados e processos dispendiosos de ajuste fino. Cada nova tarefa adiciona complexidade, desacelerando a inovação, aumentando as despesas e limitando a escalabilidade da IA em diversos casos de uso.
Agora, imagine uma abordagem diferente. E se um modelo de IA pudesse se adaptar a novas tarefas instantaneamente, sem precisar de retreinamento ou dados adicionais? Essa é a promessa do aprendizado contextual (ICL), que permite que os modelos de IA aprendam tarefas de maneira dinâmica, simplesmente dando exemplos em um prompt. Ele elimina os gargalos do aprendizado de máquina (ML) tradicional e oferece soluções mais rápidas, adaptáveis e econômicas.
O aprendizado contextual (ICL) é um recurso avançado de IA introduzido no artigo de pesquisa seminal "Language Models are few-Shot Learners", que revelou o GPT-3.1 Diferentemente do aprendizado supervisionado, em que um modelo passa por uma fase de treinamento com retropropagação para alterar seus parâmetros, o ICL depende inteiramente de modelos de linguagem pré-treinados e mantém seus parâmetros inalterados.
O modelo de IA usa o prompt como um guia temporário para inferir a tarefa e gerar a saída esperada. O ICL funciona reconhecendo relações entre os exemplos no prompt, também conhecidas como pares de entrada/saída, e aplicando o mesmo mapeamento a novas entradas. Esse processo imita o raciocínio humano, no qual resolvemos novos problemas fazendo analogias de experiências anteriores. Ele aproveita padrões e conhecimentos aprendidos durante o pré-treinamento e se adapta dinamicamente a novas tarefas, tornando-o altamente flexível e eficiente.
Em sua essência, o aprendizado contextual funciona condicionando um grande modelo de linguagem (LLM) a um prompt que inclui um conjunto de exemplos (pares de entrada/saída ou exemplos contextuais) normalmente escritos em linguagem natural como parte da sequência de entrada. Esses exemplos, geralmente extraídos de um conjunto de dados, não são usados para treinar novamente o modelo, mas são alimentados diretamente em sua janela de contexto. Essa janela mostra a quantidade de texto que um LLM pode processar de uma só vez, atuando como sua memória temporária para gerar respostas coerentes, e é a parte do modelo que processa a entrada sequencial.
Formalmente, permita que o prompt consista em k exemplos na forma de pares de entrada/saída:
C={(x1 ,y1 ),(x2 ,y2 ),...,(xk ,yk )}
Dada uma nova entrada x e um espaço de saída candidato Y={y1,...,ym}, o modelo calcula a probabilidade de cada possível saídao condicionada ao prompt:
P(yj ∣ x,C)
A previsão é determinada escolhendo a opção com a maior probabilidade:
O modelo não atualiza seus pesos durante esse processo. Em vez disso, aproveitando sua arquitetura de transformação de deep learning, o modelo aprende o padrão dinamicamente, usando apenas os exemplos no prompt atual.
Para ver esse método em prática, considere uma tarefa de classificação de sentimento. O prompt pode ter esta aparência:
Avaliação: O filme foi fantástico → Sentimento: Positivo
Avaliação: Odiei o enredo → Sentimento: Negativo
Avaliação: A música era agradável → Sentimento:
O modelo conclui a última linha prevendo "Positivo", continuando a estrutura observada nos mapeamentos anteriores de rótulos de entrada. Este exemplo apresenta o few-shot learning, em que o modelo infere a tarefa e gera respostas apropriadas com base em alguns exemplos.
Como o sucesso do modelo de IA depende do que é mostrado no prompt, a engenharia de prompts desempenha um papel crítico no ICL. A engenharia de prompts refere-se à elaboração de prompts de alta qualidade, informativos e bem estruturados que orientam o modelo de forma eficaz. Os prompts geralmente usam modelos de linguagem natural, que são cuidadosamente escolhidos para corresponder ao que o modelo viu durante a exposição dos dados de pré-treinamento. Variações no texto, formato do rótulo, ordem dos exemplos e até mesmo pontuação podem afetar o desempenho do modelo, principalmente em modelos menores ou casos extremos.
É importante ressaltar que a engenharia de prompts não é um mecanismo separado, mas um conjunto de técnicas que operam dentro do conceito mais amplo de aprendizado contextual. Por exemplo:
Prompt zero-shot: a tarefa é explicada sem fornecer nenhum exemplo
Prompt one-shot: apenas um exemplo é incluído para ilustrar a tarefa
Prompt few-shot: são fornecidos vários exemplos
Prompt da cadeia de pensamento: cada exemplo inclui etapas de raciocínio intermediárias para orientar a lógica do modelo
Essas estratégias de prompts são frequentemente combinadas com projetos de prompts com poucas iterações e são avaliadas com relação a benchmarks que testam a generalização. Mesmo os pares de entrada/saída com rótulos aleatórios podem melhorar o desempenho, destacando que o formato e a distribuição do prompt são tão importantes quanto os próprios rótulos.
Conforme migrarmos além dos prompts controlados do ICL para sistemas complexos do mundo real, o desafio passa de criar entradas estáticas para praticar engenharia de contexto. É uma disciplina emergente focada no projeto sistemático de todas as entradas de que um LLM precisa para funcionar de forma confiável em cenários do mundo real.
A engenharia de contexto é a prática de projetar sistemas dinâmicos que reúnem e entregam as informações, ferramentas e instruções corretas a um LLM no formato adequado para permitir que ele conclua uma tarefa de forma confiável. Ao contrário da engenharia de prompts estáticos, a engenharia de contexto se concentra na construção de entradas completas e relevantes para a tarefa de várias fontes, como entradas dos usuários, interações anteriores, saídas de ferramentas e dados externos em tempo de execução. Ela garante que os LLMs não apenas recebam os dados necessários, mas também em uma estrutura que possam interpretar de forma eficaz. Essa abordagem é crítica em sistemas agênticos complexos, onde as falhas geralmente decorrem de contexto ausente ou mal formatado, não das limitações do modelo. Ao integrar ferramentas, mecanismos de recuperação e memória no processo de construção de prompts, a engenharia de contexto preenche a lacuna entre o potencial de um modelo e seu desempenho no mundo real.
Enquanto as explicações iniciais viam o ICL como repetição de padrões em nível de superfície ou previsão de próximo token, pesquisas mais recentes sugerem processos mais profundos. Uma explicação convincente enquadra o ICL como uma forma de inferência bayesiana, um método de estimativa de probabilidades atualizando crenças com evidências.2 Nessa visão, o modelo analisa exemplos de few-shot ou one-shot e infere um conceito latente (uma tarefa ou estrutura invisível, como "esta é a classificação de sentimento") a partir do prompt. À medida que mais exemplos contextuais são adicionados, o modelo fica mais confiante na tarefa que está fazendo, melhorando suas previsões sem alterar os parâmetros do modelo.
Outra explicação vincula o ICL ao gradiente descendente, o principal método de otimização por trás da maioria dos sistemas de aprendizado de máquina para minimizar os erros. Estudos recentes mostraram que modelos de transformação podem simular internamente o processo de aprendizado, especialmente para tarefas simples, como regressão linear. Embora não ocorra nenhuma atualização real de parâmetros, o modelo se comporta como se estivesse se ajustando ao prompt usando um loop interno de raciocínio. Esse processo ocorre inteiramente dentro da janela de contexto do modelo.
Essas descobertas sugerem que o ICL envolve um comportamento interno semelhante a um aprendizado durante a inferência, mesmo em configurações zero-shot ou few-shot. Em vez de serem preditores estáticos, os LLMs se adaptam à estrutura da tarefa em tempo real usando prompts de linguagem natural. Essa combinação de inferência e aprendizado implícito torna o ICL uma maneira poderosa de lidar com novas tarefas sem retreinamento.
1. Escala do modelo e sensibilidade dos parâmetros
A eficácia do ICL é fortemente influenciada pela escala e pelo projeto dos LLMs. Modelos maiores demonstram habilidades emergentes mais fortes no ICL. Modelos menores muitas vezes têm dificuldades para corresponder aos recursos do aprendizado contextual, pois não têm a capacidade de parâmetros para modelar tarefas complexas de forma eficaz.
2. Qualidade do pré-treinamento de de dados e viés
A eficácia do aprendizado contextual depende da variedade e da qualidade de dados e viés. Modelos treinados em conjuntos de dados com viés podem replicar essas limitações durante a inferência, levando a problemas de generalização ruim e imparcialidade.
3. Transferência e generalização de domínio
Embora os LLMs mostrem uma adaptabilidade impressionante, seu desempenho pode se degradar em tarefas altamente específicas de um domínio. Para campos especializados, como direito ou medicina, ainda podem ser necessárias demonstrações específicas de domínio ou até mesmo o ajuste fino tradicional.
4. Ética e justiça
O ICL pode involuntariamente transferir e reforçar vieses sociais presentes nos dados de treinamento. Como os prompts podem influenciar o comportamento do modelo, garantir saídas éticas e justas em interações dinâmicas e em tempo real continua sendo um grande desafio.
5. Preocupações de privacidade e segurança
Sistemas baseados no ICL que operam em aplicações do mundo real podem inadvertidamente memorizar ou reproduzir informações confidenciais se esses dados estivessem presentes no corpus de pré-treinamento. Essa possibilidade levanta questões críticas de privacidade, especialmente nas áreas de saúde, jurídica e de assistência personalizada.
6. Sensibilidade e estabilidade dos prompts
O ICL é sensível ao projeto dos prompts. Pequenas mudanças no número, na ordem ou na formatação de exemplos contextuais podem levar a grandes mudanças na saída, tornando difícil garantir um desempenho consistente.
1. Treinamento de modelos
Para tornar os LLMs inerentemente melhores no aprendizado contextual, os pesquisadores estão explorando melhorias durante ou imediatamente após o treinamento do modelo.3 Uma direção importante é o pré-treinamento com dados estruturados, onde os pares de entrada/saída ou clusters de tarefas são explicitamente organizados. Essa abordagem ajuda os modelos a se tornarem mais sensíveis aos padrões e relações de tarefas, em vez de confiar apenas em amplas distribuições de idiomas.
Outra abordagem eficaz é a meta destilação, em que o modelo é exposto a formas de conhecimento destiladas e abstratas; pares de exemplos curtos e altamente informativos que transmitem a essência de uma tarefa (por exemplo, "Enredo forte → positivo", "Ação fraca → negativo"). Esse método permite que os modelos generalizem rapidamente durante a inferência com sobrecarga mínima de demonstração.
O treinamento de aquecimento realiza o ajuste fino do modelo entre o pré-treinamento e a inferência real usando exemplos alinhados a tarefas em forma de prompts. Por exemplo, ver alguns exemplos de "Título → Categoria" antes de testar aumenta sua capacidade de generalizar para conteúdo relacionado sem retreinar.
Ajuste de instrução é outra estratégia crítica, na qual os modelos são treinados usando milhares de tarefas escritas como instruções em linguagem natural (por exemplo, "Classifique o humor da frase"). Essa estratégia melhora a generalização de few-shot e zero-shot, alinhando mais de perto o comportamento do modelo com a orientação humana.
2. Projetando prompt
O projeto dos prompts durante a inferência desempenha um papel fundamental no aproveitamento do ICL. Uma das técnicas mais impactantes é a seleção de demonstração; escolher os exemplos certos usando métricas de similaridade, pontuações de incerteza ou recuperadores treinados.
A reformatação de demonstração modifica a forma como os exemplos são estruturados. Em vez de simples pares de entrada/saída, alguns métodos usam cadeias de raciocínio (por exemplo, "Premissa → Raciocínio → Conclusão") para melhorar o alinhamento com as representações internas do modelo.
Outro fator sutil, mas importante, é a ordem de demonstração. Organizar exemplos de simples a complexos, como começar com uma instrução básica de programação de impressão antes de progredir para loops, ajuda o modelo a construir gradualmente o contexto, melhorando a compreensão e a qualidade da saída.
Finalmente, a formatação das instruções e o prompt da cadeia de pensamento aprimoram tarefas que exigem muito raciocínio, guiando explicitamente o modelo por meio de etapas intermediárias. Essa abordagem é especialmente útil em domínios como raciocínio aritmético ou lógico, em que um detalhamento como "Etapa 1: Subtraia 3 de 8 → Etapa 2: A resposta é 5" melhora a precisão em comparação com os formatos diretos de pergunta-resposta.
Detecção de anomalias: usando o aprendizado contextual, os LLMs podem receber alguns exemplos rotulados de atividade de rede normal e anômala. O modelo pode, então, classificar com precisão novas instâncias de tráfego como normais ou suspeitas, permitindo um monitoramento flexível e eficiente sem retreinamento extenso. Essa abordagem pode ser aplicada amplamente a várias tarefas de cibersegurança e gerenciamento de rede.
Por exemplo, um artigo de pesquisa apresentou um exemplo de aplicação de aprendizado contextual com LLMs, especificamente GPT-4, para detecção automática de intrusão de rede em ambientes sem fio.4 Em vez de métodos tradicionais que exigem dados rotulados extensos e ajustes dispendiosos, eles projetaram três abordagens de aprendizado contextual: ilustrativa, heurística e interativa. Esses métodos orientam o GPT-4 na identificação de tipos de ataques, fornecendo alguns exemplos rotulados nos prompts e incorporando perguntas específicas do domínio para melhorar a precisão. Testado em um conjunto de dados real com nove tipos de ataque de distributed denial-of-service (DDoS), os resultados mostraram melhorias no desempenho. Essas melhorias mostraram precisão e aumentos na pontuação F1 em cerca de 90%, com o GPT-4 alcançando mais de 95% com apenas 10 exemplos. Este exemplo demonstra como o aprendizado contextual permite que os LLMs se adaptem rapidamente e tenham um desempenho eficaz em cenários de cibersegurança do mundo real com o mínimo de dados de treinamento.
Processamento de linguagem natural (NLP) específico do domínio: o ICL permite que os LLMs tenham um bom desempenho em tarefas especializadas usando exemplos relevantes no prompt. Essa abordagem resolve o desafio das tarefas de processamento de linguagem natural (NLP) específicas do domínio, onde os dados rotulados podem ser escassos ou quando o ajuste fino é impraticável. Essa rota permite que o modelo se adapte e gere resultados precisos com base exclusivamente nas pistas contextuais fornecidas durante a inferência.
Um estudo demonstra que os LLMs podem analisar efetivamente relatórios de segurança da aviação por meio do ICL, lidando com desafios como escassez semântica e a necessidade de ajustes computacionalmente caros.5 O estudo usou o BM25 (um algoritmo de recuperação de informações usado para classificar documentos com base em sua relevância para uma consulta de pesquisa) para selecionar os exemplos mais relevantes para os prompts. O modelo melhorou significativamente sua precisão de classificação, alcançando até 80,24% de precisão e 84,15% de pontuação F1 com oito exemplos. Ao fornecer exemplos relevantes e de alta qualidade dentro do prompt, o modelo pode generalizar sua compreensão para classificar relatórios não vistos com precisão. Aumentar o número de exemplos bem escolhidos normalmente melhora o desempenho, pois o modelo ganha mais contexto e captura melhor os padrões subjacentes nos dados. Essa abordagem mostra que o ICL com a seleção de exemplos estratégicos permite que os LLMs entendam e classifiquem dados de aviação especializados de forma eficaz, fornecendo uma solução prática para tarefas de NLP específicas do domínio.
Análise de sentimento: o ICL permite que os LLMs analisem o sentimento ao fornecer algumas amostras de texto rotuladas (por exemplo, "Ótimo serviço → positivo", "Péssimo produto → negativo"). Quando recebe uma frase nova e não rotulada, o modelo pode inferir o sentimento com alta precisão. Essa abordagem agiliza tarefas de análise de dados da experiência do cliente, mineração de opinião e monitoramento da marca.
O aprendizado contextual representa uma mudança fundamental na forma como interagimos e extraímos inteligência de grandes modelos de linguagem. Isso permite que os modelos se adaptem dinamicamente a novas tarefas, usando descrições de tarefas e alguns exemplos. O ICL traz flexibilidade, eficiência e acessibilidade aos sistemas de IA. Ele preenche a lacuna entre modelos estáticos pré-treinados e necessidades dinâmicas do mundo real, permitindo que um único modelo execute uma ampla gama de tarefas simplesmente observando alguns exemplos. À medida que a pesquisa avança em algoritmos de aprendizado, estratégias de pré-treinamento, projeto de prompts e otimização de demonstração, o ICL está preparado para se tornar a pedra angular da IA de uso geral, abrindo caminho para sistemas mais adaptáveis, interpretáveis e escaláveis em todos os setores.
1. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... e Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
2. Xie, S. M., & Min, S. (2022). How does in-context learning work? A framework for understanding the differences from traditional supervised learning. A framework for understanding the differences from traditional supervised learning.
3. Dong, Q., Li, L., Dai, D., Zheng, C., Ma, J., Li, R., ... e Sui, Z. (2022). A survey on in-context learning. arXiv preprint arXiv:2301.00234.
4. Zhang, H., Sediq, A. B., Afana, A. e Erol-Kantarci, M. (2024). Large language models in wireless application design: In-context learning-enhanced automatic network intrusion detection. arXiv preprint arXiv:2405.11002.
5. Yang, Y., Shi, D., Zurada, J., e Guan, J. (setembro de 2024). Application of Large Language Model and In-Context Learning for Aviation Safety Prediction. Em 2024 17th International Conference on Advanced Computer Theory and Engineering (ICACTE) (pp. 361-365). IEEE.