Tempo de leitura
Engenharia de prompts, ajuste fino e geração aumentada de recuperação recuperação (RAG) são três métodos de otimização que as empresas podem usar para obter mais valor dos grandes modelos de linguagem (LLMs). Todos os três otimizam o comportamento do modelo, mas a escolha depende do caso de uso desejado e dos recursos disponíveis.
Os modelos de IA generativa são treinados em grandes quantidades de dados, grande parte dos quais é obtido na internet. Os desenvolvedores de inteligência artificial normalmente não têm acesso a dados de nicho, como dados proprietários e internos de uma empresa. Quando as organizações querem aplicar grandes modelos de linguagem (LLMs) para necessidades específicas, elas precisam ajustar a maneira como o modelo de IA generativa funciona, para produzir as saídas e comportamentos desejados.
Engenharia de prompts, RAG e ajuste fino ajudam a otimizar as saídas de um LLM para casos de uso desejados. Com eles, os cientistas de dados podem obter melhor desempenho downstream, maior precisão específica do domínio e saída que atenda a requisitos relevantes de formatação, linguagem ou regulatórios.
A diferença entre engenharia de prompts, RAG e ajuste fino abrange quatro áreas principais de distinção:
Abordagem
Objetivos
Requisitos de recursos
Aplicativos
A engenharia de prompts otimiza os prompts de entrada para direcionar um modelo em direção a melhores saídas. O ajuste fino dos LLMs os treina com conjuntos de dados específicos do domínio para aumentar o desempenho em tarefas downstream. A RAG conecta um LLM a um banco de dados e automatiza a recuperação de informações para aumentar os prompts com dados relevantes para maior precisão.
RAG, engenharia de prompts e ajuste fino têm o mesmo resultado amplo: melhorar o desempenho do modelo para maximizar o benefício para a empresa que o utiliza. Mas, mais especificamente, a engenharia de prompts deve levar um modelo a entregar os resultados que o usuário deseja. A RAG visa orientar um modelo para oferecer saídas mais relevantes e precisas.
Enquanto isso, um modelo com ajuste fino é retreinado em um conjunto focado de dados externos para melhorar o desempenho em casos de uso específicos. Os três métodos não são mutuamente exclusivos e geralmente são combinados para obter resultados ideais.
A engenharia de prompts é a menos demorada e que consome menos recursos das três técnicas de otimização. A engenharia de prompts básica pode ser feita manualmente, sem nenhum investimento em computação extra.
A RAG requer experiência em ciência de dados para organizar conjuntos de dados corporativos e construir os pipelines de dados que conectam LLMs a essas fontes de dados. O ajuste fino é indiscutivelmente o mais exigente, porque os processos de preparação e treinamento de dados são muito dispendiosos em termos de tempo e computação.
A engenharia de prompts é a mais flexível e se destaca em situações abertas, com uma variedade potencialmente diversificada de saídas, como ao pedir a um LLM para gerar conteúdo a partir do zero. O sucesso da geração de imagens, vídeos e textos prospera em prompts fortes.
O ajuste fino aprimora um modelo para um trabalho altamente focado — quando os cientistas de dados precisam de um modelo para fazer uma coisa muito bem. A RAG é uma solução ideal quando informações precisas, relevantes e atuais são fundamentais, como no caso de chatbots para atendimento ao cliente.
A engenharia de prompts oferece uma variedade de métodos para dar instruções explícitas aos modelos sobre como se comportar. Com diretrizes claras, o comportamento do modelo pode ser delineado com mais precisão, sem a necessidade de investir em sistemas de recuperação ou treinamento, que consomem muitos recursos.
A RAG conecta um LLM a dados proprietários em tempo real que, de outra forma, seriam inacessíveis a ele. Os modelos RAG conseguem gerar respostas mais precisas ao utilizar o contexto dos dados internos, algo que não seria possível sem eles.
Um modelo com ajuste fino normalmente supera o desempenho de seu modelo de base correspondente, como os da família GPT, ao aplicar seu treinamento com dados específicos do domínio. Com maior acesso ao conhecimento externo, um LLM com ajuste fino tem uma melhor compreensão do domínio específico e de sua terminologia.
A engenharia de prompts é o processo de criação de prompts eficazes que orientam um modelo em direção às saídas desejadas sem expandir sua base de conhecimento. O processo de engenharia de prompts não altera significativamente os parâmetros de um modelo pré-treinado.
O objetivo da engenharia de prompts é criar prompts que façam com que as saídas de um modelo atendam aos requisitos específicos do caso de uso pretendido. Mais treinamento e maior acesso a dados não podem compensar prompts de baixa qualidade.
A engenharia de prompts funciona ajustando a estrutura e o conteúdo dos prompts de entrada, com base nas saídas do modelo anterior. Com cada iteração, o engenheiro de prompts aprende como o modelo responde às entradas anteriores e, em seguida, usa esses resultados para informar a próxima entrada. O objetivo é modificar o comportamento do modelo por meio de instruções claras.
Uma boa engenharia de prompts baseia-se em prompts que dizem a um modelo de processamento de linguagem natural (NLP) exatamente o que fazer. O processo de engenharia de prompts envolve experimentar o conteúdo, a estrutura e a linguagem do prompt para descobrir o formato ideal que leva à saída necessária do modelo.
Compare um modelo de aprendizado de máquina com um aspirante a cozinheiro doméstico que quer preparar um ótimo jantar. A engenharia de prompts seria análoga a um amigo ou parente mais experiente que o ajudasse a planejar sua abordagem para a refeição. Com conselhos sólidos sobre o que fazer e como fazer, é mais provável que o cozinheiro caseiro ávido produza algo delicioso.
A RAG é um framework de arquitetura de dados que conecta um LLM a outros dados, como os dados proprietários de uma organização, frequentemente armazenados em data lakehouses. Os sistemas RAG adicionam dados relevantes aos prompts do LLM, para que o LLM possa gerar respostas mais precisas.
A geração aumentada de recuperação funciona localizando dados relevantes para a consulta do usuário e, em seguida, usando esses dados para criar prompts mais informativos. Um mecanismo de recuperação de informações é adicionado para aumentar os prompts do LLM e ajudá-lo a gerar respostas mais relevantes.
Os modelos RAG geram respostas por meio de um processo de quatro estágios:
Consulta: um usuário envia uma consulta, que inicializa o sistema RAG.
Recuperação de informações: algoritmos ou APIs complexos examinam os repositórios internos e externos de conhecimento em busca de informações relevantes.
Integração: os dados recuperados são combinados com a consulta do usuário e entregues ao modelo RAG para resposta. Até esse ponto, o LLM não processou a consulta.
Resposta: combinando os dados recuperados com seu próprio treinamento e conhecimento armazenado, o LLM gera uma resposta rica e precisa contextualmente.
Ao pesquisar documentos, os sistemas RAG usam pesquisa semântica. Os bancos de dados de vetores organizam dados por similaridade, permitindo pesquisas por significado em vez de por palavras-chave. As técnicas de pesquisa semântica permitem que algoritmos RAG consigam ir além das palavras-chave, captando a intenção da pergunta e retornando os dados mais pertinentes.
Os sistemas RAG demandam ampla elaboração e manutenção da arquitetura de dados. Os engenheiros de dados devem construir os pipelines de dados necessários para conectar os data lakehouses da organização com o LLM e usar o RAG. Os sistemas RAG também precisam de engenharia de prompts precisa para localizar os dados corretos e garantir que o LLM saiba o que fazer com eles.
Novamente, imagine um modelo de IA generativa como um cozinheiro doméstico amador. Ele conhece o básico da culinária, mas não têm as informações mais recentes e o conhecimento especializado de um chef treinado em uma determinada culinária. O RAG é como oferecer ao cozinheiro amador um livro de receitas daquela culinária. Ao combinar seu conhecimento geral de cozinha com as receitas do livro, o cozinheiro amador consegue preparar facilmente pratos específicos dessa culinária.
O ajuste fino é o processo de retreinar um modelo pré-treinado em um conjunto menor e mais específico de dados, dando a ele conhecimento especializado em um domínio. O modelo ajusta então seus parâmetros, que governam seu comportamento, e suas representações internas para se adequar melhor ao conjunto de dados específico.
O ajuste fino opera apresentando ao modelo um conjunto de dados com exemplos rotulados. O modelo aprimora seu treinamento inicial ao atualizar seus pesos com base nos novos dados. O ajuste fino é um método de aprendizado supervisionado, o que significa que os dados usados no treinamento são organizados e rotulados. Por outro lado, a maioria dos modelos de base utiliza o aprendizado não supervisionado, no qual os dados não estão classificados, e o modelo deve categorizá-los por conta própria.
Voltando a imaginar um modelo de IA generativa como um cozinheiro amador, o ajuste fino seria um curso de culinária especializado em uma determinada culinária. Antes de fazer o curso, o cozinheiro amador teria um entendimento geral dos fundamentos da cozinha. Mas, após receber treinamento culinário e adquirir conhecimento específico, ele seria muito mais proficiente em cozinhar aquele tipo de prato.
Os modelos podem receber um ajuste fino completo, atualizando todos os seus parâmetros, ou receber um ajuste fino de forma que apenas os parâmetros mais relevantes sejam atualizados. Este último processo é conhecido como ajuste fino com eficiência de parâmetros (PEFT) e é uma maneira econômica de tornar os modelos mais eficazes em um determinado domínio.
O ajuste fino de um modelo demanda muita capacidade computacional e precisa de várias GPUs poderosas funcionando simultaneamente, além da memória para armazenar o próprio LLM. O PEFT permite que usuários de LLM retreinarem seus modelos em hardwares mais simples, obtendo melhorias de desempenho similares no caso de uso desejado, como suporte ao cliente ou análise de sentimentos. O ajuste fino é especialmente eficaz em ajudar modelos a superar tendências, que são diferenças entre as previsões do modelo e os resultados reais.
O pré-treinamento ocorre no início do processo de treinamento. Os pesos ou parâmetros do modelo são inicializados aleatoriamente, e o modelo inicia o treinamento em seu conjunto de dados inicial. O pré-treinamento contínuo apresenta um modelo treinado a um novo conjunto de dados não rotulados, em uma prática conhecida como aprendizado por transferência. O modelo pré-treinado "transfere" o que aprendeu até agora para novas informações externas.
Por outro lado, o ajuste fino utiliza dados rotulados para aprimorar o desempenho do modelo em um caso de uso específico. O ajuste fino é excelente para aprimorar a habilidade do modelo em tarefas específicas, enquanto o pré-treinamento contínuo pode aprofundar o conhecimento do modelo em um domínio.
Aprenda como os CEOs podem equilibrar o valor que a IA generativa pode criar com o investimento que ela exige e os riscos que ela introduz.
Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.
Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.
Quer ter mais retorno sobre seus investimentos em IA? Saiba como o dimensionamento da IA generativa em áreas importantes promove mudanças, ajudando suas melhores mentes a criar e oferecer soluções novas e inovadoras.
Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.
O IBM® Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagens, código, séries temporais e proteções.
Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.
Aprofunde-se nos três elementos críticos de uma estratégia de IA forte: gerar vantagem competitiva, escalar a IA em toda a empresa e avançar na IA confiável.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.