RAG vs. ajuste fino vs. engenharia de prompts

Autores

Staff writer

Staff Editor, AI Models

IBM Think

RAG versus ajuste fino versus engenharia de prompts

Engenharia de prompts, ajuste fino e geração aumentada de recuperação recuperação (RAG) são três métodos de otimização que as empresas podem usar para obter mais valor dos grandes modelos de linguagem (LLMs). Todos os três otimizam o comportamento do modelo, mas a escolha depende do caso de uso desejado e dos recursos disponíveis.

Os modelos de IA generativa são treinados em grandes quantidades de dados, grande parte dos quais é obtido na internet. Os desenvolvedores de inteligência artificial normalmente não têm acesso a dados de nicho, como dados proprietários e internos de uma empresa. Quando as organizações querem aplicar grandes modelos de linguagem (LLMs) para necessidades específicas, elas precisam ajustar a maneira como o modelo de IA generativa funciona, para produzir as saídas e comportamentos desejados.

Engenharia de prompts, RAG e ajuste fino ajudam a otimizar as saídas de um LLM para casos de uso desejados. Com eles, os cientistas de dados podem obter melhor desempenho downstream, maior precisão específica do domínio e saída que atenda a requisitos relevantes de formatação, linguagem ou regulatórios.

Boletim informativo do Think

Pense além dos prompts e tenha o contexto completo

Fique à frente das últimas notícias do setor, ferramentas de IA e tendências emergentes em engenharia de prompts com o boletim informativo Think. Além disso, tenha acesso a novas explicações, tutoriais e insights, entregues diretamente na sua caixa de entrada. Consulte a declaração de privacidade da IBM.

Qual é a diferença entre RAG, ajuste fino e engenharia de prompts?

A diferença entre engenharia de prompts, RAG e ajuste fino abrange quatro áreas principais de distinção:

Abordagem

Objetivos

Requisitos de recursos

Aplicativos

Abordagem

A engenharia de prompts otimiza os prompts de entrada para direcionar um modelo em direção a melhores saídas. O ajuste fino dos LLMs os treina com conjuntos de dados específicos do domínio para aumentar o desempenho em tarefas downstream. A RAG conecta um LLM a um banco de dados e automatiza a recuperação de informações para aumentar os prompts com dados relevantes para maior precisão.

Objetivos

RAG, engenharia de prompts e ajuste fino têm o mesmo resultado amplo: melhorar o desempenho do modelo para maximizar o benefício para a empresa que o utiliza. Mas, mais especificamente, a engenharia de prompts deve levar um modelo a entregar os resultados que o usuário deseja. A RAG visa orientar um modelo para oferecer saídas mais relevantes e precisas.

Enquanto isso, um modelo com ajuste fino é retreinado em um conjunto focado de dados externos para melhorar o desempenho em casos de uso específicos. Os três métodos não são mutuamente exclusivos e geralmente são combinados para obter resultados ideais.

Requisitos de recursos

A engenharia de prompts é a menos demorada e que consome menos recursos das três técnicas de otimização. A engenharia de prompts básica pode ser feita manualmente, sem nenhum investimento em computação extra.

A RAG requer experiência em ciência de dados para organizar conjuntos de dados corporativos e construir os pipelines de dados que conectam LLMs a essas fontes de dados. O ajuste fino é indiscutivelmente o mais exigente, porque os processos de preparação e treinamento de dados são muito dispendiosos em termos de tempo e computação.

Aplicações

A engenharia de prompts é a mais flexível e se destaca em situações abertas, com uma variedade potencialmente diversificada de saídas, como ao pedir a um LLM para gerar conteúdo a partir do zero. O sucesso da geração de imagens, vídeos e textos prospera em prompts fortes.

O ajuste fino aprimora um modelo para um trabalho altamente focado — quando os cientistas de dados precisam de um modelo para fazer uma coisa muito bem. A RAG é uma solução ideal quando informações precisas, relevantes e atuais são fundamentais, como no caso de chatbots para atendimento ao cliente.

AI Academy

Torne-se um especialista em IA

Adquira conhecimento para priorizar os investimentos em IA que estimulam o crescimento dos negócios. Comece a usar hoje mesmo a nossa AI Academy sem custo e lidere o futuro da IA na sua organização.

Assista à série

Por que a engenharia de prompts, a RAG e o ajuste fino são importantes?

A engenharia de prompts oferece uma variedade de métodos para dar instruções explícitas aos modelos sobre como se comportar. Com diretrizes claras, o comportamento do modelo pode ser delineado com mais precisão, sem a necessidade de investir em sistemas de recuperação ou treinamento, que consomem muitos recursos.

A RAG conecta um LLM a dados proprietários em tempo real que, de outra forma, seriam inacessíveis a ele. Os modelos RAG conseguem gerar respostas mais precisas ao utilizar o contexto dos dados internos, algo que não seria possível sem eles.

Um modelo com ajuste fino normalmente supera o desempenho de seu modelo de base correspondente, como os da família GPT, ao aplicar seu treinamento com dados específicos do domínio. Com maior acesso ao conhecimento externo, um LLM com ajuste fino tem uma melhor compreensão do domínio específico e de sua terminologia.

O que é engenharia de prompts?

A engenharia de prompts é o processo de criação de prompts eficazes que orientam um modelo em direção às saídas desejadas sem expandir sua base de conhecimento. O processo de engenharia de prompts não altera significativamente os parâmetros de um modelo pré-treinado.

O objetivo da engenharia de prompts é criar prompts que façam com que as saídas de um modelo atendam aos requisitos específicos do caso de uso pretendido. Mais treinamento e maior acesso a dados não podem compensar prompts de baixa qualidade.

Como a engenharia de prompts funciona?

A engenharia de prompts funciona ajustando a estrutura e o conteúdo dos prompts de entrada, com base nas saídas do modelo anterior. Com cada iteração, o engenheiro de prompts aprende como o modelo responde às entradas anteriores e, em seguida, usa esses resultados para informar a próxima entrada. O objetivo é modificar o comportamento do modelo por meio de instruções claras.

Uma boa engenharia de prompts baseia-se em prompts que dizem a um modelo de processamento de linguagem natural (NLP) exatamente o que fazer. O processo de engenharia de prompts envolve experimentar o conteúdo, a estrutura e a linguagem do prompt para descobrir o formato ideal que leva à saída necessária do modelo.

Compare um modelo de aprendizado de máquina com um aspirante a cozinheiro doméstico que quer preparar um ótimo jantar. A engenharia de prompts seria análoga a um amigo ou parente mais experiente que o ajudasse a planejar sua abordagem para a refeição. Com conselhos sólidos sobre o que fazer e como fazer, é mais provável que o cozinheiro caseiro ávido produza algo delicioso.

O que é geração aumentada de recuperação (RAG)?

A RAG é um framework de arquitetura de dados que conecta um LLM a outros dados, como os dados proprietários de uma organização, frequentemente armazenados em data lakehouses. Os sistemas RAG adicionam dados relevantes aos prompts do LLM, para que o LLM possa gerar respostas mais precisas.

Como a RAG funciona?

A geração aumentada de recuperação funciona localizando dados relevantes para a consulta do usuário e, em seguida, usando esses dados para criar prompts mais informativos. Um mecanismo de recuperação de informações é adicionado para aumentar os prompts do LLM e ajudá-lo a gerar respostas mais relevantes.

Os modelos RAG geram respostas por meio de um processo de quatro estágios:

Consulta: um usuário envia uma consulta, que inicializa o sistema RAG.
Recuperação de informações: algoritmos ou APIs complexos examinam os repositórios internos e externos de conhecimento em busca de informações relevantes.
Integração: os dados recuperados são combinados com a consulta do usuário e entregues ao modelo RAG para resposta. Até esse ponto, o LLM não processou a consulta.
Resposta: combinando os dados recuperados com seu próprio treinamento e conhecimento armazenado, o LLM gera uma resposta rica e precisa contextualmente.

Ao pesquisar documentos, os sistemas RAG usam pesquisa semântica. Os bancos de dados de vetores organizam dados por similaridade, permitindo pesquisas por significado em vez de por palavras-chave. As técnicas de pesquisa semântica permitem que algoritmos RAG consigam ir além das palavras-chave, captando a intenção da pergunta e retornando os dados mais pertinentes.

Os sistemas RAG demandam ampla elaboração e manutenção da arquitetura de dados. Os engenheiros de dados devem construir os pipelines de dados necessários para conectar os data lakehouses da organização com o LLM e usar o RAG. Os sistemas RAG também precisam de engenharia de prompts precisa para localizar os dados corretos e garantir que o LLM saiba o que fazer com eles.

Novamente, imagine um modelo de IA generativa como um cozinheiro doméstico amador. Ele conhece o básico da culinária, mas não têm as informações mais recentes e o conhecimento especializado de um chef treinado em uma determinada culinária. O RAG é como oferecer ao cozinheiro amador um livro de receitas daquela culinária. Ao combinar seu conhecimento geral de cozinha com as receitas do livro, o cozinheiro amador consegue preparar facilmente pratos específicos dessa culinária.

O que é ajuste fino?

O ajuste fino é o processo de retreinar um modelo pré-treinado em um conjunto menor e mais específico de dados, dando a ele conhecimento especializado em um domínio. O modelo ajusta então seus parâmetros, que governam seu comportamento, e suas representações internas para se adequar melhor ao conjunto de dados específico.

Como o ajuste fino funciona?

O ajuste fino opera apresentando ao modelo um conjunto de dados com exemplos rotulados. O modelo aprimora seu treinamento inicial ao atualizar seus pesos com base nos novos dados. O ajuste fino é um método de aprendizado supervisionado, o que significa que os dados usados no treinamento são organizados e rotulados. Por outro lado, a maioria dos modelos de base utiliza o aprendizado não supervisionado, no qual os dados não estão classificados, e o modelo deve categorizá-los por conta própria.

Voltando a imaginar um modelo de IA generativa como um cozinheiro amador, o ajuste fino seria um curso de culinária especializado em uma determinada culinária. Antes de fazer o curso, o cozinheiro amador teria um entendimento geral dos fundamentos da cozinha. Mas, após receber treinamento culinário e adquirir conhecimento específico, ele seria muito mais proficiente em cozinhar aquele tipo de prato.

Ajuste fino completo vs. ajuste fino com eficiência de parâmetros

Os modelos podem receber um ajuste fino completo, atualizando todos os seus parâmetros, ou receber um ajuste fino de forma que apenas os parâmetros mais relevantes sejam atualizados. Este último processo é conhecido como ajuste fino com eficiência de parâmetros (PEFT) e é uma maneira econômica de tornar os modelos mais eficazes em um determinado domínio.

O ajuste fino de um modelo demanda muita capacidade computacional e precisa de várias GPUs poderosas funcionando simultaneamente, além da memória para armazenar o próprio LLM. O PEFT permite que usuários de LLM retreinarem seus modelos em hardwares mais simples, obtendo melhorias de desempenho similares no caso de uso desejado, como suporte ao cliente ou análise de sentimentos. O ajuste fino é especialmente eficaz em ajudar modelos a superar tendências, que são diferenças entre as previsões do modelo e os resultados reais.

Comparação entre ajuste fino e pré-treinamento contínuo

O pré-treinamento ocorre no início do processo de treinamento. Os pesos ou parâmetros do modelo são inicializados aleatoriamente, e o modelo inicia o treinamento em seu conjunto de dados inicial. O pré-treinamento contínuo apresenta um modelo treinado a um novo conjunto de dados não rotulados, em uma prática conhecida como aprendizado por transferência. O modelo pré-treinado "transfere" o que aprendeu até agora para novas informações externas.

Por outro lado, o ajuste fino utiliza dados rotulados para aprimorar o desempenho do modelo em um caso de uso específico. O ajuste fino é excelente para aprimorar a habilidade do modelo em tarefas específicas, enquanto o pré-treinamento contínuo pode aprofundar o conhecimento do modelo em um domínio.

Como escolher o modelo de base certo

Aprenda como escolher a abordagem correta na preparação de conjuntos de dados e no emprego de modelos de base.

Recursos

Garantindo o ROI: agentes de IA em sua empresa

Participe do webinar da IBM no qual demonstramos como garantir o ROI real por meio de iniciativas de IA agêntica, com exemplos de setores, casos de uso e até mesmo as histórias de sucesso da própria IBM.

IBM reconhecida como líder em ciência de dados e aprendizado de máquina

Saiba por que a IBM foi reconhecida como líder no Gartner Magic Quadrant de 2025 para plataformas de ciência de dados e aprendizado de máquina.

De projetos de IA a lucros: como a IA agêntica pode sustentar retornos financeiros

Saiba como as organizações estão passando de lançamentos de IA em pilotos díspares para usá-la para impulsionar a transformação no núcleo.

Aumente o nível da sua experiência em IA

Acesse nosso catálogo completo com mais de 100 cursos on-line adquirindo uma assinatura individual ou para múltiplos usuários hoje, permitindo que você expanda suas habilidades em uma variedade de nossos produtos a um preço baixo.

Explore o IBM Granite

IBM® Granite é uma família de modelos de IA de código aberto, de alto desempenho e confiáveis, adaptados para negócios e otimizados para escalar suas aplicações de IA. Explore opções de linguagem, código, séries temporais e proteções.

IBM AI Academy

Liderada pelos principais líderes da IBM, o currículo dessa experiência foi desenvolvido para ajudar líderes empresariais a terem o conhecimento necessário para priorizar os investimentos em IA que podem estimular o crescimento.

IA em ação 2024

Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.

Guia do CEO para 2025: 5 mudanças de mentalidade para impulsionar o crescimento dos negócios

Adote essas cinco mudanças de mentalidade para acabar com a incerteza, estimular a reinvenção dos negócios e acelerar o crescimento com a IA agêntica.

Liberar o poder da IA generativa e do aprendizado de máquina

Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.

Como prosperar nesta nova era da IA com confiança e convicção

Aprofunde-se nos três elementos críticos de uma estratégia de IA sólida: criar uma vantagem competitiva, escalar a IA em todo o negócio e avançar na direção de uma IA confiável.

Soluções relacionadas

IBM® watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em menos tempo com menos dados.

Explore o watsonx.ai

Soluções de inteligência artificial

Coloque a IA em ação na sua empresa com a experiência em IA líder do setor e com o portfólio de soluções da IBM.

Explore as soluções de IA

Consultoria e serviços em inteligência artificial (IA)

Os serviços de IA da IBM Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformação.

Explore os serviços de IA

Dê o próximo passo

Ao utilizar a IA, o IBM Concert revela insights cruciais sobre suas operações e fornece recomendações específicas para cada aplicação com foco em melhorias. Descubra como o Concert pode impulsionar sua empresa.

Explorar Concert

Explore as soluções de automação de processos de negócios