O que é personalização do LLM?

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

O que é a personalização do LLM?

A personalização do LLM, ou personalização do grande modelo de linguagem, é o processo de adaptação de um LLM pré-treinado a tarefas específicas. O processo de personalização do LLM envolve a seleção de um modelo pré-treinado, também conhecido como modelo de base, e a adaptação do modelo ao caso de uso pretendido.

O fluxo de trabalho de personalização do LLM

O processo de criação de um LLM personalizado foi projetado para aplicar modelos generalizados a contextos mais específicos. Embora vários métodos de personalização do LLM estejam disponíveis, o processo geral tende a seguir uma série semelhante de etapas.

  1. Preparação de dados: o desempenho ideal do modelo depende de dados de treinamento sólidos. Os criadores de modelos e cientistas de dados devem coletar e montar um conjunto de dados de treinamento específico do domínio que seja relevante para a finalidade pretendida do modelo. Com uma base de conhecimento de dados de alta qualidade, as respostas do modelo têm mais probabilidade de ser precisas e úteis.
     

  2. Seleção do modelo: a lista de LLMs é tão extensa quanto variada. Os modelos de IA variam em tamanho, eficácia e uso de recursos computacionais e arquitetura, e tudo isso afeta o desempenho. A escolha do modelo certo requer uma compreensão tanto dos objetivos quanto das limitações do projeto de aprendizado de máquina.
     

  3. Personalização do modelo: aqui, especialistas em aprendizado de máquina transformam o modelo de base em uma ferramenta especializada. A saída do modelo será adaptada a tarefas específicas subsequentes. Os desenvolvedores devem entender o funcionamento do modelo de base e o método de personalização escolhido para otimizar com sucesso o comportamento do modelo.
     

  4. Iteração: os algoritmos de ML têm melhor desempenho quando treinados com processos passo a passo, em vez de fazer enormes ajustes. Os desenvolvedores podem medir o efeito da técnica de personalização em cada etapa e usar essas descobertas para informar a próxima iteração.
     

  5. Testes: após a conclusão do treinamento, mas antes do uso no mundo real, o modelo é testado para verificar se seu desempenho é confiável. Os desenvolvedores garantem que suas adaptações sejam eficazes e que o modelo aplique o conhecimento específico recém-obtido sem sofrer esquecimento catastrófico.
     

  6. Implementação do modelo: o modelo personalizado é implementado no ambiente de produção, como uma aplicação de software impulsionada por IA ou uma API, e disponibilizado para casos de uso específicos no mundo real.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Técnicas de personalização do LLM

Dependendo do caso de uso e da saída desejada, os desenvolvedores e especialistas em aprendizado de máquina escolhem entre uma variedade de métodos de personalização do LLM. Todos os tipos de personalização do LLM podem moldar o desempenho de um modelo de IA generativa (IA gen) para tarefas específicas subsequentes.

As técnicas de personalização do LLM incluem:

Geração aumentada de recuperação (RAG)

A geração aumentada de recuperação (RAG) conecta um LLM a uma fonte externa de dados para expandir sua base de conhecimento. Quando um usuário envia uma consulta, o sistema RAG pesquisa no banco de dados emparelhado em busca de informações relevantes e, em seguida, combina isso com a consulta para dar ao LLM mais contexto ao gerar uma resposta.

O RAG usa embeddings para transformar um banco de dados, código-fonte ou outras informações em um banco de dados de vetores pesquisável. Os embeddings plotam matematicamente cada ponto de dados em um espaço vetorial tridimensional. Para encontrar dados relevantes, o modelo de recuperação de informações em um sistema RAG converte as consultas do usuário em embeddings e localiza embeddings semelhantes no banco de dados de vetores.

Os sistemas RAG normalmente seguem a mesma sequência padrão:

  1. Prompting: o usuário envia um prompt na interface do usuário, como um chatbot impulsionado por IA.
     

  2. Consulta: um modelo de recuperação de informações converte o prompt em um embedding e consulta o banco de dados em busca de dados semelhantes.
     

  3. Recuperação: o modelo de recuperação recupera os dados relevantes do banco de dados.
     

  4. Geração: o sistema RAG combina os dados recuperados com a consulta do usuário e os envia ao LLM, que gera uma resposta.
     

  5. Entrega: o sistema RAG retorna a resposta gerada ao usuário.

O nome RAG se deve à forma como os sistemas RAG Recuperam dados relevantes e os utilizam para Aumentar a resposta Gerada pelo LLM. Sistemas RAG mais complexos introduzem componentes adicionais para refinar o processo e melhorar ainda mais a qualidade da resposta.

Benefícios do RAG

Conceder ao LLM acesso ao conhecimento específico do domínio permite que ele incorpore esses dados em seu processo de geração de respostas. Isso aumenta a exatidão e a confiabilidade das soluções de IA sem um investimento de custo muito significativo, especialmente se os dados externos já estiverem disponíveis e prontos para uso no aprendizado de máquina.

Por exemplo, um modelo RAG projetado para responder a perguntas pode dar respostas melhores quando for capaz de encontrar as respostas corretas em sua base de conhecimento vinculada.

Usar o RAG com modelos menores pode ajudá-los a ter um desempenho de nível superior. Pequenos modelos de linguagem (SLMs) oferecem requisitos computacionais mais baixos, tempos de treinamento mais rápidos e menos latência na inferência. A criação de um sistema RAG em torno de um SLM preserva esses benefícios e, ao mesmo tempo, aproveita a maior exatidão específica do contexto que o RAG oferece.

AI Academy

Por que os modelos de base são uma mudança de paradigma para a IA

Aprenda sobre uma nova classe de modelos de IA flexíveis e reutilizáveis que podem liberar novas receitas, reduzir custos e aumentar a produtividade, e utilize o nosso guia para se aprofundar.

Ajuste fino

O ajuste fino de um LLM envolve fazer ajustes iterativos nas configurações internas que orientam seu comportamento. Essas configurações são conhecidas como parâmetros ou pesos do modelo e controlam como o modelo processa e avalia os dados.

Durante o treinamento, o algoritmo de aprendizado de um modelo ajusta os parâmetros até que o desempenho ideal seja atingido. Nesse ponto, considera-se que o processo de treinamento foi concluído com sucesso.

LLMs avançados, especialmente transformadores como o GPT da OpenAI e o Llama 2 da Meta, podem ter bilhões de parâmetros. Como esses modelos são tão grandes, o ajuste fino completo costuma ser proibitivamente caro e demorado.

Métodos de ajuste fino mais sutis ajustam alguns dos parâmetros do modelo ou adicionam novos com o objetivo de preservar seu desempenho de treinamento e aumentar a proficiência com tarefas específicas.

Métodos de ajuste fino notáveis incluem:

Ajuste fino com eficiência de parâmetros (PEFT)

O PEFT congela a maioria dos parâmetros de um modelo pré-treinado e se concentra em ajustar aqueles que são mais relevantes para a nova tarefa. Ao fazê-lo, consome muito menos recursos computacionais do que um ajuste fino completo. O PEFT é um campo abrangente com muitas implementações.

Aprendizado por transferência

O aprendizado por transferência aproveita o conhecimento de um modelo pré-treinado para novas tarefas, aplicando o que ele já sabe a um novo contexto. Funciona melhor quando a nova tarefa está relacionada à tarefa original, como ao utilizar um classificador para reconhecer e classificar novas categorias ou tipos de objetos.

Neste exemplo, o tipo de aprendizado de transferência que está sendo aplicado é conhecido como aprendizado multitarefas, onde um modelo é ajustado com várias tarefas ao mesmo tempo. Aqui, essas novas tarefas são reconhecimento e classificação de objetos.

Adaptação de baixa classificação (LoRA)

A adaptação de baixa classificação (LoRA) é uma abordagem modular ao ajuste fino que adiciona parâmetros complementares a um modelo pré-treinado. A LoRA congela os parâmetros do modelo pré-treinado e adiciona um suplemento conhecido como matriz de baixa classificação, que adapta as respostas do modelo para atender aos requisitos de um caso de uso ou tarefa específico.

Imagine a LoRA como um conjunto de chapéus mágicos que permitem ao usuário realizar uma habilidade associada. Use o chapéu de chef mágico e prepare uma refeição de cinco estrelas. Use o capacete mágico e construa uma casa. Use o capacete de motociclista mágico e ganhe o TT da Ilha de Man. Pegue um chapéu de beisebol mágico e entre em uma sequência vitoriosa de jogos.

Aprendizado por reforço com feedback humano (RLHF)

O aprendizado por reforço com feedback humano (RLHF) usa um modelo de recompensa em parceria para ajuste fino de um modelo pré-treinado para tarefas complexas e subjetivas. Um modelo de ML não pode avaliar se um texto é evocativo, mas os seres humanos podem, e esses seres humanos podem ensinar um modelo a imitar suas preferências.

Com RLHF, os seres humanos treinam um modelo de recompensa para a nova tarefa. A função do modelo de recompensa é prever com sucesso como um ser humano reagiria a uma determinada entrada. Enquanto o treinamento do modelo padrão penaliza erros, o treinamento de recompensa incentiva o bom desempenho.

Então, o modelo de recompensa, por sua vez, ensina ao modelo de base como se comportar, com base nas preferências dos treinadores humanos. Depois que o modelo de recompensa é treinado, ele pode treinar o modelo de base sem um ser humano no circuito (HITL).

Como em todos os tipos de aprendizado de máquina, o modelo não está pensando criticamente, ou mesmo pensando. Em vez disso, está escolhendo matematicamente o resultado que tem maior probabilidade de corresponder às preferências de seus treinadores humanos.

Ajuste fino contínuo (CFT)

O ajuste fino contínuo (CFT) é um tipo de aprendizado contínuo que adapta sequencialmente um modelo a novas tarefas. Usando o ajuste de instruções (treinamento de um modelo usando pares rotulados de entradas instrucionais e saídas relacionadas), o modelo é adaptado a um conjunto de dados mais amplo para tarefas subsequentes. O CFT geralmente ensina os modelos a executar a mesma tarefa em diferentes distribuições de dados.

Um risco de todos os tipos de aprendizado contínuo é o esquecimento catastrófico: quando um modelo perde a capacidade de realizar tarefas antigas depois de ser adaptado para novas. Felizmente, os pesquisadores de ML desenvolveram várias técnicas de mitigação para ajudar os desenvolvedores a evitar o esquecimento catastrófico na busca pelo aprendizado contínuo.

Benefícios do ajuste fino

O ajuste fino adapta os modelos a novos casos de uso, evitando os custos de desenvolvimento de novos modelos. Muitos tipos de ajuste fino aumentam ainda mais a eficiência ajustando apenas um pequeno número de parâmetros. O ajuste fino também se destaca em situações em que não há dados suficientes para treinar um modelo a partir do zero.

Engenharia de prompts

Também conhecida como aprendizado em contexto ou aprendizado baseado em prompts, a engenharia de prompts inclui informações relevantes no prompt para ajudar o LLM a gerar respostas melhores. Durante a inferência (quando o modelo envia um prompt ao usuário), o usuário normalmente fornece instruções explícitas e exemplos a serem seguidos.

Por exemplo, um modelo que está sendo solicitado a realizar uma sumarização de texto pode se beneficiar de um prompt que mostra como formatar seu resumo — talvez como uma lista com marcadores. Prompts mais abrangentes ajudam o modelo a retornar o tipo de resposta que o usuário espera receber.

Os pesquisadores de deep learning desenvolveram inúmeros tipos de técnicas de engenharia de prompts. Alguns desenvolvimentos marcantes incluem:

  • Prompt few-shot: o modelo recebe um punhado de exemplos de saídas (conhecidas como shots) em relação às quais para modelar suas respostas. O modelo pode seguir os exemplos e basear sua resposta nos shots fornecidos pelo usuário no prompt.
     

  • Prompt da cadeia de ideais (CoT): o prompt inclui um método de raciocínio passo a passo para o modelo seguir. O modelo estrutura sua geração de respostas de acordo com a CoT fornecida pelo usuário. O prompt da CoT é uma técnica avançada que requer um entendimento prático de como os LLMs geram respostas.

Benefícios da engenharia de prompts

Ao contrário de muitas outras técnicas de personalização de LLMs, a engenharia de prompts não requer programação ou desenvolvimento adicionais. Em vez disso, os engenheiros de prompts devem ser bem versados no contexto em que o LLM deve ser implementado, para que possam criar prompts eficazes e informados.

Quando implementada corretamente, a engenharia de prompts é uma técnica valiosa de processamento de linguagem natural (NLP) que permite que qualquer pessoa (especialmente iniciantes em inteligência artificial (IA)) personalize LLMs. Juntamente com a ampla disponibilidade de LLMs de código aberto e ferramentas de IA de código aberto, a engenharia de prompts é um portal acessível para o aprendizado de máquina que recompensa a experimentação, a curiosidade e a persistência.

Soluções relacionadas
Modelos de base

Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa com confiança na sua empresa.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço da sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e as operações críticas adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor comercial.

Explore os serviços de IA
Dê o próximo passo

Explore a biblioteca da IBM de modelos de base no portfólio do IBM® watsonx para escalar a IA generativa para os seus negócios com confiança.

Explore o watsonx.ai Explore as soluções de IA