O que são modelos de base?

O que são modelos de base?

Os modelos de base são modelos de inteligência artificial (IA) treinados em conjuntos de dados vastos e imensos e podem realizar uma ampla gama de tarefas gerais. Eles servem como base ou blocos de construção para a criação de aplicações mais especializadas.

Sua flexibilidade e tamanho enorme os diferenciam dos modelos tradicionais de aprendizado de máquina, que são treinados em conjuntos de dados menores para realizar tarefas específicas, como detecção de objetos ou forecasting. Os modelos de base, por sua vez, empregam o aprendizado por transferência para aplicar o conhecimento aprendido de uma tarefa em outra. Isso os torna adequados para domínios mais amplos, incluindo computer vision, processamento de linguagem natural (NLP) e reconhecimento de fala.

Pesquisadores do Center for Research on Foundation Models da Stanford University e do Institute for Human-Centered Artificial Intelligence cunharam o termo "modelo de base" em um artigo de 2021. Eles caracterizam esses modelos como uma "mudança de paradigma" e descrevem o raciocínio por trás de sua nomeação: "[Um] modelo de base é incompleto, mas serve como base comum a partir da qual muitos modelos específicos de tarefas são construídos por meio de adaptação. Também escolhemos o termo "base" para conotar a importância da estabilidade arquitetônica, segurança e proteção: fundações mal construídas são uma receita para o desastre e fundações bem executadas são uma base confiável para aplicações futuras."1

Como os modelos de base funcionam?

A criação de um modelo de base geralmente envolve uma série de etapas semelhantes ao desenvolvimento de um modelo convencional de aprendizado de máquina:

  1. Coleta de dados
  2. Escolha da modalidade
  3. Definição da arquitetura do modelo
  4. Treinamento
  5. Avaliação

1. Coleta de dados

A primeira etapa é reunir um enorme corpus de dados de diversas fontes. Esse amplo espectro de dados não rotulados e dados não estruturados permite que os modelos de base infiram padrões, reconheçam relacionamentos, discernam contexto e generalizem seus conhecimentos.

2. Escolha da modalidade

A modalidade refere-se ao tipo de dados que um modelo pode processar, incluindo áudio, imagens, código de software, texto e vídeo. Os modelos de base podem ser unimodais ou multimodais. Os modelos unimodais são projetados para lidar com um único tipo de dados, como receber entradas de texto e gerar saídas de texto. Os modelos multimodais podem combinar informações de várias modalidades, como pegar um prompt de texto e criar uma imagem ou produzir transcrições escritas a partir de uma gravação de voz.

3. Definição da arquitetura do modelo

Muitos modelos de base empregam uma arquitetura de deep learning, que usa redes neurais multicamadas para imitar o processo de tomada de decisão do cérebro humano.

Um tipo de modelo de deep learning conhecido como modelo de transformação tem sido a arquitetura preferida para modelos de base, especialmente aqueles para NLP, como a linha de modelos de transformadores pré-treinados generativos (GPT). Veja a seguir uma breve visão geral da arquitetura de transformação:

  • Os codificadores transformam sequências de entrada em representações numéricas, chamadas de embeddings, que capturam a semântica e a posição dos tokens na sequência de entrada.

  • Um mecanismo de autoatenção permite que os transformadores "concentrem sua atenção" nos tokens mais importantes na sequência de entrada, independentemente de sua posição.

  • Os decodificadores utilizam esse mecanismo de autoatenção e as incorporações dos codificadores para gerar a sequência de saída estatisticamente mais provável.

Os modelos de difusão são outra arquitetura implementada nos modelos de base. As rede neurais gradualmente "difundem" os dados de treinamento com ruído aleatório e, em seguida, aprendem a reverter esse processo de difusão para reconstruir os dados originais. Os modelos de difusão são usados principalmente em modelos de base de texto para imagem, como o Imagen do Google, o DALL-E da OpenAI (começando com o DALL-E 2) e o Stable Diffusion da Stability AI.

4. Treinamento

O treinamento normalmente envolve o aprendizado autossupervisionado, onde modelos de base aprendem correlações inerentes em dados não rotulados. Portanto, o treinamento ocorre em várias iterações, com os pesos do modelo ajustados para minimizar os erros de previsão e os hiperparâmetros ajustados, para encontrar as variáveis de configuração ideais para o treinamento. Os métodos de regularização também podem ser aplicados para corrigir o overfitting (quando um modelo se ajusta excessivamente ou até mesmo exatamente a seus dados de treinamento) e para melhorar a capacidade de generalização de um modelo de base.

5. Avaliação

O desempenho de um modelo de base pode ser validado usando benchmarks padronizados. Os resultados dessas avaliações podem informar novas melhorias ou otimizações de desempenho.

Adaptação de modelos de base

Desenvolver um modelo de base a partir do zero pode ser um processo caro, computacionalmente intensivo e demorado. É por isso que as empresas podem considerar a adaptação dos modelos de base existentes às suas necessidades específicas. Esses modelos podem ser acessados por meio de uma interface de programação de aplicativos (API) ou usando uma cópia local do modelo.

Aqui estão duas abordagens comuns de adaptação:

Ajuste fino

Durante o ajuste fino, um modelo de base pré-treinado adapta seu conhecimento geral a uma tarefa específica. Isso envolve treinamento adicional usando aprendizado supervisionado em um conjunto de dados menor, específico do domínio ou específico da tarefa, que inclui exemplos rotulados. Os parâmetros do modelo são atualizados para otimizar seu desempenho na tarefa.

Como o ajuste fino altera os parâmetros de um modelo, isso pode afetar o desempenho do modelo em outras tarefas. Criar um conjunto de dados rotulado também é um processo tedioso.

Prompts

Esse método envolve fornecer um prompt para personalizar um modelo de base para uma determinada tarefa. O prompt vem na forma de instruções relacionadas à tarefa ou exemplos relevantes para a tarefa que orientam um modelo, permitindo que obtenha contexto e gere uma saída plausível, uma capacidade conhecida como aprendizado no contexto.

Embora os prompts não exijam treinamento de um modelo ou alteração de seus parâmetros, pode ser necessário várias tentativas para obter o prompt correto que condiciona um modelo a entender o contexto e fazer previsões adequadas.

Casos de uso dos modelos de base

A adaptabilidade e a natureza de propósito geral dos modelos de base significam que eles podem ser implementados para diversas aplicações do mundo real: 

  • Visão computacional

  • Processamento de linguagem natural

  • Setor de saúde

  • Robótica

  • Geração de código de software

Visão computacional

Os modelos de base podem ser usados para gerar e classificar imagens e para detectar, identificar e descrever objetos. DALL-E, Imagen e Stable Diffusion são exemplos de modelos de base de texto para imagem.

Processamento de linguagem natural

Grandes modelos de linguagem (LLMs) são uma classe de modelos de base que se destacam em NLP e natural language understanding (NLU). Seus recursos incluem resposta a perguntas, sumarização de textos, transcrição, tradução e legendagem de vídeos, entre outros.

Aqui estão alguns modelos de base populares na área de NLP:

  • O BERT (Bidirectional Encoder Representations from Transformers) foi um dos primeiros modelos de base. Lançado pelo Google em 2018, esse sistema de IA de código aberto foi treinado apenas com um corpus de texto simples.2

  • O BLOOM é um modelo de linguagem multilíngue de acesso aberto treinado em 46 idiomas. É o resultado de um esforço colaborativo entre Hugging Face e BigScience, uma comunidade de pesquisadores de IA. 3

  • Claude é a família de modelos de base da Anthropic com raciocínio avançado e recursos de processamento multilíngue.

  • O GPT, modelo de base da OpenAI, é a base do ChatGPT, o chatbot de IA generativa da empresa. O GPT-3.5 alimenta a versão gratuita do ChatGPT, enquanto o GPT-4 está por trás da versão premium. A série GPT-4 também é o modelo de IA generativa compatível com o assistente de IA Copilot da Microsoft.

  • Granite é a série principal de modelos de base de LLMs da IBM®, baseada em arquitetura de transformação apenas de decodificador. O modelo de chat Granite 13b é otimizado para casos de uso de diálogo e funciona bem com aplicativos de agentes virtuais e chats. Já o modelo multilíngue Granite é treinado para entender e gerar texto em inglês, alemão, espanhol, francês e português.

  • PaLM 2 é o modelo de linguagem de última geração do Google com recursos aprimorados de raciocínio e multilíngue.

Saúde

Na área da saúde, os modelos de base podem ajudar em uma série de tarefas. Desde a criação de resumos de visitas de pacientes e a pesquisa na literatura médica até o resposta a perguntas de pacientes, associando pacientes a ensaios clínicos e facilitando a descoberta de medicamentos. O modelo de linguagem Med-PaLM 2, por exemplo, pode responder a perguntas médicas, e o Google está projetando uma versão multimodal que pode sintetizar informações de imagens médicas.4

Robótica

No domínio da robótica, os modelos de base podem ajudar os robôs a se adaptarem rapidamente a novos ambientes e a generalizarem várias tarefas, cenários e incorporações de máquinas. Por exemplo, o modelo de linguagem multimodal incorporado do PaLM-E transfere conhecimento da linguagem e dos domínios visuais do PaLM para a robótica e é treinado com dados de sensores do robô.5

Geração de código de software

Modelos de base podem ajudar a completar, depurar, explicar e gerar código em diferentes linguagens de programação. Esses modelos de base de texto para código incluem o Claude da Anthropic, o Codey e o PaLM 2 do Google e a família de modelos Granite Code da IBM treinados em 116 linguagens de programação.

Com tantas opções, como as organizações podem escolher o modelo de base certo para o desenvolvimento da IA? Veja a seguir um framework de seleção de modelos de IA em seis etapas que pode ajudar:

Benefícios dos modelos de base

Construir sobre modelos de base pode levar à automação e inovação para as empresas. Aqui estão outras vantagens que as empresas podem obter dos modelos de base:

Time to value e tempo para escalar acelerados: a adoção de modelos existentes elimina as fases de desenvolvimento e pré-treinamento, permitindo que as empresas personalizem e implementem modelos ajustados rapidamente.

Acesso aos dados: as organizações não precisam compilar grandes quantidades de dados para pré-treinamento que talvez não tenham meios de adquirir.

Precisão e desempenho da linha de base: os modelos de base já foram avaliados quanto à precisão e ao desempenho, oferecendo um ponto de partida de alta qualidade.

Custo reduzido: as empresas não precisarão gastar com os recursos necessários para criar um modelo de base desde o início.

Desafios dos modelos de base

Como outros modelos de IA, os modelos de base ainda enfrentam os riscos da IA. Esse é um fator a ser lembrado por empresas que consideram modelos de base como a tecnologia que sustenta seus fluxos de trabalho internos ou aplicações comerciais de IA.

Viés: um modelo pode aprender com o viés humano presente nos dados de treinamento, e esse viés pode se transferir para as saídas de modelos que receberam ajuste fino.

Custos computacionais: usar modelos de base ainda exige memória significativa, hardware avançado, como GPUs (unidades de processamento gráfico) e outros recursos computacionais para realizar ajuste fino, implementar e manter.

Privacidade de dados e propriedade intelectual: os modelos de base podem ser treinados com dados obtidos sem o consentimento ou conhecimento de seus proprietários. Tenha cuidado ao inserir dados em algoritmos para evitar violar os direitos autorais de outras pessoas ou expor informações comerciais de identificação pessoal ou proprietárias.

Custo ambiental: o treinamento e a execução de modelos de base em grande escala envolvem cálculos que consomem muita energia, o que contribui para o aumento das emissões de carbono e do consumo de água.

Alucinações: verificar os resultados dos modelos de base é essencial para garantir que eles estejam produzindo saídas factualmente corretas.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

AI Academy

Por que os modelos de base são uma mudança de paradigma para a IA

Aprenda sobre uma nova classe de modelos de IA flexíveis e reutilizáveis que podem liberar novas receitas, reduzir custos e aumentar a produtividade, e utilize o nosso guia para se aprofundar.

Soluções relacionadas
Modelos de base

Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa com confiança na sua empresa.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço da sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e as operações críticas adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor comercial.

Explore os serviços de IA
Dê o próximo passo

Explore a biblioteca da IBM de modelos de base no portfólio do IBM® watsonx para escalar a IA generativa para os seus negócios com confiança.

Explore o watsonx.ai Explore as soluções de IA
Notas de rodapé

1 On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models and Stanford Institute for Human-Centered Artificial Intelligence, 2021

2 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing, Google Research, 2 de novembro de 2018

3 BigScience Large Open-science Open-access Multilingual Language Model, Hugging Face, 6 de julho de 2022

4 Med-PaLM, Google Research, acessado em 8 de outubro de 2024

5 PaLM-E: An embodied multimodal language model, Google Research, 10 de março de 2023