O que é um modelo pré-treinado?

Um professor explicando um modelo para um grupo de alunos

Autor

Cole Stryker

Staff Editor, AI Models

IBM Think

Um modelo pré-treinado é um modelo de aprendizado de máquina que foi previamente treinado em um grande conjunto de dados para uma tarefa específica (geralmente de uso geral) e pode ser reutilizado ou ajustado para uma tarefa diferente, mas relacionada. Os modelos pré-treinados economizam tempo, dados e recursos computacionais das equipes de desenvolvimento em comparação com o treinamento de um modelo a partir do zero.

Exigindo amplos recursos, infraestrutura e conhecimento especializado, os modelos pré-treinados são normalmente criados por uma combinação de grandes empresas de tecnologia, instituições acadêmicas, organizações sem fins lucrativos e comunidades de código aberto. Em domínios como deep learning, onde os modelos exigem milhões de parâmetros, os modelos pré-treinados fornecem um ponto de partida que permite aos profissionais evitar “reinventar a roda” toda vez que criam uma aplicação de aprendizado de máquina.

O que é treinamento de modelos?

O treinamento de modelos “ensina” um modelo de aprendizado de máquina a otimizar o desempenho em um conjunto de dados de treinamento com exemplos de tarefas relevantes para eventuais casos de uso. Esses dados de treinamento devem se assemelhar a problemas do mundo real com os quais o modelo será encarregado, para que o modelo possa aprender os padrões e as relações dos dados a fim de fazer previsões precisas sobre novos dados.

Esse processo de aprendizado envolve ajustar os parâmetros de um modelo, os pesos e vieses nas funções matemáticas que compõem seus algoritmos de aprendizado de máquina subjacentes. Esses ajustes têm o objetivo de gerar saídas mais precisas.

Em termos matemáticos, o objetivo desse processo é minimizar uma função de perda, que quantifica o erro das produções do modelo. Quando a saída fica abaixo de um determinado limite, o modelo é considerado "treinado". No aprendizado por reforço, o objetivo é invertido: os parâmetros do modelo são otimizados para maximizar uma função de recompensa em vez de minimizar uma função de perda.

O treinamento do modelo envolve um ciclo de coleta e pré-processamento de dados, alimentando o modelo com esses dados de treinamento, medindo a perda, otimizando os parâmetros e testando o desempenho nos dados de validação. Esse fluxo de trabalho é repetido até que resultados satisfatórios sejam alcançados. O treinamento também pode envolver o ajuste de hiperparâmetros (escolhas estruturais que influenciam o processo de aprendizado, mas que não são "aprendíveis" em si), em um processo chamado ajuste de hiperparâmetros.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

O valor de um modelo pré-treinado

O benefício principal de um modelo pré-treinado é que, em vez de começar do zero, os desenvolvedores podem usar modelos que já aprenderam funcionalidades gerais (como estrutura de linguagem ou formas visuais) e realizar o ajuste fino deles em conjuntos de dados menores e específicos de domínio. O ajuste fino é um dos vários tipos de aprendizado por transferência, um termo genérico para técnicas que adaptam modelos pré-treinados para novos usos.

O uso de um modelo pré-treinado acelera o desenvolvimento e permite que entidades menores, como startups, que podem não ter acesso a computação, dados ou infraestrutura suficientes, experimentem modelos de última geração. É como comprar uma roupa pronta para usar e depois adaptá-la para se adequar ao corpo específico de quem a usará.

Usar modelos pré-treinados significa que os profissionais têm acesso a arquiteturas que já foram validadas, comparadas com benchmarks e testadas em cenários do mundo real. Isso diminui o risco e ajuda a garantir a confiabilidade. Os modelos pré-treinados populares vêm com uma extensa documentação, tutoriais e código que podem ser usados para adaptar modelos a projetos individuais.

Grandes modelos de linguagem (LLMs) pré-treinados estão sendo usados em inúmeras organizações para promover casos de uso de processamento de linguagem natural (NLP), como resposta a perguntas, análise de sentimento, segmentação semântica, IA generativa e muito mais. Essa longa lista de LLMs inclui muitas das opções mais populares. Outros modelos de IA são especializados em computer vision, como modelos de detecção de objetos e classificação de imagens.

Um dos primeiros e mais influentes recursos para modelos baseados em imagens é o ImageNet, um enorme conjunto de dados que se tornou o benchmark do setor para computer vision. Arquiteturas como ResNet e Inception, treinadas no ImageNet, são fundamentais nos fluxos de trabalho de computer vision. Esses modelos se destacam na extração de funcionalidade, identificando as bordas, texturas e formas que são úteis para classificar novas imagens.

AI Academy

Escolha o modelo de IA certo para seu caso de uso

Tamanho nem sempre é documento quando falamos de modelos de IA. Aprenda a encontrar a solução correta para suas necessidades de negócios. E, em seguida, use o guia como um auxílio para entrar em ação.

Onde encontrar modelos pré-treinados

Há vários hubs de modelos e bibliotecas onde as organizações hospedam modelos pré-treinados. Aqui estão alguns dos mais proeminentes:

  • O PyTorch Hub é um repositório de modelos pré-treinado projetado para facilitar a reprodutibilidade da pesquisa e simplificar o uso de modelos pré-treinados no ecossistema PyTorch do Python.

  • O TensorFlow Hub é um repositório de modelos treinados, prontos para ajuste fino e implementáveis em qualquer lugar. Modelos BERT e Faster R-CNN (redes neurais convolucionais) podem ser reutilizados com apenas algumas linhas de código.

  • O Hugging Face Models se concentra em NLPs e modelos de visão, fornecendo acesso a modelos de última geração como BERT, GPT e muitos mais, juntamente com ferramentas e tutoriais para inferência e treinamento. A família de modelos pré-treinados IBM Granite pode ser encontrada no Hugging Face. Esses modelos são abertos, eficientes e confiáveis, além de otimizados para casos de uso empresariais. O Granite inclui modelos para linguagem, visão, fala e séries temporais, entre outras aplicações.

  • O Kaggle é uma plataforma para ciência de dados e aprendizado de máquina, oferecendo um espaço para competições, conjuntos de dados e uma comunidade para colaboração e aprendizado.

  • O GitHub é uma plataforma de desenvolvimento proprietária que permite aos desenvolvedores criar, armazenar, gerenciar e compartilhar seu código. Muitos pesquisadores e empresas lançam modelos pré-treinados em repositórios aqui com código, pesos e documentação.

  • O NVIDIA NGC Catalog oferece modelos pré-treinados otimizados para aceleração de GPU, incluindo computer vision, geração de imagens médicas e IA da fala.

  • Os modelos da OpenAI fornecem seus modelos de transformação pré-treinados generativos, também conhecidos como GPT, como o chatbot ChatGPT, Codex e DALL-E, via API. O acesso é baseado na nuvem em vez de download direto, por meio de plataformas como o OpenAI API ou o Azure OpenAI.

  • O KerasHub é uma biblioteca de modelos pré-treinados que visa ser simples, flexível e rápida, fornecendo implementações do Keras 3 de arquiteturas populares.

Soluções relacionadas
Modelos de base

Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa em sua empresa com confiança.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Explore a biblioteca da IBM de modelos de base no portfólio do IBM® watsonx para escalar a IA generativa para os seus negócios com confiança.

Conheça o watsonx.ai Conheça os modelos de IA do IBM® Granite