Um modelo pré-treinado é um modelo de aprendizado de máquina que foi previamente treinado em um grande conjunto de dados para uma tarefa específica (geralmente de uso geral) e pode ser reutilizado ou ajustado para uma tarefa diferente, mas relacionada. Os modelos pré-treinados economizam tempo, dados e recursos computacionais das equipes de desenvolvimento em comparação com o treinamento de um modelo a partir do zero.
Exigindo amplos recursos, infraestrutura e conhecimento especializado, os modelos pré-treinados são normalmente criados por uma combinação de grandes empresas de tecnologia, instituições acadêmicas, organizações sem fins lucrativos e comunidades de código aberto. Em domínios como deep learning, onde os modelos exigem milhões de parâmetros, os modelos pré-treinados fornecem um ponto de partida que permite aos profissionais evitar “reinventar a roda” toda vez que criam uma aplicação de aprendizado de máquina.
O treinamento de modelos “ensina” um modelo de aprendizado de máquina a otimizar o desempenho em um conjunto de dados de treinamento com exemplos de tarefas relevantes para eventuais casos de uso. Esses dados de treinamento devem se assemelhar a problemas do mundo real com os quais o modelo será encarregado, para que o modelo possa aprender os padrões e as relações dos dados a fim de fazer previsões precisas sobre novos dados.
Esse processo de aprendizado envolve ajustar os parâmetros de um modelo, os pesos e vieses nas funções matemáticas que compõem seus algoritmos de aprendizado de máquina subjacentes. Esses ajustes têm o objetivo de gerar saídas mais precisas.
Em termos matemáticos, o objetivo desse processo é minimizar uma função de perda, que quantifica o erro das produções do modelo. Quando a saída fica abaixo de um determinado limite, o modelo é considerado "treinado". No aprendizado por reforço, o objetivo é invertido: os parâmetros do modelo são otimizados para maximizar uma função de recompensa em vez de minimizar uma função de perda.
O treinamento do modelo envolve um ciclo de coleta e pré-processamento de dados, alimentando o modelo com esses dados de treinamento, medindo a perda, otimizando os parâmetros e testando o desempenho nos dados de validação. Esse fluxo de trabalho é repetido até que resultados satisfatórios sejam alcançados. O treinamento também pode envolver o ajuste de hiperparâmetros (escolhas estruturais que influenciam o processo de aprendizado, mas que não são "aprendíveis" em si), em um processo chamado ajuste de hiperparâmetros.
Boletim informativo do setor
Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.
Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.
O benefício principal de um modelo pré-treinado é que, em vez de começar do zero, os desenvolvedores podem usar modelos que já aprenderam funcionalidades gerais (como estrutura de linguagem ou formas visuais) e realizar o ajuste fino deles em conjuntos de dados menores e específicos de domínio. O ajuste fino é um dos vários tipos de aprendizado por transferência, um termo genérico para técnicas que adaptam modelos pré-treinados para novos usos.
O uso de um modelo pré-treinado acelera o desenvolvimento e permite que entidades menores, como startups, que podem não ter acesso a computação, dados ou infraestrutura suficientes, experimentem modelos de última geração. É como comprar uma roupa pronta para usar e depois adaptá-la para se adequar ao corpo específico de quem a usará.
Usar modelos pré-treinados significa que os profissionais têm acesso a arquiteturas que já foram validadas, comparadas com benchmarks e testadas em cenários do mundo real. Isso diminui o risco e ajuda a garantir a confiabilidade. Os modelos pré-treinados populares vêm com uma extensa documentação, tutoriais e código que podem ser usados para adaptar modelos a projetos individuais.
Grandes modelos de linguagem (LLMs) pré-treinados estão sendo usados em inúmeras organizações para promover casos de uso de processamento de linguagem natural (NLP), como resposta a perguntas, análise de sentimento, segmentação semântica, IA generativa e muito mais. Essa longa lista de LLMs inclui muitas das opções mais populares. Outros modelos de IA são especializados em computer vision, como modelos de detecção de objetos e classificação de imagens.
Um dos primeiros e mais influentes recursos para modelos baseados em imagens é o ImageNet, um enorme conjunto de dados que se tornou o benchmark do setor para computer vision. Arquiteturas como ResNet e Inception, treinadas no ImageNet, são fundamentais nos fluxos de trabalho de computer vision. Esses modelos se destacam na extração de funcionalidade, identificando as bordas, texturas e formas que são úteis para classificar novas imagens.
Há vários hubs de modelos e bibliotecas onde as organizações hospedam modelos pré-treinados. Aqui estão alguns dos mais proeminentes:
O PyTorch Hub é um repositório de modelos pré-treinado projetado para facilitar a reprodutibilidade da pesquisa e simplificar o uso de modelos pré-treinados no ecossistema PyTorch do Python.
O TensorFlow Hub é um repositório de modelos treinados, prontos para ajuste fino e implementáveis em qualquer lugar. Modelos BERT e Faster R-CNN (redes neurais convolucionais) podem ser reutilizados com apenas algumas linhas de código.
O Hugging Face Models se concentra em NLPs e modelos de visão, fornecendo acesso a modelos de última geração como BERT, GPT e muitos mais, juntamente com ferramentas e tutoriais para inferência e treinamento. A família de modelos pré-treinados IBM Granite pode ser encontrada no Hugging Face. Esses modelos são abertos, eficientes e confiáveis, além de otimizados para casos de uso empresariais. O Granite inclui modelos para linguagem, visão, fala e séries temporais, entre outras aplicações.
O GitHub é uma plataforma de desenvolvimento proprietária que permite aos desenvolvedores criar, armazenar, gerenciar e compartilhar seu código. Muitos pesquisadores e empresas lançam modelos pré-treinados em repositórios aqui com código, pesos e documentação.
O NVIDIA NGC Catalog oferece modelos pré-treinados otimizados para aceleração de GPU, incluindo computer vision, geração de imagens médicas e IA da fala.
Os modelos da OpenAI fornecem seus modelos de transformação pré-treinados generativos, também conhecidos como GPT, como o chatbot ChatGPT, Codex e DALL-E, via API. O acesso é baseado na nuvem em vez de download direto, por meio de plataformas como o OpenAI API ou o Azure OpenAI.
O KerasHub é uma biblioteca de modelos pré-treinados que visa ser simples, flexível e rápida, fornecendo implementações do Keras 3 de arquiteturas populares.
Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa em sua empresa com confiança.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.