Modelos de embeddings independentes podem ser pré-treinados ou treinados a partir do zero em tarefas ou dados de treinamento específicos. Cada forma de dados normalmente se beneficia de uma arquitetura de redes neurais específica, mas o uso de um algoritmo específico para uma tarefa específica costuma ser uma "melhor práticas" em vez de uma regra explícita.
Em alguns cenários, o processo de embedding é parte integrante de uma rede neural maior. Por exemplo, em redes neurais convolucionais (CNNs) do tipo codificador-decodificador, utilizadas em tarefas como segmentação de imagens, otimizar toda a rede para gerar previsões precisas exige treinar as camadas do codificador para produzir embeddings vetoriais eficazes das imagens de entrada.
Modelos pré-treinados
Para muitos casos de uso e campos de estudo, modelos pré-treinados oferecem integrações úteis que podem ser usadas como entradas para modelos personalizados ou bancos de dados de vetores. Esses modelos de código aberto geralmente são treinados em um conjunto massivo e diversificado de dados para aprender integrações úteis para muitas tarefas subsequentes, como aprendizado com poucos exemplos ou aprendizado sem exemplos.
Para dados textuais, modelos básicos de integração de palavras de código aberto, como o Word2Vec do Google ou os Global Vectors (GloVe) da Universidade de Stanford, podem ser treinados do zero, mas também são disponibilizados em variantes pré-treinadas com dados públicos, como Wikipedia e Common Crawl. Da mesma forma, grandes modelos de linguagem (LLMs) do tipo codificador-decodificador, frequentemente utilizados para integrações, como o BERT e suas diversas variantes, são pré-treinados com uma enorme quantidade de dados textuais.
Para tarefas de visão computacional, modelos pré-treinados de classificação de imagens, como ImageNet, ResNet ou VGG, podem ser adaptados para produzir embeddings simplesmente removendo sua camada final de predição totalmente conectada.
Modelos de integração personalizados
Alguns casos de uso, especialmente aqueles que envolvem conceitos complexos ou novas categorias de dados, se beneficiam do ajuste fino de modelos pré-treinados ou do treinamento de modelos de integração totalmente personalizados.
Os domínios jurídico e médico são exemplos proeminentes de campos que frequentemente dependem de vocabulário, bases de conhecimento ou imagens difíceis e altamente especializadas que provavelmente não foram incluídas nos dados de treinamento de modelos mais generalistas. Complementar o conhecimento base de modelos pré-treinados através de treinamento adicional em exemplos específicos do domínio pode ajudar o modelo a produzir embeddings mais eficazes.
Embora isso também possa ser alcançado projetando uma arquitetura de rede neural personalizada ou treinando uma arquitetura conhecida do zero, fazê-lo requer recursos e conhecimento institucional que podem estar fora do alcance da maioria das organizações ou entusiastas.