Los modelos de incrustación independientes pueden ser ofertas preentrenadas o entrenadas desde cero en tareas específicas o datos de entrenamiento. Cada forma de datos suele obtener un beneficio de una arquitectura de Neural Networks específica, pero el uso de un algoritmo específico para una tarea específica suele ser una mejores prácticas en lugar de una regla explícita.
En algunos escenarios, el proceso de incorporación es una parte integrada de una Neural Networks más grande. Por ejemplo, en las redes neuronales convolucionales (CNN) codificador-decodificador utilizadas para tareas, como la segmentación de imágenes, el acto de optimizar toda la red para hacer predicciones precisas implica entrenar las capas codificadoras para generar incrustaciones de vectores efectivas de imágenes de entrada.
Modelos preentrenados
Para muchos casos de uso y campos de estudio, los modelos preentrenados pueden proporcionar incrustaciones útiles que pueden servir como entradas para modelos personalizados o bases de datos vectoriales. Estos modelos de código abierto suelen estar entrenados con un conjunto masivo y amplio de datos de entrenamiento para aprender incrustaciones útiles para muchas tareas posteriores, como el few-shot learning o el zero-shot learning.
Para los datos de texto, los modelos básicos de incrustación de palabras de código abierto, como Word2Vec de Google o Global Vectors (GloVe) de la Universidad de Stanford, se pueden entrenar desde cero, pero también se ofrecen en variantes previamente entrenadas con datos de texto públicos, como Wikipedia y Common Crawl. Del mismo modo, los modelos de lenguaje grandes (LLM) de codificador-decodificador, comúnmente utilizados para incrustaciones, como BERT y sus muchas variantes, se entrenan previamente con una gran cantidad de datos de texto.
Para las tareas de visión artificial, los modelos de clasificación de imágenes previamente entrenados (como ImageNet, ResNet o VGG), se pueden adaptar a las incrustaciones de salida simplemente al eliminar su capa de predicción final y totalmente conectada.
Modelos de incrustación personalizados
Ciertos casos de uso, especialmente los que involucran conceptos poco comunes o clases novedosas de datos, se benefician del ajuste de los modelos previamente entrenados o del entrenamiento de modelos de incrustación totalmente personalizados.
Los dominios legal y médico son ejemplos destacados de campos que a menudo se basan en vocabulario esotérico y altamente especializado, bases de conocimiento o imágenes que probablemente no se han incluido en los datos de entrenamiento de modelos más generalistas. Complementar la base de conocimientos de los modelos preentrenados a través de un entrenamiento adicional en ejemplos específicos del dominio puede ayudar a que el modelo genere incrustaciones más efectivas.
Si bien esto también se puede lograr mediante el diseño de una arquitectura de red neuronal a la medida o el entrenamiento de una arquitectura conocida desde cero, hacerlo requiere recursos y conocimientos institucionales que podrían estar fuera del alcance de la mayoría de las organizaciones o aficionados.