Los modelos de embedding independientes pueden ser ofertas previamente entrenadas o pueden entrenarse desde cero en tareas específicas o datos de entrenamiento. Cada forma de datos suele obtener un beneficio de una arquitectura de redes neuronales específica, pero el uso de un algoritmo específico para una tarea específica suele ser una buena práctica más que una regla explícita.
En algunos escenarios, el proceso de embedding es una parte integrada de una red neuronal más grande. Por ejemplo, en las redes neuronales convolucionales (CNN) codificador-decodificador utilizadas para tareas como la segmentación de imágenes, el acto de optimizar la red completa para realizar predicciones precisas implica entrenar las capas del codificador para que generen embeddings vectoriales efectivos de las imágenes de entrada.
Modelos preentrenados
Para muchos casos de uso y campos de estudio, los modelos preentrenados pueden proporcionar incrustaciones útiles que pueden servir como entradas para modelos personalizados o bases de datos vectoriales. Estos modelos de código abierto suelen entrenarse con un conjunto masivo y amplio de datos de entrenamiento para aprender incrustaciones útiles para muchas tareas posteriores, como el aprendizaje few-shot o el aprendizaje zero-shot.
Para los datos de texto, los modelos básicos de incrustación de palabras de código abierto como Word2Vec de Google o Global Vectors (GloVe) de la Universidad de Stanford pueden entrenarse desde cero, pero también se ofrecen en variantes preentrenadas con datos de texto públicos como Wikipedia y Common Crawl. De la misma manera, los modelos de lenguaje de gran tamaño (LLM) codificador-decodificador que suelen utilizarse para las incrustaciones, como BERT y sus muchas variantes, se entrenan previamente con una gran cantidad de datos de texto.
Para las tareas de visión artificial, los modelos de clasificación de imágenes preentrenados, como ImageNet, ResNet o VGG, se pueden adaptar a las incrustaciones de salida simplemente eliminando su capa de predicción final y totalmente conectada.
Modelos de incrustación personalizados
Algunos casos de uso, en particular los que involucran conceptos poco comunes o nuevas clases de datos, se benefician de la afinación de modelos preentrenados o del entrenamiento de modelos de incrustación totalmente personalizados.
Los ámbitos jurídico y médico son ejemplos destacados de campos que a menudo dependen de vocabulario esotérico y altamente especializado, bases de conocimientos o imágenes que probablemente no se hayan incluido en los datos de entrenamiento de modelos más generalistas. Complementar el conocimiento básico de los modelos previamente entrenados a través de una formación adicional en ejemplos específicos del dominio puede ayudar a que el modelo genere incrustaciones más eficaces.
Aunque esto también puede lograrse diseñando una arquitectura de red neuronal a medida o entrenando una arquitectura conocida desde cero, hacerlo requiere recursos y conocimientos institucionales que podrían estar fuera del alcance de la mayoría de las organizaciones o aficionados.