I modelli di embedding autonomi possono essere offerte pre-addestrate o addestrate da zero su compiti specifici o dati di addestramento. Ogni forma di dati beneficia in genere di una specifica architettura di reti neurali, ma l'uso di un algoritmo specifico per un'attività specifica è spesso una best practice piuttosto che una regola esplicita.
In alcuni scenari, il processo di embedding è parte integrante di una rete neurale più ampia. Ad esempio, nelle reti neurali convoluzionali (CNN) encoder-decoder utilizzate per compiti come la segmentazione delle immagini, l'atto di ottimizzare l'intera rete per fare previsioni accurate implica addestrare gli strati dell'encoder a produrre embedding vettoriali efficaci delle immagini di input.
Modelli pre-addestrati
per molti casi d'uso e campi di studio, i modelli pre-addestrati possono fornire incorporamenti utili che possono fungere da input per modelli personalizzati o database vettoriali. Questi modelli open source sono in genere addestrati su un ampio e vasto set di dati di addestramento per apprendere incorporamenti utili per molti compiti a valle, come il few-shot learning o il zero-shot learning.
Per i dati di testo, i modelli di incorporamento di parole open source di base come Word2Vec di Google o Global Vectors (GLove) della Stanford University possono essere addestrati da zero, ma sono disponibili anche in versioni pre-addestrate su dati di testo pubblici come Wikipedia e Common Crawl. Allo stesso modo, i modelli linguistici di grandi dimensioni (LLM) encoder-decoder spesso utilizzati per gli incorporamenti, come BERT e le sue numerose varianti, sono pre-addestrati su un'enorme quantità di dati di testo.
Per le attività di computer vision, i modelli di classificazione delle immagini pre-addestrati come ImageNet, ResNet o VGG possono essere adattati agli incorporamenti di output semplicemente rimuovendo il loro ultimo strato di previsione completamente connesso.
Modelli di incorporamento personalizzati
Alcuni casi d'uso, in particolare quelli che coinvolgono concetti esoterici o nuove classi di dati, traggono vantaggio dalla messa a punto di modelli pre-addestrati o dall'addestramento di modelli di incorporamento completamente personalizzati.
I settori legale e medico sono esempi importanti di settori che spesso si basano su un vocabolario esoterico e altamente specializzato, su basi di conoscenza o su immagini che difficilmente sarebbero inclusi nei dati di addestramento di modelli più generici. Integrare la conoscenza di base dei modelli pre-addestrati con un ulteriore addestramento su esempi specifici del settore può aiutare il modello a produrre incorporamenti più efficaci.
Sebbene questo obiettivo possa essere raggiunto anche progettando un'architettura di rete neurale su misura o addestrando da zero un'architettura nota, farlo richiede risorse e conoscenze istituzionali che potrebbero essere fuori portata per la maggior parte delle organizzazioni o degli hobbisti.