Per svolgere determinati compiti, gli LLM dovranno accedere a specifiche fonti di dati esterne non incluse nel set di dati della sua formazione, come documenti, e-mail o set di dati interni. LangChain si riferisce collettivamente a questa documentazione esterna con il termine di indici.

Caricatori di documenti

LangChain offre un'ampia gamma di caricatori di documenti per applicazioni di terze parti (link esterno a ibm.com). Ciò consente di importare facilmente i dati da fonti come, tra le tante, servizi di archiviazione file (come Dropbox, Google Drive e Microsoft OneDrive), contenuti web (come YouTube, PubMed o URL specifici), strumenti di collaborazione (come Airtable, Trello, Figma e Notion) e database (come Pandas, MongoDB e Microsoft).

Database vettoriali

A differenza dei tradizionali database strutturati, i database vettoriali rappresentano i punti dati e li convertono in incorporamenti vettoriali: rappresentazioni numeriche sotto forma di vettori con un numero fisso di dimensioni, che spesso raggruppano punti dati correlati utilizzando metodi di apprendimento non supervisionati. Ciò consente query a bassa latenza, anche per set di dati di grandi dimensioni, il che aumenta notevolmente l'efficienza. Gli incorporamenti vettoriali memorizzano anche i metadati di ogni vettore, migliorando ulteriormente le possibilità di ricerca.

LangChain fornisce integrazioni per oltre 25 metodi di incorporamento diversi e anche per più di 50 archivi vettoriali differenti (su cloud e locali).

Divisori di testo

Per aumentare la velocità e ridurre le esigenze di calcolo, spesso è consigliabile suddividere i documenti di testo di grandi dimensioni in parti più piccole. I TextSplitter di LangChain suddividono il testo in piccoli blocchi significativi dal punto di vista semantico, che possono quindi essere combinati usando metodi e parametri scelti da te.

Recupero

Dopo aver collegato le fonti esterne di conoscenza, il modello deve essere in grado di recuperare e integrare rapidamente le informazioni rilevanti all'occorrenza.Come watsonx, LangChain offre la retrieval augmented generation (RAG): i suoi moduli di recupero accettano una query string come input e restituiscono un elenco di documenti come output.