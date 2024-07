Um bestimmte Aufgaben zu erfüllen, benötigen LLMs Zugriff auf bestimmte externe Datenquellen, die nicht in ihrem Trainingsdatensatz enthalten sind, wie z. B. interne Dokumente, E-Mails oder Datensätze. LangChain bezeichnet solche externe Dokumentation zusammenfassend als „Indexe“.

Dokumenten-Lader

LangChain bietet eine Vielzahl von Dokumentenladern für Anwendungen von Drittanbietern (Link befindet sich außerhalb von ibm.com). Dies ermöglicht das einfache Importieren von Daten aus Quellen wie Dateispeicherdiensten (wie Dropbox, Google Drive und Microsoft OneDrive), Webinhalten (wie YouTube, PubMed oder spezifische URLs), Kollaborationstools (wie Airtable, Trello, Figma und Notion), Datenbanken (wie Pandas, MongoDB und Microsoft) usw.

Vektordatenbanken

Im Gegensatz zu „herkömmlichen“ strukturierten Datenbanken stellen Vektordatenbanken Datenpunkte dar, indem sie sie in Vektoreinbettungen umwandeln: numerische Darstellungen in Form von Vektoren mit einer festen Anzahl von Dimensionen, die häufig verwandte Datenpunkte mithilfe unüberwachter Lernmethoden gruppieren. Dies ermöglicht Abfragen mit geringer Latenz, selbst für große Datensätze, was die Effizienz erheblich steigert. Vektor-Einbettungen speichern auch die Metadaten der einzelnen Vektoren, was die Suchmöglichkeiten weiter verbessert.

LangChain bietet Integrationen für über 25 verschiedene Einbettungsmethoden sowie für über 50 verschiedene Vektorspeicher (sowohl in der Cloud gehostet als auch lokal).

Textteiler

Um die Geschwindigkeit zu erhöhen und den Rechenaufwand zu reduzieren, ist es oft ratsam, große Textdokumente in kleinere Teile aufzuteilen. Die TextSplitter von LangChain teilen Text in kleine, semantisch bedeutsame Abschnitte auf, die dann mit Methoden und Parametern Ihrer Wahl kombiniert werden können.

Abruf

Sobald externe Wissensquellen angeschlossen sind, muss das Modell in der Lage sein, relevante Informationen schnell abzurufen und zu integrieren, wenn sie benötigt werden. Wie watsonx bietet LangChain Retrieval Augmented Generation (RAG): Die Retriever-Module akzeptieren eine Zeichenfolgenabfrage als Eingabe und geben eine Liste der Dokument-Ausgaben zurück.