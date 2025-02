Die Daten stammen aus vielen Quellen in vielen Formaten; ist es Aufgabe des Daten-Frameworks, die Daten für die Nutzung durch LLMs zu erfassen, zu transformieren und zu organisieren. Daten sind oft isoliert und unstrukturiert. Um sie zu erhalten und zu strukturieren, muss ein Daten-Framework wie LlamaIndex die Daten durch einen Prozess leiten, der allgemein als „Aufnahmepipeline“ bezeichnet wird.

Sobald die Daten erfasst und in ein für das LLM nutzbares Format umgewandelt wurden, besteht der nächste Schritt darin, die Informationen in eine Datenstruktur für die Indexierung umzuwandeln. Das übliche Verfahren ist die Umwandlung unstrukturierter Daten in Vektoreinbettungen. Dieser Prozess wird in der Verarbeitung natürlicher Sprache (NLP) als „Erstellung einer Einbettung“ bezeichnet, in der Datenterminologie aber als „Indexierung“ bezeichnet.1 Die Indexierung ist notwendig, weil sie es dem LLM ermöglicht, die aufgenommenen Daten über den Vektorindex abzufragen und abzurufen. Die Daten können entsprechend der gewählten Abfragestrategie indiziert werden.

Die Datenintegration erleichtert die Kontextvergrößerung durch die Integration privater Daten in das Kontextfenster oder die „Wissensdatenbank“ des LLM. Die Länge des Kontextfensters der IBM-Modelle Granite 3B und 8B wurde kürzlich auf 128.000 Zeichen erweitert.2 Ein größeres Kontextfenster ermöglicht es dem Modell, mehr Text in seinem Arbeitsspeicher zu behalten, wodurch es besser in der Lage ist, wichtige Details in längeren Gesprächen und Codebasen zu verfolgen. Diese Funktion ermöglicht es LLM-Chatbots, Antworten zu geben, die sowohl kurzfristig als auch in einem längeren Kontext kohärent sind.

Doch selbst bei einem erweiterten Kontextfenster kann ein fein abgestimmtes Modell sowohl bei der Schulung als auch bei der Inferenz erhebliche Kosten verursachen. Die Feinabstimmung von Modellen mit spezifischen oder privaten Daten erfordert Datentransformationen und Systeme, die effiziente Methoden zur Datenabfrage für das LLM-Prompting fördern. Die RAG-Methodik wird als vielversprechende Option angesehen, um die Modellierung von Langzeitsprachen zu erleichtern.3