Was ist LLM-Orchestrierung?

Autoren

AI Advocate & Technology Writer

Data Scientist

LLM-Orchestrierung hilft bei der Abfrage, Verkettung, Verwaltung und Überwachung großer Sprachmodelle (LLMs). Die LLM-Orchestrierung wird durch Orchestrierungs-Frameworks gesteuert. Diese Frameworks sind umfassende Tools, die die Erstellung und Verwaltung LLM-basierter Anwendungen optimieren.

LLMOps verwenden Orchestrierung in einer Vielzahl von Anwendungen wie natürliche Sprachgenerierung, maschinelle Übersetzung, Entscheidungsfindung und Chatbots. Da Unternehmen künstliche Intelligenz einsetzen, um diese Art von generativen KI-Anwendungen (Gen AI) zu erstellen, ist eine effiziente LLM-Orchestrierung von entscheidender Bedeutung.

So mächtig das Foundation Model eines LLM auch ist, sind LLM in ihren eigenen Möglichkeiten begrenzt. Zum Beispiel fehlt es LLM an der Fähigkeit, Informationen in Echtzeit zu behalten oder zu erlernen, und sie haben Schwierigkeiten, mehrstufige Probleme zu lösen, weil sie nur begrenzt in der Lage sind, Zusammenhänge zu erfassen.¹ Darüber hinaus kann die Koordination zahlreicher LLM schnell komplex werden, wenn man sich mit den verschiedenen Anwendungsprogrammierschnittstellen (APIs) der LLM-Anbieter auseinandersetzt.

LLM-Orchestrierungs-Frameworks gleichen diese Einschränkungen aus, indem sie die komplexen Prozesse der Integration von Prompt Engineering, API-Interaktion, Datenabruf und Zustandsmanagement in Konversationen mit Sprachmodellen vereinfachen.²

Es werden neue LLM-Orchestrierungs-Frameworks entwickelt und werden immer beliebter. Einige LLM-Orchestrationen sind auf Konfigurations- oder Datenbank-Frameworks spezialisiert, während andere KI-Agenten zur Zusammenarbeit bei der Erfüllung von Aufgaben oder Zielen einsetzen.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

So funktionieren LLM-Orchestrierungs-Frameworks

Um zu verstehen, wie LLM-Orchestrierungs-Frameworks funktionieren, ist es hilfreich zu wissen, wo die Orchestrierung innerhalb der Architektur von LLM-gesteuerten Anwendungen liegt.

Die Orchestrierungsschicht

Die Orchestrierungsschicht ist das Rückgrat des LLM-App-Stack. Der Orchestrator erstellt einen kohärenten Workflow, indem er die Interaktionen zwischen den anderen Ebenen der Anwendungsarchitektur verwaltet.³ Ähnlich wie ein Dirigent eines Orchesters, delegiert und verwaltet der LLM-Orchestrator den Workflow jeder technischen Komponente auf der Grundlage der Zusammensetzung der Anwendung.

Diese Komponenten umfassen die Interaktion zwischen LLMs, Prompt-Vorlagen, Vektordatenbanken und Agenten.⁴Die Orchestrierung stellt sicher, dass jede Komponente einer generativen KI-Anwendung kohärent funktioniert, indem sie Tools und Mechanismen bereitstellt, um den Lebenszyklus von LLMs innerhalb verschiedener Anwendungen und Umgebungen effektiv zu verwalten.

Orchestrierungsaufgaben

Frameworks vereinfachen komplexe Aufgaben wie das Verketten von Prompts, die Verknüpfung mit externen APIs, das Abrufen von Kontextdaten aus Vektordatenbanken und die Speicherverwaltung über mehrere LLM-Interaktionen hinweg. Hier finden Sie eine allgemeine Übersicht über die operativen Aufgaben, die in der Regel bei LLM-Orchestrierungen anfallen:

Prompt-Chain-Management

Prompt Engineering ist die Praxis, LLM-Eingaben (Prompts) so zu strukturieren, dass generative KI-Tools optimierte Ausgaben produzieren. Frameworks bieten Prompt-Vorlagen, die Anweisungen, einige Beispielversuche und spezifischen Kontext sowie für eine Aufgabe geeignete Fragen enthalten.⁵

Verkettung bezieht sich auf eine Abfolge von Aufrufen, die mehrere LLMs verbinden, um ihre Ausgabe zu kombinieren, um nuanciertere Ergebnisse (auch als Prompt Chaining bezeichnet), ein Tool oder einen Schritt der Datenvorverarbeitung zu erzielen.⁶

Die Orchestrierungsschicht verwaltet diese Aufforderungsaufgaben, indem sie Aufforderungen in einer Wissensdatenbank oder -bibliothek speichert, wo sie leicht durchsucht und abgerufen werden können. Der Orchestrator kann Prompts dynamisch aus der Bibliothek auswählen, basierend auf Echtzeit-Eingaben, Kontext oder Benutzerpräferenzen. Darüber hinaus kann er die Prompts in einer logischen Reihenfolge anordnen, um den Gesprächsfluss zu steuern.

LLMs fehlt die inhärente Fähigkeit, kontinuierlich zu lernen und sie sind in ihrem kontextuellen Verständnis begrenzt. Durch die Verwaltung von Prompts verfeinert der Orchestrator die Ausgaben durch die Auswertung der Antworten.

LLMs sind auch nicht in der Lage, Fakten selbst zu überprüfen, was zu Halluzinationen führt, wenn sie nicht behandelt werden. Der Orchestrator kann die Antworten auf ihre Richtigkeit überprüfen und sicherstellen, dass sie den benutzerdefinierten Richtlinien entsprechen. Wenn eine Antwort unzureichend ist, kann der Orchestrator sie zur Überprüfung durch einen Menschen kennzeichnen oder alternative Vorschläge machen, sodass das LLM effektiv lernen und sich verbessern kann.⁷

Verwaltung von LLM-Ressourcen und -Leistung

Die meisten LLM-Orchestrierungs-Frameworks enthalten eine Form von LLMOps zur Betriebsüberwachung. Zu diesen Funktionen gehört die Erfassung von Leistungsmetriken basierend auf LLM-Benchmark-Tests. Diese Metriken können über Dashboards beobachtet werden, die es Benutzern ermöglichen, in Echtzeit mit den LLM-Metriken Schritt zu halten.

Zu den weiteren Ressourcen gehören Diagnosetools zur Ursachenanalyse (RCA), die den Zeitaufwand für die Fehlerbehebung verkürzen.

Datenverwaltung und -vorverarbeitung

Der Orchestrator erleichtert den Datenzugriff und die Datenabfrage aus identifizierten Quellen durch die Verwendung geeigneter Konnektoren oder APIs. Die Vorverarbeitung bezieht sich auf die Umwandlung von „Rohdaten“ aus verschiedenen Quellen in ein für das LLM geeignetes Format. Je größer eine Datensammlung ist, desto ausgefeilter muss der Datenmechanismus sein, der sie analysiert. Die Vorverarbeitung stellt sicher, dass die Daten an die Anforderungen jedes Data-Mining-Algorithmus angepasst werden.⁸ Orchestratoren können die Vorverarbeitung erleichtern, indem sie die Daten anpassen und verfeinern, um sie wertvoller zu machen.

LLM-Integration und Interaktion

Der Orchestrator startet das LLM, um die ihm zugewiesene Aufgabe auszuführen. Sobald die Verarbeitung abgeschlossen ist, empfängt der Orchestrator die Modellausgabe und integriert alle Feedbackmechanismen, um die Gesamtqualität zu bewerten und an das entsprechende Ziel zu liefern.

Der Orchestrator enthält Speicher, die als Wissensdatenbank dienen, um die LLM-Ausgaben und -Interaktionen zu verbessern und ein kontextbezogenes Verständnis zu ermöglichen. Durch die Bearbeitung und Speicherung früherer Nachrichten oder Eingaben sammelt der Orchestrator langfristiges Wissen an, das auf der Grundlage früherer Interaktionen genauere Antworten liefert.⁹

Der Orchestrator ist dafür verantwortlich, die Implementierung von LLM Observability-Funktionen und Guard-Railing-Frameworks zu erleichtern. Aus der Sicht von LLMOps besteht bei LLMs, die ohne diese Funktionen laufen, die Gefahr, dass sie falsche Ergebnisse ausgeben und Sicherheitsrisiken eingehen, die auf den begrenzten Funktionen von LLMs basieren, die nicht hochgradig abgestimmt sind.

AI Academy

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Erfahren Sie mehr über eine neue Klasse flexibler, wiederverwendbarer KI-Modelle, die neue Einnahmen erschließen, Kosten senken und die Produktivität steigern können. Dann nutzen Sie unseren Leitfaden, um mehr zu erfahren.

Zur Episode wechseln

Vorteile der LLM-Orchestrierung

LLM-Orchestrierungsframeworks bieten die erforderliche Verwaltung und Optimierung zum Rationalisieren von LLM-Interaktionen und -Workflows, um LLMOps zu verbessern.

Skalierbarkeit: Optimale Nutzung der Ressourcen durch die Möglichkeit, je nach Bedarf nach oben oder unten zu skalieren.
Ressourcenmanagement: Frameworks verwalten Ressourcen wie CPU, GPU, Arbeitsspeicher und Speicher, indem sie Ressourcen dynamisch auf der Grundlage der Workload zuweisen.
Workflow-Automatisierung: Ermöglicht die Automatisierung komplexer Workflows mit LLMs wie Datenvorverarbeitung, Modelltraining, Inferenz und Nachbearbeitung. Die Rationalisierung der Abläufe reduziert den manuellen Aufwand und verbessert die Gesamteffizienz, indem die Entwickler in dieser Hinsicht entlastet werden.
Lastausgleich: Durch die Verteilung von Anfragen auf mehrere LLM-Instanzen verhindern Frameworks die Überlastung bestimmter Instanzen und verbessern die allgemeine Systemzuverlässigkeit und Reaktionszeiten.
Fehlertoleranz: Die meisten Frameworks enthalten Mechanismen zur Erkennung von Ausfällen in LLM-Instanzen und zur automatischen Umleitung des Datenverkehrs auf einwandfreie Instanzen, wodurch Ausfallzeiten minimiert und die Serviceverfügbarkeit aufrechterhalten werden.
Versionskontrolle und Updates: Verwalten Sie verschiedene Versionen von LLMs und stellen Sie Updates ohne Verteilung bereit.
Kosteneffizienz: Eine effektive Orchestrierung kann die Kosten optimieren, indem Ressourcen dynamisch nach Bedarf zugewiesen werden.
Sicherheit und Compliance: Die zentralisierte Steuerung und Überwachung über alle LLM-Instanzen hinweg gewährleistet die Einhaltung der regulatorischen Standards.
Integration mit anderen Diensten: Fördert ein zusammenhängendes Ökosystem, indem es die Integration mit anderen Diensten wie Datenspeicher, Protokollierung, Monitoring und Analytics unterstützt.
Niedrigere technische Hürden: Ermöglicht die Implementierung mit bestehenden Teams, keine KI-Experten erforderlich. Die Tools basieren auf den Frameworks, um die Bedienungskomfort zu erhöhen. LangFlow ist beispielsweise eine grafische Benutzeroberfläche (GUI) für LangChain.¹⁰

Auswahl des richtigen LLM-Orchestrierungs-Frameworks

Anwendungsentwickler haben die Wahl, entweder die neu entstehenden Lösungen zu übernehmen oder ihre eigenen von Grund auf neu zu entwickeln. Die Auswahl des richtigen LLM-Orchestrierungs-Frameworks erfordert eine sorgfältige Planung und Strategie.

Was Sie bei der Auswahl eines LLM-Orchestrierungs-Frameworks beachten sollten:

Benutzerfreundlichkeit

Prüfen Sie die API-Dokumentation des Frameworks und stellen Sie sicher, dass sie hilfreich ist und Entwicklern einen einfachen Einstieg ermöglicht. Sehen Sie sich auch die Community-Ressourcen des Frameworks an, um die Art der angebotenen Unterstützung bei der Fehlerbehebung zu beurteilen.

Kostenüberlegungen

Bewerten Sie die Kostenauswirkungen der Einführung verschiedener Frameworks. Viele LLM-Orchestrierungs-Frameworks sind Open Source und bieten eine kostenpflichtige Unternehmensoption. Stellen Sie sicher, dass die Preisgestaltung nicht nur die Anfangsinvestition, sondern auch laufende Kosten wie Lizenzen, Updates und Support-Services berücksichtigt. Ein kostengünstiges Framework bietet ein ausgewogenes Verhältnis zwischen Preis und den gebotenen Funktionen.

Sicherheitsüberlegungen

Achten Sie bei der Auswahl des richtigen LLM auf Sicherheitsmerkmale wie Verschlüsselung, Zugriffskontrollen und Prüfprotokolle, die für Datensicherheit sorgen und zum Schutz Ihrer Daten beitragen und die Einhaltung der einschlägigen Datenschutzbestimmungen gewährleisten.

Tools zur Leistungsüberwachung und -verwaltung

Erkundigen Sie sich nach Überwachungs- und Verwaltungstools. Diese umfassen Funktionen zur Verfolgung von Metriken wie Antwortzeiten, Genauigkeit und Ressourcenauslastung.

LLM-Orchestrierungsframeworks

Hier sind einige bekannte und neue Orchestrierungs-Frameworks:

IBM watsonx Orchestrate™

IBM watsonx Orchestrate nutzt die Verarbeitung natürlicher Sprache (NLP), um auf eine breite Palette von maschinellen Lernfähigkeiten zuzugreifen. Das IBM Framework besteht aus Tausenden von vorgefertigten Apps und Skills, darunter ein AI Assistent Builder und ein Skills Studio.

Zu den Anwendungsfällen gehören die Unterstützung von Personalabteilungen, indem Teams die erforderlichen Tools zur Verfügung gestellt werden, um neue Mitarbeiter einzuarbeiten und zu unterstützen, sowie die Stärkung von Beschaffungs- und Verkaufsteams.

LangChain

Ein Open-Source-Framework auf Python-Basis für die Erstellung von LLM-Anwendungen. LangChain besteht aus mehreren Open-Source-Bibliotheken, die flexible Schnittstellen zu zentralen LLM-Anwendungskomponenten wie Einbettungsmodellen, LLMs, Vektorspeichern und mehr bieten.¹¹

Zu den gängigen End-to-End-Anwendungsfällen von LangChain gehören Q&A Chain und Agent über eine SQL-Datenbank, Chatbot, Extraktion, Abfrageanalyse, Zusammenfassung, Agentensimulationen, autonome Agenten und vieles mehr.¹²

AutoGen

Das Open-Source-Multiagent-Konversations-Framework von Microsoft bietet eine hochgradige Abstraktion von Foundation Models. AutoGen ist ein agentenbasiertes Framework, d. h. es verwendet mehrere Agenten, um sich zu unterhalten und Aufgaben zu lösen. Zu den Hauptmerkmalen gehören anpassbare KI-Agenten, die sich an Multi-Agenten-Gesprächen mit flexiblen Mustern beteiligen, um eine Vielzahl von LLM-Anwendungen zu erstellen.¹³

Zu den Implementierungen von AutoGen in LLM-gesteuerten Apps gehören Chatbots für Mathe-Nachhilfe, Konversationsschach, Entscheidungsfindung, dynamische Gruppenchats und Multiagentencodierung.¹⁴ AutoGen bietet Überwachungs- und Wiedergabeanalysen für die Fehlerbehebung durch AgentOps.¹⁵

LlamaIndex

LlamaIndex bietet Tools zur Erstellung kontextgestützter LLM-Anwendungen. Diese umfassen Datenintegrationswerkzeuge wie Datenkonnektoren, um Daten aus über 160 Quellen und Formaten zu verarbeiten.¹⁶ LlamaIndex enthält auch eine Reihe von Modulen zur Bewertung der LLM-Anwendungsleistung.

Zu den vielen beliebten Anwendungsfällen von LlamaIndex gehören Q&A-Anwendungen (Retrieval-Augmented-Generation, auch bekannt als RAG), Chatbots, Dokumentenverständnis und Datenextraktion sowie die Feinabstimmung von Modellen auf Daten zur Leistungssteigerung.¹⁷

Haystack

Haystack ist ein Open-Source-Python-Framework, das auf zwei Hauptkonzepten basiert, um maßgeschneiderte, durchgängige KI-Systeme zu entwickeln: Komponenten und Pipelines. Haystack unterhält Partnerschaften mit vielen LLM-Anbietern, Vektordatenbanken und KI-Tools, wodurch die darauf aufbauenden Tools umfassend und flexibel sind.¹⁸

Zu den gängigen Anwendungsfällen von HayStack gehören semantische Suchsysteme, Informationsextraktion und die Beantwortung von Fragen im FAQ-Stil.¹⁹

crewAI

crewAI ist ein Open-Source-Multiagenten-Framework, das auf LangChain aufbaut. Rollenspielende autonome KI-Agenten werden zu Crews zusammengestellt, um LLM-anwendungsbezogene Workflows und Aufgaben zu erledigen^.20 crewAI bietet eine Unternehmensversion namens crewAI+.

Die Anwendungen für Anfänger und technisch versierte Benutzer umfassen die Erstellung von Landing Pages, Aktienanalysen und die Herstellung von Verbindungen. crewAI verwendet AgentOps, um Überwachung und Metriken für Agenten bereitzustellen.²¹

Die Zukunft der LLM-Orchestrierung

Die LLM-Orchestrierungs-Frameworks werden mit dem Fortschritt der generativen KI-Anwendungen weiter ausgereift und rationalisieren die LLMOps-Workflows für mehr Lösungen mit künstlicher Intelligenz.

Orchestrierungsframeworks stellen die Tools und die Struktur bereit, die eine LLM-Anwendung benötigt, um das Beste aus ihren Modellen herauszuholen. Zukünftige Frameworks könnten KI-Agenten und Multiagenten-Systeme verwenden, um intelligente Automatisierung zu ermöglichen.

Muster in neu entstehenden Orchestrierungs-Frameworks deuten darauf hin, dass der Aufbau komplexerer Architekturen, wie z. B. Multiagentensysteme, die zur Implementierung von Funktionen integriert werden können, den Agenten die Fähigkeiten verleiht, die sie zur Durchführung autonomer Workflows benötigen.

Auch die Benutzerfreundlichkeit gewinnt bei Orchestrierungsplattformen an Bedeutung. Mit zunehmender Reife des Marktes werden mehr Tools entwickelt, die sich auf die Benutzererfahrung konzentrieren. Dieser Ansatz senkt auch die technischen Hürden für die Nutzung dieser Frameworks. Einige Orchestrierungs-Frameworks, wie IBM watsonx Orchestrate, nutzen eine Schnittstelle in natürlicher Sprache für eine einfache Bedienung und Benutzerfreundlichkeit.

Die Verwaltung der LLM-Orchestrierung ist eine komplexe Aufgabe, während die Orchestrierung der Schlüssel zur Skalierung und Automatisierung von LLM-gesteuerten Workflows ist.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von Foundation Models den richtigen Ansatz wählen.

Ressourcen

IBM Granite erkunden

Entdecken Sie IBM Granite, unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

Entdecken Sie die Power von LLMs

Lesen Sie Artikel, Blogs und Tutorials von IBM Developer, um Ihr Wissen über LLMs zu vertiefen.

Der Leitfaden des CEOs zur Modelloptimierung

Erfahren Sie, wie Sie Teams durch den Einsatz neuester KI- Technologien und -Infrastrukturen zur kontinuierlichen Verbesserung der Modell-Leistung und Steigerung des Wettbewerbsvorsprungs motivieren können.

Ein differenzierter Ansatz für KI Foundation Models

Erkunden Sie den Wert von Foundation Models der Unternehmensklasse, die Vertrauen, Leistung und kosteneffiziente Vorteile in allen Branchen bieten.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI, maschinelles Lernen und Foundation Models zur Verbesserung der Leistung in Ihre Geschäftsabläufe integrieren können.

KI in Aktion 2024

Lesen Sie die Umfrage unter 2.000 Unternehmen zu ihren KI-Initiativen und erfahren Sie, was funktioniert, was nicht funktioniert und wie Sie vorankommen können.

Weiterführende Lösungen

Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

watsonx.ai erkunden

Erkunden Sie KI-Lösungen

Fußnoten

1 Andrei Kucharavy, “Fundamental Limitations of Generative LLMS,” SpringerLink, January 1, 1970, https://link.springer.com/chapter/10.1007/978-3-031-54827-7_5.

2 Anna Vyshnevska, “LLM Orchestration for Competitive Business Advantage: Tools & Frameworks,” Master of Code Global, June 26, 2024. https://masterofcode.com/blog/llm-orchestration.

3 Matt Bornstein, Rajko Radovanovic, „Emerging Architectures for LLM Applications“, Andreessen Horowitz, 8. Mai 2024. https://a16z.com/emerging-architectures-for-llm-applications/

4 Vyshnevska, “LLM Orchestration for Competitive Business.”

5 “Quick Reference,” LangChain, https://python.langchain.com/v0.1/docs/modules/model_io/prompts/quick_start/

6 “Chains,” LangChain, https://python.langchain.com/v0.1/docs/modules/chains/.

7 Manish, „Compounding GenAI Success“.

8 Salvador Garcia et al., „Big Data Preprocessing: Methods and Prospects - Big Data Analytics“, SpringerLink, 1. November 2016, https://link.sprunger.com/article/10.1186/s41044-016-0014-0.

9 Manish, „Compounding GenAI Success.“

10 „Create Your AI App!“ Langflow, https://www.langflow.org/.

11 “Conceptual Guide,” LangChain, https://python.langchain.com/v0.2/docs/concepts/.

12 “Use Cases,” LangChain, https://js.langchain.com/v0.1/docs/use_cases/.

13 “Getting Started: Autogen,” AutoGen RSS, https://microsoft.github.io/autogen/docs/Getting-Started/.

14 “Multi-Agent Conversation Framework: Autogen,” AutoGen RSS, https://microsoft.github.io/autogen/docs/Use-Cases/agent_chat/#diverse-applications-implemented-with-autogen.

15 “AgentOps,” AgentOps, https://www.agentops.ai/?=autogen.

16 „Loading Data (Ingestion)“, LlamaIndex, https://docs.llamaindex.ai/en/stable/understanding/loading/loading/.

17 “Use Cases,” LangChain, https://js.langchain.com/v0.1/docs/use_cases/.

18 „What Is Haystack?“ Haystack, https://haystack.deepset.ai/overview/intro.

19 „Anwendungsfall“, Haystack, https://haystack.deepset.ai/overview/anwendungsfall.

20 „AI Agents Forreal Use Cases,“ crewAI, https://www.crewai.com/.

21 crewAI, Inc. “Agent Monitoring with AgentOps,” crewAI, https://docs.crewai.com/introduction#agentops.