Wie sich Observability auf generative KI einstellt

15. April 2025

Autoren

Observability ist die Fähigkeit, den internen Zustand eines Systems durch die Analyse seiner externen Outputs zu verstehen, hauptsächlich durch Telemetriedaten wie Metriken, Ereignisse, Protokolle und Traces, die zusammen als „MELT-Daten“ bezeichnet werden.

Observability geht über herkömmliche Überwachungslösungen hinaus, um entscheidende Einblicke in Softwaresysteme und Cloud Computing Umgebungen zu bieten und IT-Teams dabei zu unterstützen, die Verfügbarkeit sicherzustellen, die Leistung zu optimieren und Anomalien zu erkennen.

Die meisten IT-Systeme verhalten sich deterministisch, was die Ursachenanalyse relativ einfach macht. Wenn eine App ausfällt, können Observability-Tools MELT-Daten verwenden, um Signale zu korrelieren und Fehler zu lokalisieren, und so feststellen, ob es sich um ein Speicherleck, einen Ausfall der Datenbankverbindung oder einen API-Timeout handelt.

Große Sprachmodelle (LLMs) und andere generative Anwendungen der künstlichen Intelligenz (KI) erschweren jedoch die Observability. Im Gegensatz zu herkömmlicher Software erzeugen LLMs probabilistische Ausgaben, d. h. identische Eingaben können zu unterschiedlichen Antworten führen. Diese mangelnde Interpretierbarkeit– oder die Schwierigkeit, nachzuvollziehen, wie Eingaben die Ausgabe beeinflussen – kann zu Problemen bei herkömmlichen Observability-Tools führen. Als Ergebnisse sind Fehlersuche, Debugging und Leistungsüberwachung in generativen KI-Systemen deutlich komplexer.

„Observability kann beispielsweise erkennen, ob eine KI-Antwort beispielsweise personenbezogene Daten (Personally Identifiable Information, PII) enthält, dies aber nicht verhindern“, erklärt Drew Flowers, Sales Leader für Instana bei IBM. „Der Entscheidungsfindungsprozess des Modells ist immer noch eine Blackbox.“

Dieses „Blackbox“-Phänomen stellt eine entscheidende Herausforderung für die LLM-Observability dar. Observability-Tools können zwar auftretende Probleme erkennen, aber sie nicht verhindern, da sie mit der KI-Erklärbarkeit zu kämpfen haben – der Fähigkeit, einen für einen Menschen verständlichen Grund anzugeben, warum ein Modell eine bestimmte Entscheidung getroffen oder eine bestimmte Ausgabe erzeugt hat.

Bis das Problem der Erklärbarkeit gelöst ist, müssen KI-Observability-Lösungen die Dinge priorisieren, die sie effektiv messen und analysieren können. Dazu gehört eine Kombination aus traditionellen MELT-Daten und KI-spezifischen Observability-Metriken.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Wichtige Metriken für die Observability der generativen KI

Herkömmliche Metriken bieten zwar keinen vollständigen Einblick in das Modellverhalten, bleiben aber wesentliche Bestandteile der KI-Observability. CPU-, Speicher- und Netzwerkleistung wirken sich direkt auf die Funktionalität von KI-Systemen und die Benutzererfahrung aus. Sie können Unternehmen dabei helfen, zu beurteilen, wie effizient KI-Workloads ausgeführt werden und ob Infrastrukturbeschränkungen die Modellleistung und die Reaktionszeiten beeinträchtigen.

Für eine umfassende Observability von KI-Modellen sind jedoch zusätzliche Metriken erforderlich, die spezifische Eigenschaften des Verhaltens und der Ausgaben von KI-Modellen überwachen:

  • Tokennutzung
  • Modelldrift
  • Antwortqualität
  • Verantwortungsvolles KI-Monitoring

Verwendung von Tokens

Ein Token ist eine einzelne Spracheinheit, in der Regel ein Wort oder ein Teil eines Wortes, das ein KI-Modell verstehen kann. Die Anzahl der Token, die ein Modell verarbeitet, um eine Eingabe zu verstehen oder eine Ausgabe zu erzeugen, wirkt sich direkt auf die Kosten und Leistung einer LLM-basierten Anwendung aus. Ein höherer Token-Verbrauch kann die Betriebskosten und die Antwortlatenz erhöhen.

Zu den wichtigsten Metriken für die Verfolgung der Token-Nutzung gehören:

  • Token-Verbrauchsraten und Kosten, die helfen können, die Betriebskosten zu quantifizieren.

  • Token-Effizienz misst, wie effektiv jedes Token in einer Interaktion verwendet wird. Effiziente Interaktionen führen zu qualitativ hochwertigen Ausgaben und minimieren gleichzeitig die Anzahl der verbrauchten Token.

  • Token-Nutzungsmuster für verschiedene Prompt-Typen, die helfen können, ressourcenintensive Nutzungen von Modellen zu identifizieren.

Diese Metriken können Unternehmen dabei helfen, Optimierungsmöglichkeiten zur Reduzierung des Tokenverbrauchs zu identifizieren, beispielsweise durch die Verfeinerung von Prompts, um mehr Informationen in weniger Token zu übermitteln. Durch die Optimierung der Token-Nutzung können Unternehmen eine hohe Antwortqualität aufrechterhalten und gleichzeitig potenziell die Inferenzkosten für maschinelles Lernen reduzieren.

Modelldrift 

Im Gegensatz zu herkömmlicher Software können KI-Modelle ihr Verhalten schrittweise ändern, wenn sich reale Daten weiterentwickeln. Dieses als Modelldrift bekannte Phänomen kann die Zuverlässigkeit und Leistung von KI-Systemen erheblich beeinträchtigen.

Zu den wichtigsten Metriken zur Verfolgung der Modellabweichung gehören:

  • Änderungen der Antwortmuster im Laufe der Zeit, um aufkommende Unstimmigkeiten zu identifizieren.

  • Schwankungen in der Ausgabequalität oder Relevanz, die auf eine sinkende Modellleistung hinweisen könnten.

  • Verschiebungen bei der Latenz oder Ressourcenauslastung könnten auf Rechenineffizienzen hinweisen.

Mechanismen zur Erkennung von Abweichungen geben Frühwarnungen aus, wenn die Genauigkeit eines Modells für bestimmte Anwendungsfälle abnimmt, sodass Teams eingreifen können, bevor das Modell den Geschäftsbetrieb stört.

Qualität der Antworten

Die Überwachung der KI-Ausgabequalität ist für die Aufrechterhaltung von Vertrauen, Zuverlässigkeit und Compliance unerlässlich. Zu den wichtigsten Metriken zur Verfolgung der Antwortqualität gehören:

  • Die Häufigkeit von Halluzinationen bei verschiedenen Eingabeaufforderungstypen, um mögliche Auslöser für ungenaue Ausgaben zu identifizieren.

  • Die sachliche Richtigkeit der generierten Antworten, obwohl dies oft eine externe Validierung und menschliche Aufsicht erfordert.

  • Die Konstanz der Ausgaben für ähnliche Eingaben, um die Stabilität des Modells im Laufe der Zeit zu überprüfen.

  • Die Relevanz von Antworten auf Benutzeraufforderungen, um zu beurteilen, wie das Modell mit der Absicht des Benutzers übereinstimmt.

  • Die Verfolgung der Latenz ist entscheidend für KI-Anwendungen auf Benutzerseite, bei denen Geschwindigkeit und Genauigkeit oft Kompromisse erfordern. Die Überwachung der Antwortzeiten verschiedener Prompttypen kann Unternehmen dabei helfen, Leistungsengpässe und rechnerische Ineffizienzen zu lokalisieren.

Die Verfolgung dieser Metriken kann zwar dazu beitragen, anomale Reaktionen zu erkennen, aber Observability-Tools können weder vollständig erklären, warum Halluzinationen auftreten, noch können sie automatisch die Korrektheit von KI-generierten Inhalten bestimmen. Dies sind zentrale Herausforderungen für das Vertrauen in die KI und die Governance, die noch vollständig angegangen werden müssen.

Verantwortungsvolles KI-Monitoring

Um einen ethischen KI-Einsatz und die Einhaltung gesetzlicher Vorschriften sicherzustellen, ist eine umfassende Überwachung der KI-generierten Inhalte erforderlich.

Zu den wichtigsten Metriken zur Verfolgung von verantwortungsvoller KI gehören:

  • Auftreten von Verzerrungen bei den Antworten, um Fairness bei den Interaktionen der Benutzer zu gewährleisten.

  • Instanzen von personenbezogenen Daten in generierten Inhalten zum Schutz vertraulicher Informationen.

  • Einhaltung ethischer KI-Richtlinien zur Anpassung an Branchenstandards und -vorschriften.

  • Angemessenheit des Inhalts zur Wahrung des Rufs einer Marke und des Benutzervertrauens.

Dashboards zur Visualisierung in Echtzeit mit automatischer Anomalieerkennung warnen Teams, wenn KI-Ausgaben von den erwarteten Normen abweichen. Dieser proaktive Ansatz hilft Unternehmen dabei, Probleme schnell anzugehen, die KI-Leistung über die Zeit zu überwachen und eine verantwortungsvolle KI-Implementierung im großen Maßstab sicherzustellen. 

Mixture of Experts | 25. April, Folge 52

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

OpenTelemetry und Observability

OpenTelemetry (OTel) hat sich zum Branchenstandard-Framework für die Erfassung und Übertragung von Telemetriedaten entwickelt und kann auch bei der Observability der KI helfen. Dieses Open Source-Projekt bietet einen anbieterneutralen Ansatz zur Observability, der in komplexen KI-Ökosystemen besonders wertvoll ist.

Für KI-Anbieter bietet OpenTelemetry eine Möglichkeit zur Standardisierung der Art und Weise, wie sie Leistungsdaten teilen, ohne proprietäre Modelldetails oder Quellcode offenzulegen. Für Unternehmen stellt sie sicher, dass Observability-Daten konstant durch komplexe KI-Pipelines fließen, die mehrere Modelle, verschiedene Abhängigkeiten und Retrieval-Augmented Generation (RAG)-Systeme umfassen.

Zu den Hauptvorteilen von OpenTelemetry für die KI-Observability gehören:

  • Unabhängigkeit vom Anbieter: Unternehmen vermeiden die Bindung an bestimmte Observability-Plattformen und bleiben flexibel, wenn sich KI-Technologien weiterentwickeln.

  • Durchgängige Transparenz: Telemetriedaten fließen konstant durch alle Komponenten der KI-Anwendungsinfrastruktur.

  • Zukunftssicherheit: Bei der Weiterentwicklung der KI-Technologien wird der OpenTelemetry-Standard angepasst, sodass die Observability-Strategien relevant bleiben.

  • Ökosystemintegration: Offene Standards ermöglichen eine Observability über KI-Lösungen verschiedener Anbieter und hybride Bereitstellungsmodelle hinweg.

  • Standardisierung von Metadaten: Das Erfassen wichtiger Metadaten– einschließlich Trainingszeitstempeln, Datensatzherkunft und Modelleingaben – um kritischen Kontext für das Verständnis des KI-Systemverhaltens zu liefern.
Newsletterbild für automatisierte Nachrichten

Schalen Sie die Power von IBM Instana Observability frei

Dank IBM Instana Observability können Sie einen ROI von 219 % erzielen und die von Entwicklern für die Fehlersuche aufgewendete Zeit um 90 % reduzieren.

Geschwindigkeit ist alles

KI-Anwendungen erfordern erhebliche Investitionen, von den Kosten für Modelllizenzen bis hin zu den Ausgaben für Infrastruktur und Entwicklerressourcen. Unternehmen, die die Observability von generativer KI hinauszögern, riskieren eine Verschwendung von Ressourcen, wenn sie Leistungsprobleme, ethische Probleme oder ineffiziente Implementierungen nicht aufdecken können.

„Für die KI-Observability ist die Time-to-Value (TTV) alles“, sagt Flowers. „Wenn ich nicht schnell zu Erkenntnissen komme, verliere ich Geld, während ich darauf warte, mein System zu optimieren.“

Zu den häufigsten Herausforderungen, die die Einführung von KI-Observability verlangsamen, gehören:

  • Komplexe benutzerdefinierte Dashboards, die eine umfangreiche Einrichtung und Konfiguration erfordern.

  • Überwältigendes Datenvolumen, das zu Verarbeitungsengpässen führt.

  • Mangelnde Automatisierung bei der Konfiguration von Warnmeldungen und der Erstellung von Berichten.

  • Integrationsschwierigkeiten zwischen KI-Plattformen und Observability-Tools.

  • Qualifikationslücken bei der Interpretation von KI-spezifischen Telemetriedaten.

Um diese Herausforderungen zu meistern, sollten Unternehmen Observability-Lösungen in Betracht ziehen, die Folgendes unterstützen:

  • Schnelle Bereitstellung

  • Automatisierte Erkenntnisse

  • Integrierte KI-Workflows

Schnelle Bereitstellung

Unternehmen sollten Observability-Lösungen priorisieren, die sie schnell einsetzen können, um sofortige Erkenntnisse zu gewinnen. Vorkonfigurierte Plattformen können die Einrichtungszeit erheblich reduzieren und TTV beschleunigen, sodass Teams innerhalb von Tagen statt Wochen mit der Überwachung von KI-Systemen beginnen können.

Zu den wichtigsten Funktionen der Observability-Lösung für die schnelle Bereitstellung von KI-Observability gehören:

  • KI-spezifische Dashboard-Vorlagen, die mit minimaler Anpassung sofort einsatzbereit sind.

  • Automatisierte Instrumentierung, die sofort mit der Erfassung von Daten von gängigen KI-Frameworks und -Plattformen beginnen kann.

  • Vorgefertigte Konnektoren für gängige LLM-Anbieter und KI-Infrastrukturen, die den Aufwand für eine individuelle Integration überflüssig machen.

  • Schnellstart-Implementierungsleitfäden, die Teams dabei helfen, mit bewährten Ansätzen für gängige Anwendungsfälle von KI loszulegen.

Automatisierte Erkenntnisse

Die manuelle Analyse riesiger Mengen KI-generierter Daten kann viel Zeit und Fachwissen in Anspruch nehmen und häufig zu Verzögerungen, Fehlern oder verpassten Problemen führen. Observability-Lösungen automatisieren diesen Prozess, sodass sich Teams auf dringendere Probleme konzentrieren können, anstatt sich durch die Durchsicht von Telemetrie-Rohdaten zu wühlen.

Zu den wichtigsten Automatisierungen in KI-Observability-Lösungen gehören:

  • Verwendung der Anomalieerkennung zur Identifizierung von Unregelmäßigkeiten im Verhalten und der Leistung der KI, ohne dass eine manuelle Schwellenwertkonfiguration erforderlich ist.

  • Generieren von umsetzbaren Empfehlungen zur Systemoptimierung anstatt der reinen Identifizierung von Problemen.

  • Übersetzung technischer Sachverhalte in geschäftsrelevante Erklärungen.

  • Priorisierung von Warnmeldungen auf Grundlage der Auswirkungen, um Alarmermüdung (Alarm Fatigue) zu vermeiden und Ausfallzeiten zu reduzieren.

Integrierte KI-Workflows

Observability sollte nicht Nebensache sein. Durch das Einbetten in den gesamten KI-Entwicklungszyklus erhalten die Teams im Unternehmen einen gemeinsamen Einblick in die Leistung, so dass eine schnellere Problemlösung und fundiertere Entscheidungsfindung ermöglicht wird.

In Bezug auf die KI-Observability geht es bei TTV nicht nur darum, wie schnell Observability-Tools implementiert werden können. Es geht auch darum, wie schnell diese Tools umsetzbare Erkenntnisse liefern, die KI-Investitionen optimieren und Ausfallzeiten verhindern.

Zu den wichtigsten Möglichkeiten, KI-Observability in Workflows zur KI-Entwicklung zu integrieren, gehören:

  • Integrieren der Observability in CI/CD-Pipelines für KI-Anwendungen.

  • Testen der Observability-Instrumentierung während der Vorproduktion.

  • Erfassung von Metriken in der Entwicklungsphase zur Produktionsüberwachung .

Von der Überwachung bis zur Vorhersage

Mit der Entwicklung der KI-Observability wechseln Unternehmen von reaktiver Überwachung zu prädiktiven Ansätzen, die Probleme antizipieren, bevor sie sich auf Benutzer oder Geschäftsergebnisse auswirken. Um dies zu unterstützen, enthalten die fortschrittlichsten Observability-Lösungen jetzt ihre eigenen spezialisierten KI-Tools, um Muster in Telemetriedaten zu analysieren und Probleme zu identifizieren, bevor diese kritisch werden.

„Die wertvollste KI in der Observability ist prädiktive und kausale KI, nicht die generative KI“, erklärt Flowers.

Observability-Tools mit prädiktiven und kausalen KI-Funktionen können:

  • Voraussagen, wann ein Modelldrift problematische Ausmaße annimmt.

  • Den Ressourcenbedarf auf Grundlage von KI-Nutzungsmustern prognostizieren.

  • Prompts identifizieren, die wahrscheinlich Halluzinationen hervorrufen.

  • Subtile Tendenzen erkennen, bevor sie signifikant werden.

Dieser Wechsel von reaktiver zu prädiktiver Observability stellt die nächste Stufe für den KI-Betrieb dar und ermöglicht eine proaktivere Verwaltung von KI-Anwendungen und -Infrastrukturen bei gleichzeitiger Gewährleistung konstanter, qualitativ hochwertiger Ausgaben.

Die richtige Lösung für generative KI-Observability finden

Auf Grundlage der besprochenen Herausforderungen und Lösungen finden Sie hier fünf wesentliche Prinzipien, die Sie bei der Suche nach der richtigen Observability-Lösung für generative KI-Anwendungen berücksichtigen sollten:

Erkennen inhärenter Einschränkungen 

Während die Observability kritische Erkenntnisse in Bezug auf Leistung und Anomalien bietet, kann sie die interne Entscheidungsfindung von großen Sprachmodellen nicht vollständig erklären. Konzentrieren Sie sich auf messbare Metriken, die den Zustand und die Leistung des Systems anzeigen.

Über den Tellerrand hinausblicken

Eine umfassende generative KI-Observability erfordert die Überwachung von Token-Verwendungsmustern, Modelldrift-Indikatoren und Prompt-Response-Beziehungen sowie traditionellen Leistungsmetriken der Infrastruktur wie CPU-Auslastung und Speicherverbrauch. 

Fokus auf die Time-to-Value

Wählen Sie Observability-Plattformen, die eine schnelle Bereitstellung mit vorkonfigurierten Dashboards und automatischer Warnmeldung bieten, um eine schnellere Amortisation Ihrer KI-Investitionen zu erzielen und kostspielige betriebliche Probleme zu vermeiden.

Integration von Observability in die Softwareentwicklung

Integrieren Sie Observability-Instrumente frühzeitig in den Lebenszyklus der Softwareentwicklung, um Probleme vor der Bereitstellung zu erkennen, Leistungsgrundlinien festzulegen und für Feedback-Schleifen zu sorgen, die die Qualität des KI-Systems verbessern.

Nutzung von OpenTelemetry

Die Standardisierung auf offene Observability-Frameworks trägt zu zukunftssicheren Observability-Strategien bei und bietet gleichzeitig eine umfassende End-to-End-Transparenz über komplexe KI-Systeme hinweg und vermeidet die Anbieterbindung.

Denken Sie außerdem daran, dass die Einführung von OpenTelemetry nicht bedeutet, dass Sie sich für eine Open-Source-Observability-Lösung entscheiden müssen. Viele kommerzielle Plattformen, die Ihr Unternehmen möglicherweise bereits nutzt, unterstützen OTeL in vollem Umfang und bieten zusätzliche Funktionen auf Unternehmensebene.

Kommerzielle Observability-Lösungen können eine vollständig verwaltete Observability mit KI-gestützten Erkenntnissen und kontinuierlichem Support bieten, wodurch die manuelle Einrichtung und Wartung minimiert und die TTV verbessert wird.

„Wenn ich da sitze und Dashboards und Warnmeldungen erstelle, Kontext und Daten entwickle, konzentriere ich mich wirklich nur auf die Entwicklung von Tools. Ich optimiere das System nicht. „Ich unterstütze keine Kundeninitiativen“, so Flowers. „Was ich tue, hilft mir grundsätzlich nicht dabei, Geld zu verdienen.“

Mit kommerziellen Observability-Lösungen kann dieser Zustand größtenteils automatisiert oder vorkonfiguriert werden. Teams können sich stattdessen auf die Optimierung der Leistung und Zuverlässigkeit ihrer generativen KI-Modelle konzentrieren und so sowohl ihre Observability-Investitionen als auch die realen Auswirkungen von KI-Anwendungen maximieren. 

Weiterführende Lösungen
Automatisierte Full Stack Observability

Ermitteln und beheben Sie die Ursache des Problems rasch. Echtzeit-Daten mit hoher Genauigkeit bieten vollständige Transparenz dynamischer Anwendungs- und Infrastrukturumgebungen.

Mehr erfahren über Full Stack Observability
AIOps Consulting

Optimieren Sie die IT-Automatisierung und den IT-Betrieb mit generativer KI und richten Sie jeden Aspekt Ihrer IT-Infrastruktur an den geschäftlichen Prioritäten aus.

Mehr erfahren über AIOps Consulting
IBM SevOne Network Performance Management

IBM SevOne Network Performance Management ist eine Überwachungs- und Analysesoftware, die Echtzeittransparenz und Erkenntnisse für komplexe Netzwerke bietet.

Netzwerkleistung überwachen
Machen Sie den nächsten Schritt

Erfahren Sie, wie KI für den IT-Betrieb die Erkenntnisse liefert, die Sie benötigen, um die Leistung Ihres Unternehmens entscheidend zu verbessern.

AIOps-Lösungen erkunden Buchen Sie eine Live-Demo