Observability ist die Fähigkeit, den internen Zustand eines Systems durch die Analyse seiner externen Outputs zu verstehen, hauptsächlich durch Telemetriedaten wie Metriken, Ereignisse, Protokolle und Traces, die zusammen als „MELT-Daten“ bezeichnet werden.
Observability geht über herkömmliche Überwachungslösungen hinaus, um entscheidende Einblicke in Softwaresysteme und Cloud Computing Umgebungen zu bieten und IT-Teams dabei zu unterstützen, die Verfügbarkeit sicherzustellen, die Leistung zu optimieren und Anomalien zu erkennen.
Die meisten IT-Systeme verhalten sich deterministisch, was die Ursachenanalyse relativ einfach macht. Wenn eine App ausfällt, können Observability-Tools MELT-Daten verwenden, um Signale zu korrelieren und Fehler zu lokalisieren, und so feststellen, ob es sich um ein Speicherleck, einen Ausfall der Datenbankverbindung oder einen API-Timeout handelt.
Große Sprachmodelle (LLMs) und andere generative Anwendungen der künstlichen Intelligenz (KI) erschweren jedoch die Observability. Im Gegensatz zu herkömmlicher Software erzeugen LLMs probabilistische Ausgaben, d. h. identische Eingaben können zu unterschiedlichen Antworten führen. Diese mangelnde Interpretierbarkeit– oder die Schwierigkeit, nachzuvollziehen, wie Eingaben die Ausgabe beeinflussen – kann zu Problemen bei herkömmlichen Observability-Tools führen. Als Ergebnisse sind Fehlersuche, Debugging und Leistungsüberwachung in generativen KI-Systemen deutlich komplexer.
„Observability kann beispielsweise erkennen, ob eine KI-Antwort beispielsweise personenbezogene Daten (Personally Identifiable Information, PII) enthält, dies aber nicht verhindern“, erklärt Drew Flowers, Sales Leader für Instana bei IBM. „Der Entscheidungsfindungsprozess des Modells ist immer noch eine Blackbox.“
Dieses „Blackbox“-Phänomen stellt eine entscheidende Herausforderung für die LLM-Observability dar. Observability-Tools können zwar auftretende Probleme erkennen, aber sie nicht verhindern, da sie mit der KI-Erklärbarkeit zu kämpfen haben – der Fähigkeit, einen für einen Menschen verständlichen Grund anzugeben, warum ein Modell eine bestimmte Entscheidung getroffen oder eine bestimmte Ausgabe erzeugt hat.
Bis das Problem der Erklärbarkeit gelöst ist, müssen KI-Observability-Lösungen die Dinge priorisieren, die sie effektiv messen und analysieren können. Dazu gehört eine Kombination aus traditionellen MELT-Daten und KI-spezifischen Observability-Metriken.
Herkömmliche Metriken bieten zwar keinen vollständigen Einblick in das Modellverhalten, bleiben aber wesentliche Bestandteile der KI-Observability. CPU-, Speicher- und Netzwerkleistung wirken sich direkt auf die Funktionalität von KI-Systemen und die Benutzererfahrung aus. Sie können Unternehmen dabei helfen, zu beurteilen, wie effizient KI-Workloads ausgeführt werden und ob Infrastrukturbeschränkungen die Modellleistung und die Reaktionszeiten beeinträchtigen.
Für eine umfassende Observability von KI-Modellen sind jedoch zusätzliche Metriken erforderlich, die spezifische Eigenschaften des Verhaltens und der Ausgaben von KI-Modellen überwachen:
Ein Token ist eine einzelne Spracheinheit, in der Regel ein Wort oder ein Teil eines Wortes, das ein KI-Modell verstehen kann. Die Anzahl der Token, die ein Modell verarbeitet, um eine Eingabe zu verstehen oder eine Ausgabe zu erzeugen, wirkt sich direkt auf die Kosten und Leistung einer LLM-basierten Anwendung aus. Ein höherer Token-Verbrauch kann die Betriebskosten und die Antwortlatenz erhöhen.
Zu den wichtigsten Metriken für die Verfolgung der Token-Nutzung gehören:
Diese Metriken können Unternehmen dabei helfen, Optimierungsmöglichkeiten zur Reduzierung des Tokenverbrauchs zu identifizieren, beispielsweise durch die Verfeinerung von Prompts, um mehr Informationen in weniger Token zu übermitteln. Durch die Optimierung der Token-Nutzung können Unternehmen eine hohe Antwortqualität aufrechterhalten und gleichzeitig potenziell die Inferenzkosten für maschinelles Lernen reduzieren.
Im Gegensatz zu herkömmlicher Software können KI-Modelle ihr Verhalten schrittweise ändern, wenn sich reale Daten weiterentwickeln. Dieses als Modelldrift bekannte Phänomen kann die Zuverlässigkeit und Leistung von KI-Systemen erheblich beeinträchtigen.
Zu den wichtigsten Metriken zur Verfolgung der Modellabweichung gehören:
Mechanismen zur Erkennung von Abweichungen geben Frühwarnungen aus, wenn die Genauigkeit eines Modells für bestimmte Anwendungsfälle abnimmt, sodass Teams eingreifen können, bevor das Modell den Geschäftsbetrieb stört.
Die Überwachung der KI-Ausgabequalität ist für die Aufrechterhaltung von Vertrauen, Zuverlässigkeit und Compliance unerlässlich. Zu den wichtigsten Metriken zur Verfolgung der Antwortqualität gehören:
Die Verfolgung dieser Metriken kann zwar dazu beitragen, anomale Reaktionen zu erkennen, aber Observability-Tools können weder vollständig erklären, warum Halluzinationen auftreten, noch können sie automatisch die Korrektheit von KI-generierten Inhalten bestimmen. Dies sind zentrale Herausforderungen für das Vertrauen in die KI und die Governance, die noch vollständig angegangen werden müssen.
Um einen ethischen KI-Einsatz und die Einhaltung gesetzlicher Vorschriften sicherzustellen, ist eine umfassende Überwachung der KI-generierten Inhalte erforderlich.
Zu den wichtigsten Metriken zur Verfolgung von verantwortungsvoller KI gehören:
Dashboards zur Visualisierung in Echtzeit mit automatischer Anomalieerkennung warnen Teams, wenn KI-Ausgaben von den erwarteten Normen abweichen. Dieser proaktive Ansatz hilft Unternehmen dabei, Probleme schnell anzugehen, die KI-Leistung über die Zeit zu überwachen und eine verantwortungsvolle KI-Implementierung im großen Maßstab sicherzustellen.
OpenTelemetry (OTel) hat sich zum Branchenstandard-Framework für die Erfassung und Übertragung von Telemetriedaten entwickelt und kann auch bei der Observability der KI helfen. Dieses Open Source-Projekt bietet einen anbieterneutralen Ansatz zur Observability, der in komplexen KI-Ökosystemen besonders wertvoll ist.
Für KI-Anbieter bietet OpenTelemetry eine Möglichkeit zur Standardisierung der Art und Weise, wie sie Leistungsdaten teilen, ohne proprietäre Modelldetails oder Quellcode offenzulegen. Für Unternehmen stellt sie sicher, dass Observability-Daten konstant durch komplexe KI-Pipelines fließen, die mehrere Modelle, verschiedene Abhängigkeiten und Retrieval-Augmented Generation (RAG)-Systeme umfassen.
Zu den Hauptvorteilen von OpenTelemetry für die KI-Observability gehören:
KI-Anwendungen erfordern erhebliche Investitionen, von den Kosten für Modelllizenzen bis hin zu den Ausgaben für Infrastruktur und Entwicklerressourcen. Unternehmen, die die Observability von generativer KI hinauszögern, riskieren eine Verschwendung von Ressourcen, wenn sie Leistungsprobleme, ethische Probleme oder ineffiziente Implementierungen nicht aufdecken können.
„Für die KI-Observability ist die Time-to-Value (TTV) alles“, sagt Flowers. „Wenn ich nicht schnell zu Erkenntnissen komme, verliere ich Geld, während ich darauf warte, mein System zu optimieren.“
Zu den häufigsten Herausforderungen, die die Einführung von KI-Observability verlangsamen, gehören:
Um diese Herausforderungen zu meistern, sollten Unternehmen Observability-Lösungen in Betracht ziehen, die Folgendes unterstützen:
Unternehmen sollten Observability-Lösungen priorisieren, die sie schnell einsetzen können, um sofortige Erkenntnisse zu gewinnen. Vorkonfigurierte Plattformen können die Einrichtungszeit erheblich reduzieren und TTV beschleunigen, sodass Teams innerhalb von Tagen statt Wochen mit der Überwachung von KI-Systemen beginnen können.
Zu den wichtigsten Funktionen der Observability-Lösung für die schnelle Bereitstellung von KI-Observability gehören:
Die manuelle Analyse riesiger Mengen KI-generierter Daten kann viel Zeit und Fachwissen in Anspruch nehmen und häufig zu Verzögerungen, Fehlern oder verpassten Problemen führen. Observability-Lösungen automatisieren diesen Prozess, sodass sich Teams auf dringendere Probleme konzentrieren können, anstatt sich durch die Durchsicht von Telemetrie-Rohdaten zu wühlen.
Zu den wichtigsten Automatisierungen in KI-Observability-Lösungen gehören:
Observability sollte nicht Nebensache sein. Durch das Einbetten in den gesamten KI-Entwicklungszyklus erhalten die Teams im Unternehmen einen gemeinsamen Einblick in die Leistung, so dass eine schnellere Problemlösung und fundiertere Entscheidungsfindung ermöglicht wird.
In Bezug auf die KI-Observability geht es bei TTV nicht nur darum, wie schnell Observability-Tools implementiert werden können. Es geht auch darum, wie schnell diese Tools umsetzbare Erkenntnisse liefern, die KI-Investitionen optimieren und Ausfallzeiten verhindern.
Zu den wichtigsten Möglichkeiten, KI-Observability in Workflows zur KI-Entwicklung zu integrieren, gehören:
Mit der Entwicklung der KI-Observability wechseln Unternehmen von reaktiver Überwachung zu prädiktiven Ansätzen, die Probleme antizipieren, bevor sie sich auf Benutzer oder Geschäftsergebnisse auswirken. Um dies zu unterstützen, enthalten die fortschrittlichsten Observability-Lösungen jetzt ihre eigenen spezialisierten KI-Tools, um Muster in Telemetriedaten zu analysieren und Probleme zu identifizieren, bevor diese kritisch werden.
„Die wertvollste KI in der Observability ist prädiktive und kausale KI, nicht die generative KI“, erklärt Flowers.
Observability-Tools mit prädiktiven und kausalen KI-Funktionen können:
Dieser Wechsel von reaktiver zu prädiktiver Observability stellt die nächste Stufe für den KI-Betrieb dar und ermöglicht eine proaktivere Verwaltung von KI-Anwendungen und -Infrastrukturen bei gleichzeitiger Gewährleistung konstanter, qualitativ hochwertiger Ausgaben.
Auf Grundlage der besprochenen Herausforderungen und Lösungen finden Sie hier fünf wesentliche Prinzipien, die Sie bei der Suche nach der richtigen Observability-Lösung für generative KI-Anwendungen berücksichtigen sollten:
Während die Observability kritische Erkenntnisse in Bezug auf Leistung und Anomalien bietet, kann sie die interne Entscheidungsfindung von großen Sprachmodellen nicht vollständig erklären. Konzentrieren Sie sich auf messbare Metriken, die den Zustand und die Leistung des Systems anzeigen.
Eine umfassende generative KI-Observability erfordert die Überwachung von Token-Verwendungsmustern, Modelldrift-Indikatoren und Prompt-Response-Beziehungen sowie traditionellen Leistungsmetriken der Infrastruktur wie CPU-Auslastung und Speicherverbrauch.
Wählen Sie Observability-Plattformen, die eine schnelle Bereitstellung mit vorkonfigurierten Dashboards und automatischer Warnmeldung bieten, um eine schnellere Amortisation Ihrer KI-Investitionen zu erzielen und kostspielige betriebliche Probleme zu vermeiden.
Integrieren Sie Observability-Instrumente frühzeitig in den Lebenszyklus der Softwareentwicklung, um Probleme vor der Bereitstellung zu erkennen, Leistungsgrundlinien festzulegen und für Feedback-Schleifen zu sorgen, die die Qualität des KI-Systems verbessern.
Die Standardisierung auf offene Observability-Frameworks trägt zu zukunftssicheren Observability-Strategien bei und bietet gleichzeitig eine umfassende End-to-End-Transparenz über komplexe KI-Systeme hinweg und vermeidet die Anbieterbindung.
Denken Sie außerdem daran, dass die Einführung von OpenTelemetry nicht bedeutet, dass Sie sich für eine Open-Source-Observability-Lösung entscheiden müssen. Viele kommerzielle Plattformen, die Ihr Unternehmen möglicherweise bereits nutzt, unterstützen OTeL in vollem Umfang und bieten zusätzliche Funktionen auf Unternehmensebene.
Kommerzielle Observability-Lösungen können eine vollständig verwaltete Observability mit KI-gestützten Erkenntnissen und kontinuierlichem Support bieten, wodurch die manuelle Einrichtung und Wartung minimiert und die TTV verbessert wird.
„Wenn ich da sitze und Dashboards und Warnmeldungen erstelle, Kontext und Daten entwickle, konzentriere ich mich wirklich nur auf die Entwicklung von Tools. Ich optimiere das System nicht. „Ich unterstütze keine Kundeninitiativen“, so Flowers. „Was ich tue, hilft mir grundsätzlich nicht dabei, Geld zu verdienen.“
Mit kommerziellen Observability-Lösungen kann dieser Zustand größtenteils automatisiert oder vorkonfiguriert werden. Teams können sich stattdessen auf die Optimierung der Leistung und Zuverlässigkeit ihrer generativen KI-Modelle konzentrieren und so sowohl ihre Observability-Investitionen als auch die realen Auswirkungen von KI-Anwendungen maximieren.
Ermitteln und beheben Sie die Ursache des Problems rasch. Echtzeit-Daten mit hoher Genauigkeit bieten vollständige Transparenz dynamischer Anwendungs- und Infrastrukturumgebungen.
Optimieren Sie die IT-Automatisierung und den IT-Betrieb mit generativer KI und richten Sie jeden Aspekt Ihrer IT-Infrastruktur an den geschäftlichen Prioritäten aus.
IBM SevOne Network Performance Management ist eine Überwachungs- und Analysesoftware, die Echtzeittransparenz und Erkenntnisse für komplexe Netzwerke bietet.