Startseite
Themen
AIOps
Unter dem von Gartner geprägten Begriff AIOps (oder auch künstliche Intelligenz für den IT-Betrieb) versteht man den Einsatz der Möglichkeiten der Funktionalitäten künstlicher Intelligenz (KI) für die Automatisierung und Rationalisierung von IT Service-Management und betrieblichen Workflows. Hier kommen beispielsweise die Verarbeitung natürlicher Sprache und Modelle für maschinelles Lernen (Machine Learning, ML) zum Einsatz, um Ziele schneller und effizienter zu erreichen.
AIOps setzt Big Data, Analysen und maschinelles Lernen für folgende Aufgaben ein:
AIOps vereint mehrere separate, manuelle Tools für den IT-Betrieb in einer einzigen intelligenten und automatisierten IT-Betriebsplattform. So können die IT-Betriebsteams mit durchgängiger Transparenz und umfassendem Kontext schneller – und sogar proaktiv – auf nachlassende Leistung und Betriebsunterbrechungen reagieren.
IT-Teams sind heute mit anspruchsvollen Herausforderungen konfrontiert: IT-Umgebungen werden immer vielfältiger, dynamischer und schwieriger zu überwachen und Teams arbeiten häufig isoliert voneinander. Gleichzeitig wachsen die Erwartungen der Benutzer, die wenige oder überhaupt keine Unterbrechungen in der Leistung und Verfügbarkeit von Anwendungen wünschen. AIOps bieten eine Lösung für diese komplizierte Situation. Die meisten Experten sehen in AIOps die Zukunft des IT Operations Management – und der Bedarf danach wird weiter steigen, da Unternehmen den Fokus zunehmend auf Initiativen zur digitalen Transformation legen.
IBM als Leader in den Bereichen Optimierung, Zusammenarbeit und Datenmanagement ausgezeichnet.
Der Weg zur Implementierung von AIOps sieht in jedem Unternehmen anders aus. Wenn Sie erst einmal wissen, in welcher Phase auf Ihrem Weg zu AIOps Sie sich befinden, können Sie mit der Einführung von Tools beginnen, mit deren Hilfe Ihre Teams IT-Betriebsprobleme beobachten und vorhersagen und schnell auf sie reagieren können. Für die Tools zur Verbesserung von AIOps in Ihrem Unternehmen wünschen Sie sich sicherlich folgende Funktionen:
Observability: Das Konzept der Observability bezieht sich auf Software-Tools und -praktiken, die einen stetigen Stroms von Leistungsdaten aus einer verteilten Anwendung und der Hardware, auf der sie ausgeführt wird, aufnehmen, aggregieren und analysieren. So soll eine effektivere Überwachung und Fehlerbehebung der Anwendung gewährleistet werden, damit die Ansprüche an das Kundenerlebnis, Service Level Agreements (SLAs) und andere Geschäftsanforderungen erfüllt werden können.
Diese Lösungen verschaffen Ihnen durch die Aggregation und Konsolidierung von Daten einen ganzheitlichen Überblick auf Ihre Anwendungen, Ihre Infrastruktur und Ihr Netzwerk. Sie ergreifen zwar keine Korrekturmaßnahmen zum Beheben von IT-Problemen, erfassen und aggregieren allerdings IT-Daten aus einer Vielzahl von Datenquellen in verschiedenen IT-Domänen. Die Endbenutzer werden dabei auf potenzielle Probleme aufmerksam gemacht und von den IT-Serviceteams wird die Umsetzung der erforderlichen Korrekturmaßnahmen erwartet.
Die Daten und die entsprechenden Visualisierungen dieser Tools sind zwar wertvoll, schaffen jedoch eine Abhängigkeit von IT-Organisationen, um Entscheidungen zu treffen und auf technische Probleme angemessen zu reagieren. Eine Ressourcenoptimierung, bei der die Systeme des Betriebs von einem Bediener manuell aktualisiert werden müssen, wird in dynamischen Bedarfssituationen eher nicht die größten Vorteile bieten.
Vorhersageanalysen: AIOps-Lösungen können Daten analysieren und korrelieren, um bessere Einblicke und automatisierte Abläufe zu ermöglichen. So können IT-Teams trotz steigender Komplexität die Kontrolle über IT-Umgebungen behalten und die Leistung von Anwendungen sicherstellen.
Die Möglichkeit, Probleme zu korrelieren und einzugrenzen, ist für jedes IT-Betriebsteam überaus wertvoll. So werden Probleme schneller erkannt, die andernfalls in der Organisation womöglich überhaupt nicht entdeckt werden würden. Automatische Anomalieerkennung, Alerts und Lösungsempfehlungen verringern die Gesamtausfallzeit wie auch die Anzahl der Vorfälle und Tickets.
Die dynamische Ressourcenoptimierung kann mittels Vorhersageanalyse (auch prädiktive Analyse oder Predictive Analysis) automatisiert werden. Dies kann die Anwendungsleistung sicherstellen und gleichzeitig die Ressourcenkosten auch bei stark schwankendem Bedarf gefahrlos senken.
Proaktive Reaktion: Manche AIOps-Lösungen reagieren proaktiv auf ungeplante Ereignisse wie z. B. nachlassende Leistung und Betriebsunterbrechungen und bringen Anwendungsleistung und Ressourcenmanagement in Echtzeit miteinander in Einklang.
Wenn Metriken zur Anwendungsleistung in Vorhersagealgorithmen einfließen, können diese Muster und Trends erkennen, die im Zusammenhang mit verschiedenen IT-Problemen stehen. Wenn IT-Probleme vorhergesagt werden können, bevor sie auftreten, können AIOps-Tools relevante automatisierte Prozesse einleiten und Probleme schnell beheben. Die Vorteile der intelligenten Automatisierung zeigen sich z. B. in Form einer kürzeren mittleren Erkennungszeit (Mean Time to Detection, MTTD).
Diese Art von Technologie ist die Zukunft des IT-Betriebsmanagements, da sie maßgeblich zu einem besseren Mitarbeiter- und Kundenerlebnis beitragen kann. AIOps-Systeme stellen nicht nur sicher, dass IT-Service-Probleme zeitnah behoben werden, sondern bilden auch ein Sicherheitsnetz für IT-Betriebsteams. Dieses Netz fängt Probleme auf, die sonst aufgrund menschlicher Versäumnisse wie organisatorischer Silos, unterbesetzter Teams usw. durch die Maschen fallen könnten.
AIOps bieten den entscheidenden Vorteil, dass eine nachlassende Leistung und Betriebsunterbrechungen im IT-Betrieb schneller erkannt, angegangen und behoben werden können, als es bei der manuellen Durchsicht von Alerts aus verschiedenen IT-Betriebstools möglich wäre. Daraus ergeben sich mehrere Vorteile:
Kürzere mittlere Problembehebungszeit (Mean Time to Resolution, MTTR): AIOps blendet die „Störgeräusche“ im IT-Betrieb aus und korreliert Betriebsdaten aus verschiedenen IT-Umgebungen. Dadurch kann es Ursachen ermitteln und schneller und genauer Lösungen vorschlagen, als es bei der Analyse durch menschliche Mitarbeiter möglich wäre. So können Unternehmen zuvor unvorstellbare MTTR-Ziele festlegen und erreichen. Die IT-Infrastruktur von Vivy konnte beispielsweise durch die Optimierung mithilfe von AIOps die mittlere Reparaturzeit (Mean Time to Repair, MTTR) für die App des Unternehmens um 66 % verkürzen, d. h. von drei Tagen auf einen Tag oder weniger.
Geringere Betriebskosten: Niedrigere Betriebskosten: Die automatische Erkennung von Betriebsproblemen und neu programmierte Reaktionsskripts senken die Betriebskosten und ermöglichen eine bessere Ressourcenzuordnung. Das senkt auch den Arbeitsaufwand für Personalressourcen, die stattdessen für innovativere und komplexere Aufgaben genutzt werden können. Dies steigert die Produktivität des Unternehmens und verbessert die Mitarbeitererfahrung. Durch die Optimierung konnte beispielsweise die Gesundheitsorganisation Providence mehr als 2 Millionen US-Dollar einsparen und gleichzeitig die App-Leistung bei hoher Systemauslastung sicherstellen.
Bessere Observability und Zusammenarbeit: Verfügbare Integrationen in AIOps-Überwachungstools ermöglichen eine effektivere teamübergreifende Zusammenarbeit zwischen DevOps-, ITOps-, Governance- und Sicherheitsfunktionen. Durch bessere Sichtbarkeit, Kommunikation und Transparenz können diese Teams die Entscheidungsfindung verbessern und schneller auf Probleme reagieren. Dealerware, ein Unternehmen mit einem Fokus auf Flottenmanagement, sorgte zum Beispiel für mehr Observability seiner containerbasierten Architektur und konnte dadurch während der Pandemie die App-Leistung steigern und die Bereitstellungslatenz um 98 % reduzieren.
Vom reaktiven zum proaktiven und dann zum vorausschauenden Management: Anhand der integrierten prädiktiven Analysefunktionen lernt AIOps ständig dazu und kann die dringendsten Alerts immer besser erkennen und priorisieren, damit die IT-Teams potenzielle Probleme in Angriff nehmen können, bevor sie die Leistung beeinträchtigen oder zu Betriebsunterbrechungen führen. Der Haushaltsgerätehersteller Electrolux konnte beispielsweise durch eine kürzere mittlere Erkennungszeit (MTTD) die Dauer bis zur Behebung von IT-Problemen von 3 Wochen auf eine Stunde verkürzen und durch Automatisierung von Reparaturaufgaben mehr als 1.000 Stunden pro Jahr einsparen.
Mit Big Data, erweiterten Analysen und maschinellem Lernen kann AIOps die folgenden Anwendungsfälle bewältigen:
Ursachenanalyse: Wie der Name schon sagt, wird bei der Ursachenanalyse die eigentliche Ursache von Problemen ermittelt, damit sie mit geeigneten Lösungen behoben werden können. Hier ist es wie in der Medizin: Anstatt sich lediglich mit der Behandlung stetig wiederkehrender und immer komplexer werdender Symptome zu beschäftigen, sollten IT-Teams ähnlich wie ein Arzt die Kernprobleme identifizieren und sich mit deren Lösung befassen. So kann eine AIOps-Plattform beispielsweise die Ursache eines Netzausfalls aufspüren und sofort beheben. Außerdem kann sie Schutzmaßnahmen einrichten, um ähnliche Probleme in Zukunft zu verhindern.
Anomalieerkennung: AIOps-Tools können große Mengen historischer Daten durchsuchen und atypische Datenpunkte innerhalb von Datensätzen aufspüren. Solche Ausreißer (die der Anomalieerkennung auch den Namen Ausreißererkennung oder Outlier Detection verleihen) lassen sich als „Signale“ betrachten, die auf problematische Ereignisse wie z. B. Datenschutzverletzungen hindeuten. Kostspielige Konsequenzen wie negative PR, Bußgelder und Vertrauensverluste bei den Verbrauchern lassen sich auf diese Weise vermeiden.
Performance Monitoring: Moderne Anwendungen sind oft durch mehrere Abstraktionsebenen getrennt, sodass schwer zu verstehen ist, welche zugrunde liegenden physischen Server-, Speicher- und Netzressourcen welche Anwendungen unterstützen. Mit AIOps lässt sich das beheben. AIOps fungiert als Überwachungstool für Cloudinfrastruktur, Virtualisierung und Speichersysteme und erstellt Berichte zu Metriken wie Nutzung, Verfügbarkeit und Antwortzeiten. Darüber hinaus konsolidieren und aggregieren Funktionalitäten zur Ereigniskorrelation Informationen, sodass Endbenutzer diese leichter aufnehmen können.
Cloud-Einführung/-Migration: Bei den meisten Unternehmen erfolgt die Cloud-Einführung schrittweise und nicht auf einen Schlag. Dadurch entsteht eine hybride Multicloud-Umgebung (eine Kombination aus einer privaten Cloud, öffentlichen Cloud und mehreren Cloud-Anbietern) mit zahlreichen Abhängigkeiten, die sich so schnell und häufig verändern, dass sie nicht dokumentiert werden können. Mit klaren Einblicken in diese gegenseitigen Abhängigkeiten kann AIOps die operationellen Risiken der Cloud-Migration und eines Hybrid-Cloud-Konzepts drastisch reduzieren.
Einführung von DevOps: DevOps verschafft den Entwicklungsteams mehr Möglichkeiten zur Bereitstellung und Neukonfiguration der Infrastruktur und beschleunigt so die Entwicklung. Diese Infrastruktur muss jedoch weiterhin von der IT verwaltet werden.
Am besten lässt sich die Funktionsweise von AIOps verstehen, wenn man die Rolle der einzelnen AIOps-Komponententechnologien – Big Data, maschinelles Lernen und Automatisierung – innerhalb des Prozesses betrachtet.
Anhand einer Big-Data-Plattform führt AIOps isolierte IT-Betriebsdaten, Teams und Tools an einem Ort zusammen. Diese Daten können Folgendes umfassen:
AIOps setzt dann auf folgende Weise zielgerichtete Funktionalitäten für Analyse und maschinelles Lernen ein:
Herausfiltern signifikanter Ereignis-Alerts aus den „Störgeräuschen“: AIOps durchforstet Ihre IT-Betriebsdaten und trennt Signale (Alerts zu signifikanten abnormalen Ereignissen) von den Störgeräuschen (allem anderen).
Ermitteln von Ursachen und Lösungsvorschlägen: AIOps kann abnormale Ereignisse umgebungsübergreifend mit anderen Ereignisdaten korrelieren und so den Schwerpunkt auf die Ursache eines Ausfalls oder Leistungsproblems legen und entsprechende Abhilfemaßnahmen vorschlagen.
Automatisieren von Reaktionen, einschließlich proaktiver Lösungen in Echtzeit: In praktisch jedem Fall kann AIOps Alerts und empfohlene Lösungen automatisch an die entsprechenden IT-Teams weiterleiten. Je nach Art des Problems und der Lösung kann es möglicherweise sogar Teams zur Fehlerbehebung zusammenstellen. In vielen Fällen können anhand der Ergebnisse aus dem maschinellen Lernen automatische Systemreaktionen ausgelöst werden, die Probleme in Echtzeit beheben, noch bevor die Benutzer sie überhaupt bemerken.
Kontinuierliches Lernen zur besseren Bewältigung zukünftige Probleme: Mithilfe von KI-Modellen erfährt das System automatisch von Änderungen in der Umgebung und kann sich daran anpassen. Dies ist beispielsweise hilfreich, wenn eine neue Infrastruktur von DevOps-Teams bereitgestellt oder neu konfiguriert wurde.
Wichtige Tätigkeiten können Sie kontinuierlich in Echtzeit – und ohne menschliches Zutun – automatisieren und damit proaktiv die effizienteste Nutzung von Rechen-, Speicher- und Netzwerkressourcen für Ihre Anwendungen auf jeder Ebene des Stacks ermöglichen.
IBM® Instana bietet Echtzeit-Observability, die wirklich jeder nutzen kann. Es sorgt für eine kurze Time-to-Value und stellt gleichzeitig sicher, dass Ihre Observability-Strategie mit der dynamischen Komplexität aktueller und zukünftiger Umgebungen mithalten kann. Von Mobilgeräten bis hin zu Mainframes unterstützt Instana über 250 Technologien und es kommen laufend weitere hinzu.
Verbessern Sie Systemmanagement, IT-Betrieb, Anwendungsleistung und operative Ausfallsicherheit mit künstlicher Intelligenz auf dem Mainframe.