Was ist der Lebenszyklus einer KI?

By Dave Bergmann

Der KI-Lebenszyklus, erklärt

Der KI-Lebenszyklus ist ein strukturierter, iterativer Prozess, der die Planung, das Training, die Bereitstellung und die Wartung von KI-Systemen umfasst. Er beinhaltet nicht nur das Training von Machine-Learning-Modellen, sondern auch die Erfassung und Aufbereitung von Trainingsdaten, Systeme zur Bewertung und Verbesserung der Modellleistung sowie die Integration trainierter Modelle in reale KI-Anwendungen.

Der KI-Lebenszyklus umfasst alles, von der ersten Entscheidung, ein bestimmtes Problem mit KI zu lösen, bis hin zur aktiven Nutzung eines trainierten Modells in einem realen Workflow. Der Begriff der KI-Lebenszyklen ist eng mit den Disziplinen Machine Learning Operations (MLOps) und AI Management Systems (AIMS) verbunden, die beide systematische Ansätze für die Entwicklung, Steuerung und Wartung von KI beinhalten.

Im Mittelpunkt des Konzepts der KI-Entwicklungslebenszyklen steht die Tatsache, dass KI-Lösungen nicht in einem Vakuum entworfen oder bereitgestellt werden: Es sind dynamische Systeme, deren nachhaltige Effizienz von einer sorgfältigen Planung und einer sorgfältigen Überwachung abhängt. Zwischen jedem Schritt des KI-Entwicklungs- und Implementierungsprozesses bestehen wesentliche Abhängigkeiten. Das Verständnis dieser Abhängigkeiten ist entscheidend für die Entwicklung von KI-gestützten Lösungen, die erfolgreich, skalierbar und nachhaltig sind.

Dieser Artikel erläutert die einzelnen wesentlichen Schritte im Lebenszyklus von KI.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Problemdefinition

Die erste und wohl wichtigste Phase des KI-Lebenszyklusmanagements ist die Planungsphase, in der Sie den Anwendungsfall für Ihre KI-Anwendung identifizieren: das Problem, bei dessen Lösung Sie KI einsetzen, und die spezifischen Aufgaben, die KI ausführen kann, um es zu lösen. Alle nachfolgenden Entscheidungen sollten sich auf die während des Planungsprozesses getroffenen Entscheidungen beziehen.

Es ist wichtig, gründlich zu sein und alle Eventualitäten zu berücksichtigen. Das Überspringen bestimmter Überlegungen spart keine Arbeit, sondern verschiebt und verschlimmert diese Arbeit nur. Alle relevanten Interessengruppen sollten in die Planungsphase einbezogen und konsultiert werden, um sowohl von ihrem jeweiligen Fachwissen oder ihrer Perspektive zu profitieren als auch einen Konsens darüber zu gewährleisten, wie die Dinge von hier aus weitergehen sollen.

Definieren Sie den Umfang Ihres KI-Projekts. Welche Aspekte Ihres Problems wird Ihre KI-Lösung abdecken bzw. bei welchen Aspekten wird sie helfen? Welche Aspekte liegen außerhalb der Grenzen?

Definieren Sie Ihre Bedürfnisse. Was genau muss sie innerhalb der Problembereiche, für die Sie KI einsetzen werden, leisten? Es ist wichtig zu verstehen, was machbar ist und was nicht, sei es im Hinblick auf die vorhandenen KI-Funktionen oder die verfügbaren Ressourcen für die Umsetzung dieses Projekts.

Definieren Sie Erfolg. Was qualifiziert ein erfolgreiches Ergebnis, sowohl qualitativ als auch (insbesondere) quantitativ? Durch die frühzeitige Festlegung von Metriken können Sie sich bei Designentscheidungen an ihnen orientieren und die Entwicklung und Optimierung Ihres KI-Systems steuern.

Risiken bewerten. Ermitteln Sie, inwiefern Ihre KI-Lösung, so wie sie bisher konzipiert wurde, sich nachteilig auf Ihr Unternehmen oder Ihre Benutzer auswirken könnte. Ethische Risiken, Reputationsrisiken und finanzielle Risiken sollten markiert und angesprochen werden, bevor in die Datenerfassungsphase übergegangen wird – insbesondere da unzureichende Datenverwaltung oft die Ursache solcher Risiken ist.

Datenerfassung und Datenaufbereitung

Auf technischer Ebene sind die Qualität und Quantität Ihrer Trainingsdaten der wichtigste Faktor für die Stärke Ihrer KI-Modelle.

Datenerfassung

Bedenken Sie, dass alles maschinelle Lernen auf angewandter Mustererkennung beruht. Ein trainiertes maschinelles Lernen Modell nutzt die Muster, die es aus seinen Trainingsdaten „gelernt“ hat, um die optimale Ausgabe für eine gegebene Eingabe abzuleiten. Eine ausreichende Datenqualität ist notwendig, um sicherzustellen, dass die erlernten Muster mit denen der neuen Daten übereinstimmen, aus denen in realen Anwendungen Schlüsse gezogen werden. Ein ausreichendes Datenvolumen ist notwendig, um sicherzustellen, dass das Modell alle Muster gelernt hat, auf die es zurückgreifen muss, und um Überanpassungen zu vermeiden.

Bewerten Sie die relevanten Datenquellen, die Ihnen zur Verfügung stehen, von Open-Source-Datensätzen, die über Plattformen wie Hugging Face oder Kaggle verfügbar sind, über Webscraping bis hin zur Nutzung eigener proprietärer Daten Ihrer Organisation. Wenn qualitativ hochwertige Daten unerschwinglich knapp oder teuer sind, können synthetische Daten manchmal die Lücken füllen. können manchmal die Lücken füllen.

Datenaufbereitung

Rohdaten sind selten bereit für maschinelles Lernen: Sie erfordern in der Regel ein gewisses Maß an Vorverarbeitung, bevor sie in Modelltrainingspipelines verwendet werden. Funktion-Engineering ist ein wichtiger Teil dieses Prozesses.

Überwachtes Lernen erfordert Datenkennzeichnung, was oft zumindest einen gewissen zeitaufwändigen manuellen Eingriff erfordert (obwohl Automatisierung den Prozess oft optimieren kann). Die Kennzeichnung in einigen spezialisierten Datenbereichen erfordert Experten-Eingabe. Sogar Datensätze mit vorgelabelten Daten sollten überprüft werden, um die Genauigkeit und Relevanz der Labels für Ihren spezifischen Anwendungsfall sicherzustellen.

Daten aus verschiedenen Datenquellen müssen normalisiert und in Bezug auf Einheiten und Format einheitlich gestaltet werden: Zum Beispiel führt das Training eines Modells auf Wetterdaten, die sowohl in Celsius als auch in Fahrenheit präsentiert werden, zwangsläufig zum Scheitern.

Data Governance

Daten sollten nicht einfach nach dem Modelltraining verworfen werden. Sie sollte gespeichert und gepflegt werden, falls Sie jemals Ihr System prüfen, Leistungsprobleme erkunden, Ihre Modelle replizieren oder die regulatorischen Anforderungen des Frameworks der DSGVO oder ähnlicher Frameworks erfüllen müssen.

Eine ordnungsgemäße Datenverwaltung ist ein wesentlicher Bestandteil der KI-Erklärbarkeit, des Datenschutzes und der Einhaltung gesetzlicher Vorschriften, insbesondere in Branchen und Anwendungsfällen, die Daten mit sensiblen Informationen betreffen. Es ist außerdem ein notwendiger Bestandteil beim Aufbau von Datenpipelines zur Optimierung der skalierbaren Datenbeschaffung, insbesondere wenn Ihr KI-Workflow auf kontinuierlich aktualisierten proprietären Daten basiert.

Modellauswahl

Als Nächstes folgt die Modellauswahl: Auswahl der Modellarchitektur, die am besten zu Ihrem Anwendungsfall passt, Trainingsdaten und Rechenressourcen. Es gibt eine riesige Bandbreite an maschinellen Lernalgorithmen, die von kleinen und einfachen Regressionsmodellen bis hin zu riesigen, hochmodernen neuronalen Netzen reichen. Das größte, ausgefeilteste Modell ist nicht immer die klügste Wahl: Es gibt Aufgaben, für die riesige Deep-Learning-Modelle übertrieben sind, und sogar Aufgaben, bei denen herkömmliche Machine-Learning-Modelle ihre Deep-Learning-Pendants übertreffen.

Im Bereich der generativen KI erfordert das Training von LLMs und anderen Arten generativer Modelle von Grund auf eine enorme Investition in Zeit, Daten, Hardware und Energie. In den meisten Fällen wird der Bedarf an einem maßgeschneiderten generativen Modell besser durch die Feinabstimmung eines vorab trainierten Modells gedeckt. Aber selbst innerhalb der Welt der vorgefertigten Modelle gibt es ein riesiges Spektrum hinsichtlich Modellgröße, Architektur und Funktionen.

Benchmark-Bewertungen sind ein hilfreicher Leitfaden, um festzustellen, welche Modelle was gut können, aber sie sollten nicht als Evangelium genommen werden. Wenn Ihr Problem klar definiert ist, lohnt es sich, die Machbarkeit der Entwicklung von Benchmarks zu erkunden, die die Leistung bei den spezifischen Aufgaben, für die Sie ein Modell benötigen, direkt widerspiegeln. Dies wird auch für die spätere Modellevaluierungsphase nützlich sein.

Modelltraining

Generative KI beiseite, bei den meisten KI-Lösungen müssen Sie Ihr eigenes Modell trainieren. Unsere Erläuterung liefert mehr Informationen über den Modellentwicklungsprozess, von den verschiedenen Arten des maschinellen Lernens über die Wahl einer Verlustfunktion (oder im Reinforcement Learning eine Belohnungsfunktion) bis hin zur Optimierung von Modellparametern (und Hyperparametern). Ein gewisses Maß an Experimenten ist in der Regel notwendig, bevor man zur idealen Architektur und zum idealen Lernschema gelangt.

Das Ziel des Modelltrainings besteht letztendlich darin, die Modellparameter so lange anzupassen, bis die Leistung des Modells anhand der Beispiele in seinem Trainingsdatensatz eine akzeptable Genauigkeitsschwelle erreicht.

Modelltraining ist ein iterativer Prozess und verläuft nicht immer stetig, linear. Es ist wichtig, während des gesamten Trainingsprozesses regelmäßig „Checkpoints“ der Modellgewichte zu speichern. Fehlt eine solche Versionskontrolle, könnte ein einziges Modellupdate katastrophal sein und Sie zwingen, von vorne anzufangen. Die Versionskontrolle ist auch für das Debugging, die Reproduzierbarkeit und die Zusammenarbeit zwischen Teams unerlässlich.

Modellevaluierung

Die Optimierung der Leistung eines Modells auf Trainingsdaten ist an sich nicht das grundlegende Ziel des Modelltrainings. Das eigentliche Ziel des Modelltrainings besteht darin, ein Modell zu entwickeln, das gut auf neue Daten verallgemeinert, die es noch nicht gesehen hat. Es muss darauf geachtet werden, eine Überanpassung zu vermeiden, was als maschinelles Lernen verstanden werden kann, was „auf die Probe stellen“ entspricht undeher dem Auswendiglernen als dem tatsächlichen „Wissen“ entspricht.

Die Bewertung nach dem Training ist unerlässlich, um zu bestätigen, dass das Modell gut auf ungesehene Daten verallgemeinert werden kann. Dieser Validierungsprozess testet die Ausgabequalität auf einem separaten Datensatz mit neuen Eingaben, die realen Aufgaben ähneln. Bei der Validierung kann eine wesentlich größere Vielfalt an Leistungsmetriken verwendet werden als diejenigen, die für die Verlustfunktionen zur Messung der Modellgenauigkeit während des Trainings geeignet sind.

Modellevaluation und Modelltraining bilden typischerweise zwei Teile eines iterativen Zyklus:

Zuerst werden die Models trainiert, bis der Verlust oder die Belohnung einen akzeptablen Schwellenwert erreicht.

Anschließend wird die Modellleistung bei einer neuen Aufgabenreihe validiert, oft unter Verwendung anderer Metriken.

Wenn die Ergebnisse der Modellbewertung nicht zufriedenstellend sind, wird das Modell weitergeschult – in der Regel mit strategischen Anpassungen, die darauf abzielen, etwaige in der Validierungsphase festgestellte Schwächen zu beheben.

AI Academy

KI-Experte werden

Erlangen Sie das nötige Wissen, um KI-Investitionen zu priorisieren, die das Unternehmenswachstum vorantreiben. Starten Sie noch heute mit unserer kostenlosen AI Academy und gestalten Sie die Zukunft der KI in Ihrem Unternehmen.

Serie ansehen

Modellbereitstellung

Sobald ein Modell trainiert und erfolgreich validiert wurde, geht es in die Bereitstellungsphase über, in der das Modell in einer tatsächlichen Produktionsumgebung operationalisiert und in bestehende Systeme und APIs integriert wird. Idealerweise wurde in der Modellbewertungsphase die Leistung des Modells bei Aufgaben validiert, die diese realen Workflows nutzen oder zumindest annähernd anwenden.

Bei der Modellbereitstellung sind viele Konfigurationen zu berücksichtigen, aber die vielleicht wichtigste Entscheidung ist die Art der Bereitstellungsumgebung, in der das Modell eingesetzt wird.

Bereitstellungsumgebungen

Vor-Ort-Bereitstellung: Das Modell wird auf physischer Hardware – in der Regel KI-Beschleunigern – ausgeführt, die Sie (oder Ihr Unternehmen) besitzen und warten. Dies bietet die größte Kontrolle, erfordert aber auch die höchsten Vorabinvestitionen.

Cloud-Bereitstellung: Das Modell wird auf Hardware ausgeführt, die sich im Besitz von externen Cloud-Providern befindet und von diesen betrieben wird; sie befindet sich physisch an anderer Stelle in einem großen Rechenzentrum. Die Cloud-Bereitstellung ist in der Regel der schnellste Weg zur Skalierbarkeit.

Edge-Bereitstellung: Das Modell wird in einem verteilten lokalen Netzwerk von „Edge-Geräten“ wie Sensoren oder Geräten für das Internet der Dinge (IoT) bereitgestellt.

Bereitstellung auf dem Gerät: Das Modell wird direkt auf dem Gerät des Endbenutzers, z. B. einem Laptop oder Smartphone, ausgeführt.

Modell-Überwachung

Ein eingesetztes Modell sollte nur selten als ein träges, „fertiges“ Produkt betrachtet werden. Eine ordnungsgemäße KI-Governance beinhaltet eine kontinuierliche Überwachung der Modellleistungskennzahlen und des Nutzerfeedbacks.

Es ist fast unvermeidlich, dass in einer realen Anwendung unvorhergesehene Probleme und Randfälle auftreten, egal wie gründlich man vorher plant, testet und das Redteam zusammenarbeitet. Darüber hinaus kann es im Laufe der Zeit selbst bei einem optimal trainierten Modell aufgrund von Problemen wie Modelldrift zu einer Verschlechterung der Leistung kommen.

Eingesetzte Modelle erfordern daher typischerweise periodische Nachschulungen, um eine angemessene Leistung zu gewährleisten und sich an veränderte Umstände anzupassen. Auch hier sind durchdachte Versionsschemata wichtig für Debugging, Verantwortlichkeit und sichere Aktualisierungen kritischer Systeme.

Autor

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Data Science und MLOps für Data Leader

Stimmen Sie sich mit anderen Führungskräften über die 3 wichtigsten Ziele von MLOps und vertrauenswürdiger KI ab: Vertrauen in Daten, Vertrauen in Modelle und Vertrauen in Prozesse.