Was ist eine Pipeline für maschinelles Lernen?

Autoren

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Was ist eine ML-Pipeline?

Eine Pipeline für maschinelles Lernen (ML-Pipeline) ist der systematische Prozess des Entwerfens, Entwickelns und Bereitstellens eines Modells für maschinelles Lernen. ML-Pipelines oder ML-Workflows folgen einer Reihe von Schritten, die Entwickler und Führungskräfte zu einer effizienteren Modellentwicklung führen.

Die End-to-End-Pipeline für maschinelles Lernen umfasst drei Phasen: 

  1. Datenverarbeitung: Data Scientists stellen die Daten zusammen und bereiten sie vor, die zum Trainieren des ML-Modells verwendet werden. Zu den Phasen in dieser Phase gehören die Datenerfassung, Vorverarbeitung, Bereinigung und Exploration. 

  2. Modellentwicklung: Datenpraktiker wählen oder erstellen einen Algorithmus für maschinelles Lernen, der den Anforderungen des Projekts entspricht. Der Algorithmus wird mit den Daten aus dem vorherigen Schritt trainiert und das resultierende Modell getestet und validiert, bis es einsatzbereit ist. 

  3. Modellbereitstellung: Entwickler und Softwareingenieure bereitstellen das Modell für den realen Einsatz, integrieren es in eine Produktionsumgebung und überwachen seine Leistung. 

Workflows für maschinelles Lernen sind ein zentraler Baustein für die umfassendere Disziplin der maschinellen Lernvorgänge (MLOps). Ein Großteil des Prozesses kann durch verschiedene automatisierte Techniken des maschinellen Lernens (AutoML) automatisiert werden, die Abhängigkeiten zwischen Phasen und Endgeräten verwalten. 

Worin liegt der Unterschied zwischen einer Datenpipeline und einer ML-Pipeline? 

Eine Datenpipeline ist eine von Data Scientists entworfene und aufgebaute Architektur, die Daten aus verschiedenen Quellen sammelt und dann in einem zentralen Data Warehouse speichert und organisiert. Eine Pipeline für maschinelles Lernen ist ein Workflow zum Entwerfen, Erstellen und Bereitstellen eines KI-Systems. 

In beiden Fällen wird der Begriff Pipeline verwendet, aber während eine Datenpipeline eher ein konkretes System ist, handelt es sich bei einer ML-Pipeline um eine theoretische Reihe von Schritten. Eine ETL-Pipeline ist ein Beispiel für eine Datenpipeline, die Daten aus verschiedenen Quellen extrahiert, in ein einheitliches Format umwandelt und in ein Zielsystem lädt. Beim maschinellen Lernen sammelt eine ETL-Pipeline Daten und formatiert sie in ein Datensatz für das Training.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Stufe 0: Projektbeginn

Vor der Initialisierung eines ML-Workflows einigen sich Unternehmensleiter, Entwickler und andere Stakeholder über die Ziele eines Projekts für maschinelles Lernen. Wenn man versteht, warum KI benötigt wird und was sie erreichen soll, bleiben die Erwartungen realistisch und die Stakeholder können sich auf ein gemeinsames Ziel ausrichten.

    Was ist das Ziel?

    Bei der Entscheidung, ob KI in einen Workflow oder ein Produkt integriert werden soll, müssen Stakeholder zunächst das Geschäftsziel identifizieren, das das ML-Modell lösen soll, und dann zeigen, wie KI es erfüllen kann. Einige Unternehmen nähern sich KI mit dieser umgekehrten Logik: „Wir wollen KI nutzen. Was sollen wir damit machen?“ 

    Für den maximalen Return on Investment (ROI) von KI müssen Führungskräfte den Anwendungsfall verstehen und dann auf eine auf diesen Zweck zugeschnittene ML-Lösung hinarbeiten.

    Wie sieht Erfolg aus?

    Klare Metriken für den Erfolg, wie z. B. dokumentierte KPIs (Key Performance Indicators), informieren die Stakeholder darüber, ob das ML-Projekt seine Ziele erreicht. Diese KPIs sollten die in der vorherigen Phase gesetzten Ziele widerspiegeln. Zum Beispiel könnte ein ML-Modell, das zur Steigerung der Effizienz bereitgestellt wird, darauf abzielen, den ROI zu priorisieren.

    Was steht im Weg?

    Die Kenntnis der Geschäftswelt und potenzieller Blocker hilft den Teams, das Projekt effektiv zu steuern. Dieser Schritt umfasst die Definition der Datenanforderungen und die Bewertung der einschlägigen Vorschriften für die Datenerfassung und Speicher. Dasselbe gilt für alle Einschränkungen, die sich auf die Modellauswahl auswirken könnten, wie z. B. Rechen- oder Speicheranforderungen.

    AI Academy

    KI-Experte werden

    Erlangen Sie das nötige Wissen, um KI-Investitionen zu priorisieren, die das Unternehmenswachstum vorantreiben. Starten Sie noch heute mit unserer kostenlosen AI Academy und gestalten Sie die Zukunft der KI in Ihrem Unternehmen.

    Phase 1: Datenverarbeitung

    Nachdem das Problem, das das ML-Modell lösen soll, festgelegt wurde, besteht der erste Schritt in einem ML-Workflow darin, die Daten zu sammeln, aufzubereiten und zu analysieren. Praktiker müssen relevante Datenquellen identifizieren, Daten aus ihnen sammeln und integrieren, die Daten vorbereiten und bereinigen und dabei Data-Science-Techniken einschließlich Funktionstechnik einsetzen, um zu einem vorbereiteten Datensatz zu gelangen. 

    Die Datenverarbeitung ist in der Regel die zeitaufwändigste. Die Leistung des ML-Modells hängt jedoch von guten Daten ab. Alle Fehler und Versäumnisse in der Datenentwicklungsphase wirken sich negativ auf die Leistung des Modells während seines gesamten Lebenszyklus aus. Strategien zurDatenautomatisierung können den Zeit- und Arbeitsaufwand für die Erstellung starker Trainingsdatensätze reduzieren. 

    Die Datenverarbeitung umfasst: 

    • Datenaufnahme 

    • Datenvorverarbeitung

    • Datenexploration 

    • Funktionsentwicklung 

    • Aufteilung der Daten 

      Datenaufnahme

      Datenaufnahme ist die Erfassung und der Import von Daten aus verteilten Datenquellen in ein zentralisiertes Daten-Repository über eine Datenpipeline. Data Scientist müssen geeignete Datenquellen identifizieren, z. B. proprietäre Unternehmensdaten, die intern gespeichert sind – Verkaufsberichte, demografische Kundendaten und anderes Unternehmenswissen. 

      Manchmal werden auch externe Daten benötigt. Zu den externen Datenquellen gehören API-Verbindungen zu Datenanbietern, aus dem Internet gescrapte Daten oder synthetische Daten. Da ständig neue Daten erstellt werden, ist die Datenaufnahme oft ein kontinuierlicher Prozess.

      Datenvorverarbeitung

      Die Datenvorverarbeitung oder Datenaufbereitung wandelt die Rohdaten aus dem vorherigen Schritt in saubere Daten um, die für die Analyse bereit sind. Nachdem sich der Data Scientist durch explorative Datenanalyse (EDA) ein Verständnis der Trainingsdaten verschafft hat, wählt er die Strategie zur Datenvorverarbeitung aus. Zu den Schritten der Datenvorverarbeitung gehören: 

      • Missing Values identifizieren und mit Sonderfällen umgehen

      • Datennormalisierung: Standardisierung des Datensatzes

      • Denoising: Entfernen von zufälligen Fehlern und Signalinterferenzen 

      Datenexploration

      Datenexploration ist der Prozess der Auswertung von Daten, um die darin enthaltenen Informationen zu verstehen. EDA zielt darauf ab, die Eigenschaften der Daten zu lernen, Muster und Beziehungen zu erkennen und mit Hilfe von Datenvisualisierung -Tools Erkenntnisse zu gewinnen. 

      Die EDA-Ergebnisse fließen in die nächsten Modellauswahlentscheidungen ein.

      Funktionsentwicklung

      Die Funktionsauswahl ist ein entscheidender Schritt der Datenvorverarbeitung, bei dem die relevanteste Funktion bzw. die relevantesten Merkmale der Datenpunkte identifiziert werden. Es werden Datenmerkmale extrahiert und ausgewählt, die dem Modell die bestmögliche Chance geben, reale Herausforderungen zu lösen. 

      Wenn Sie sich auf die falschen Funktionen konzentrieren, kann das zu einem Modell führen, das nicht die beabsichtigte Leistung erbringt. Nach der Anwendung von Funktionsextraktionstechniken zur Optimierung der Daten wählen Data Scientists die Funktionen aus, die zu den stärksten Modellvorhersagen führen werden.

      Stufe 2: Modellentwicklung

      Nachdem die Trainingsdaten aufbereitet wurden, besteht der nächste Schritt im ML-Workflow darin, das Modell für maschinelles Lernen zu erstellen. Der Prozess der Erstellung eines Deep Learning-Modells umfasst die Auswahl eines geeigneten maschinelles Lernen-Algorithmus und dessen Bereitstellung für die Datensätze. Das Ergebnis dieses Prozesses ist die Erstellung eines KI-Modells, das mit ähnlichen unsichtbaren Daten für den realen Einsatz bereit ist. 

      Der Modellentwicklungsprozess umfasst: 

      • Modellauswahl 

      • Hyperparameter-Tuning 

      • Modelltraining

      • Modellevaluierung

      Modellauswahl

      Unter Modellauswahl versteht man den Prozess der Auswahl des Modelltyps, der im beabsichtigten Anwendungsfall am ehesten die höchste Leistung liefert. In der anfänglichen Projektplanungsphase haben alle Stakeholder und Teilnehmer bereits ein klares Verständnis der geschäftlichen Anforderungen, Einschränkungen und Projektziele vermittelt. ML-Anwender stützen ihre Entscheidungen auf diese Faktoren und wägen Optimierung und Durchführbarkeit ab. 

      Zur Auswahl stehen unter anderem lineare und logistische Regression, Random Forests und Entscheidungsbaum, neuronale Netze und große Sprachmodelle (LLMs), Support Vector Machines (SVMs), Ensemble-Modelle, agentenbasierte Systeme und viele andere. 

      Je nach Art der Herausforderung des maschinellen Lernens sind bestimmte Arten von Algorithmen besser geeignet. 

      Neuronale Netze können beispielsweise komplexe generative KI-Herausforderungen bewältigen, verursachen aber hohe Rechenkosten und neigen eher zu Überanpassung. Regressionsmodelle sind recheneffizient, haben aber begrenzte Anwendungsfall.

      Hyperparameter-Tuning

      Modell-Hyperparameter sind externe Variablen, die das Verhalten des Modells während des Trainings steuern. Hyperparameter bestimmen auch die Form des Modells, das der Algorithmus erstellt, z. B. die Anzahl der Neuronen und Schichten in einem Neural Networks. 

      Hyperparameter-Tuning ist der Prozess der Optimierung der Hyperparameter, damit der Trainingsprozess ein leistungsstarkes Modell hervorbringt. Data Scientists können Hyperparameter manuell festlegen, automatisieren den Prozess jedoch in der Regel durch verschiedene Algorithmen und andere Techniken.

      Modelltraining

      Beim Modelltraining wird die Leistung eines Modells mit Hilfe von Datensätzen optimiert, die den Eingaben ähneln, die das Modell nach der Bereitstellung verarbeitet. Eine Trainingspipeline für maschinelles Lernen ist ein umfangreiches System, das je nach Algorithmus und Aufgabe, für die das Modell entwickelt wird, eine beliebige Form annehmen kann. 

      Viele Trainingsmethoden drehen sich um die Minimierung einer Verlustfunktion, die den Fehler des Modells misst: die Lücke zwischen den Outputs des Modellsund den realen Datenwerten. Mit jeder Trainingsrunde aktualisiert das neue Modell seine Parameter, da es näher an die Trainingsdaten passt. Bei jeder Aktualisierung werden die vorherigen Ergebnisse durchlaufen. 

      Zu den Methoden für das Modelltraining gehören: 

      • Überwachtes Lernen: Das Modell wird anhand eines Datensatz strukturierter Daten trainiert. Die Eingaben werden mit entsprechenden Ausgaben beschriftet, wodurch das Modell lernt, Funktionen den richtigen Ausgaben zuzuordnen. 

      • Unüberwachtes Lernen: Das Modell wird mit unstrukturierten Daten trainiert und muss die Muster und Beziehungen zwischen Datenpunkten und Funktionen selbstständig erkennen. 

      • Semi-überwachtes Lernen: Das Modell wird mit einer Hybridmethode trainiert, die überwachtes und unüberwachtes Lernen kombiniert. 

      • Selbstüberwachtes Lernen: Das Modell wird mit nicht gekennzeichneten Daten für Aufgaben trainiert, die normalerweise überwachtes Lernen erfordern. 

      • Verstärkendes Lernen: Das Modell wird so trainiert, dass es die Aktionen ausführt, die die größtmögliche Belohnung generieren, anstatt Fehler zu minimieren. 

      • Kontinuierliches Lernen: Das Modell wird anhand eines Echtzeitstroms von Eingaben trainiert, im Gegensatz zu einem vorgefertigten Trainingsdatensatz.

      Modellevaluierung

      Nachdem das Modell als trainiert angesehen wurde (z. B. wenn seine Verlustfunktion ausreichend minimiert wurde), wird seine Leistung vor der Bereitstellung bewertet. Für den LLM-Evaluierungsprozess werden die Test- und Validierungsdatensätze verwendet, die während der Datenaufteilungsphase vorbereitet wurden.

      Überprüfung

      Die Validierung schätzt den Vorhersagefehler des Modells: Wie gut ist es in der Lage, die richtigen Vorhersagen zu treffen? Während des Trainings gibt der Algorithmus für maschinelles Lernen oft mehrere Modelle mit verschiedenen Hyperparameterkonfigurationen aus. Die Validierung identifiziert das Modell mit der optimalen Hyperparameterkonfiguration.

      Testen

      Bei den Tests werden reale Werte simuliert, um den Generalisierungsfehler des leistungsstärksten Modells zu bewerten: Wie gut passt sich das Modell an neue, noch nicht gesehene Daten an? Testdaten sind unabhängig von Trainingsdaten und messen die Leistung des Modells nach Abschluss des Trainings mit Benchmark. Tests geben an, ob das Modell nach der Bereitstellung die beabsichtigte Leistung erbringt.

      Phase 3: Bereitstellung des Modells

      Nachdem Sie ein geeignetes Modell mit starker Leistung entwickelt haben, ist es an der Zeit, dieses Modell in die Tat umzusetzen. Die Modellbereitstellung stellt das Modell den Benutzern in der vorgesehenen Produktionsumgebung zur Verfügung. Dabei kann es sich um alles Mögliche handeln, von einer mobilen App oder API-Verbindung bis hin zu einer pharmazeutischen Entwicklungs- oder Robotertechnik-Forschungseinrichtung. 

      Modelle beginnen erst zu funktionieren, wenn sie aktiv bereitgestellt werden. Um gute Ergebnisse bei einem Projekt für maschinelles Lernen zu erzielen, muss das Modell so bereitgestellt werden, dass es leicht zu nutzen ist, sei es durch Verbraucher, Führungskräfte oder andere Computersysteme. 

      Die Modellbereitstellung umfasst: 

      • Serialisierung von Modellen 

      • Integration 

      • Architektur 

      • Überwachung 

      • Updates 

      • Konformität

      Serialisierung von Modellen 

      Die Serialisierung ist eine gängige Bereitstellungs- methode, bei der ein Modell in ein Format konvertiert wird, das gespeichert und übertragen werden kann, und anschließend in der Produktionsumgebung deserialisiert wird. Es ist, als würde man einen Raum voller Habseligkeiten in eine Kiste packen, die Kiste in ein neues Zuhause bringen und dann auspacken, um den neuen Raum einzurichten. 

      Python, eine bei der ML-Entwicklung beliebte Programmiersprache, empfiehlt beispielsweise das Pickle-Framework für die Bereitstellung.

      Integration

      Die Integration integriert das Modell in seine Produktionsumgebung, beispielsweise eine mobile App. Modelle können über Cloud-Computing-Anbieter wie AWS oder Azure bereitgestellt oder vor Ort gehostet werden. Alternativ ist es möglicherweise besser, eine containerisierte Lösung wie Kubernetes und Docker zu verwenden. 

      Je nachdem, wie das Modell bedient werden soll, müssen die Entwickler es mit den entsprechenden Bibliotheken und Frameworks für maschinelles Lernen wie PyTorch oder TensorFlow Serving zugänglich machen.

      Architektur

      Portabilität und Skalierbarkeit sind zwei Hauptaspekte, die bei der Bereitstellung von ML berücksichtigt werden müssen. 

      • Portabilität ist die Leichtigkeit, mit der das Modell zwischen Systemen übertragen werden kann. 

      • Skalierbarkeit ist die Fähigkeit des Modells, wachsende Workloads, wie z. B. eine wachsende Benutzerbasis, zu bewältigen, ohne dass es neu gestaltet werden muss. 

      Die Produktionsumgebung des Modells muss in der Lage sein, das prognostizierte Wachstum des maschinellen Lernprojekts zu unterstützen. Automatische Skalierung und Orchestrierungstools können dazu beitragen, die erhöhte Nachfrage im Laufe der Zeit zu bewältigen.

      Überwachung

      Der ML-Workflow ist nicht abgeschlossen, wenn das Modell bereitgestellt wurde. Die Leistung des Modells muss im Laufe des KI-Lebenszyklus überwacht werden, um Modelldrift zu vermeiden: wenn die Leistung aufgrund von Änderungen in der Datenverteilung leidet. Viele andere Metriken beziehen sich auf die Fähigkeit des Modells, Token zu generieren und zu verarbeiten: eine einzelne Eingabe- oder Ausgabeeinheit. Zu diesen Metriken gehören: 

      • Zeit pro Ausgabetoken (TPOT)/Latenz zwischen Token (ITL): Die Zeit, die das Modell benötigt, um ein Token zu generieren. 

      • Zeit bis zum ersten Token (Time to First Token, TTFT): Die Zeit, die ein Modell benötigt, um das erste Token seiner Antwort zu generieren. 

      • Durchsatz: Ein Maß für die Gesamtkapazität des Modells für die Tokengenerierung, gemessen in Token pro Sekunde (TPS). 

      • Latenz: Die Zeit, die das Modell benötigt, um nach dem Empfang einer Benutzereingabe eine vollständige Ausgabe zu generieren.

      Updates

      Sofern ein Modell nicht mit kontinuierlichem Lernen trainiert wird, ist sein Trainingsdatensatz endlich. Der Wissensgrenzwert eines Modells bezieht sich auf das letzte Datum, an dem seine Wissensbasis mit neuen Daten aktualisiert wurde. Im Laufe der Zeit verliert ein Modell an Relevanz, da die Informationen in der Wissensdatenbank immer veralteter werden. 

      Modelle müssen regelmäßig aktualisiert werden, um die Modellabweichung zu verringern und die Fehlerquote auf ein akzeptables Minimum zu halten. Neue Daten, neue Funktionen und Algorithmus-Updates können die Modellleistung optimieren. Auch Weiterbildungen können dazu beitragen, dass Modelle auf dem neuesten Stand bleiben.

      Konformität

      Unabhängig von der Datenerfassung müssen Modellbetreiber alle relevanten gesetzlichen Vorschriften und Anforderungen in Bezug auf Datenschutz, geistiges Eigentum, Urheberrecht und andere Belange berücksichtigen. Zum Beispiel schützt HIPAA medizinische Daten in den USA, während die DSGVO spezifische Datenschutzmaßnahmen für Menschen in der Europäischen Union bietet. 

      Modelle, die für den Einsatz in regulierten Branchen wie der Pharma- und Finanzbranche entwickelt wurden, können ebenfalls strengeren Betriebskontrollen unterliegen. Alle Modelle, die in einer Unternehmensumgebung verwendet werden, verarbeiten wahrscheinlich sensible interne Daten, was starke Cybersicherheit erfordert. 

      Modellbetreiber sind verpflichtet, Benutzerdaten zu schützen und zu verhindern, dass ihre Modelle für böswillige Zwecke wie Betrug und Fehlinformationen verwendet werden. Ein Vorteil von Open-Source-Modellen ist, dass jeder das Modell bewerten kann, um zu sehen, wie es funktioniert und ob es alle relevanten Vorschriften einhält.

      Vorteile des Workflows für maschinelles Lernen

      Pipelines für maschinelles Lernen bieten viele Vorteile, wie z. B.: 

      • Modularisierung 

      • Reproduzierbarkeit

      • Effizienz 

      • Skalierbarkeit

      • Experimentieren 

      • Bereitstellung 

      • Zusammenarbeit 

      • Versionskontrolle und Dokumentation

      Modularisierung

      Pipelines unterteilen den Prozess des maschinellen Lernens in modulare, gut definierte Schritte. Jeder Schritt kann unabhängig entwickelt, getestet und optimiert werden, was die Verwaltung und Wartung des Workflows erleichtert.

      Reproduzierbarkeit

      Pipelines für maschinelles Lernen erleichtern die Reproduzierung von Experimenten. Die Definition der Schrittfolge und ihrer Parameter in einer Pipeline trägt dazu bei, konsistente Ergebnisse zu gewährleisten. Wenn ein Schritt fehlschlägt oder sich die Leistung eines Modells verschlechtert, kann die Pipeline so konfiguriert werden, dass sie Warnungen ausgibt oder Korrekturmaßnahmen ergreift.

      Effizienz

      Effizienz: Pipelines automatisieren viele Routineaufgaben wie Datenvorverarbeitung, Feature-Engineering und Modellevaluierung. Diese Effizienz kann Zeit sparen und die Fehler reduzieren.

      Skalierbarkeit

      Pipelines können skaliert werden, um große Datensätze oder komplexe Workflows zu verarbeiten. Wenn die Daten- und Modellkomplexität zunehmen, können Sie die Pipeline anpassen, ohne alles von Grund auf neu konfigurieren zu müssen.

      Experimentieren

      Die Änderung einzelner Schritte innerhalb der Pipeline öffnet die Tür zum Experimentieren mit verschiedenen Datenvorverarbeitungstechniken, Funktionenauswahlen und Modellen. Diese Flexibilität ermöglicht eine schnelle Iteration und Optimierung.

      Bereitstellung

      Pipelines erleichtern die Bereitstellung von Modellen für maschinelles Lernen in der Produktion. Eine gut definierte Pipeline für das Modelltraining und die Modellbewertung erleichtert die Bereitstellung in einer Anwendung oder einem System.

      Collaboration

      Pipelines ermöglichen Teams von Data Scientists und Ingenieuren die Zusammenarbeit. Da der Workflow strukturiert und dokumentiert ist, können Teammitglieder ihn leichter verstehen und zum Projekt beitragen.

      Versionskontrolle und Dokumentation

      Versionskontrollsysteme verfolgen Änderungen an Pipelinecode und Konfigurationen und ermöglichen ein Rollback auf frühere Versionen. Eine gut strukturierte Pipeline fördert eine bessere Dokumentation der einzelnen Schritte.

      Geschichte der Pipelines für maschinelles Lernen

      Die Geschichte der Pipelines für maschinelles Lernen ist eng an die Entwicklung von maschinellem Lernen und Data Science als Felder gebunden. Während das Konzept der Datenverarbeitung-Workflows schon vor dem maschinellen Lernen entstand, haben sich die Formalisierung und der weit verbreitete Einsatz von Workflows für maschinelles Lernen in jüngerer Zeit entwickelt. 

      Die Geschichte der Pipelines für maschinelles Lernen umfasst die folgenden Entwicklungen: 

      • Frühe Datenverarbeitungsworkflows (vor den 2000er Jahren) 

      • Entstehung des maschinellen Lernens (2000er Jahre) 

      • Aufstieg von Data Science (Ende der 2000er bis Anfang der 2010er Jahre) 

      • Entwicklung von Bibliotheken und Tools für maschinelles Lernen (2010er Jahre) 

      • Aufstieg von AutoML (2010er) 

      • Integration mit DevOps (2010er Jahre) 

      Frühe Workflows der Datenverarbeitung (vor den 2000er Jahren)

      Vor der großflächigen Einführung des maschinellen Lernens wurden Datenverarbeitungsworkflows für Aufgaben wie Datenbereinigung, -transformation und -analyse verwendet. Diese Workflows erfolgten in der Regel manuell und erforderten die Erstellung von Skripten oder die Verwendung von Tools wie Tabellenkalkulationssoftware. Maschinelles Lernen war jedoch in diesem Zeitraum kein zentraler Bestandteil dieser Prozesse.

      Entstehung des maschinellen Lernens (2000er Jahre)

      Maschinelles Lernen gewann in den frühen 2000er Jahren mit Fortschritten bei Algorithmen, Rechenleistung und der Verfügbarkeit großer Datensätze an Bedeutung. Forscher und Datenwissenschaftler begannen, maschinelles Lernen in verschiedenen Bereichen anzuwenden, was zu einem wachsenden Bedarf an systematischen und automatisierten Workflows führte.

      Aufstieg der Data Science (Ende der 2000er bis Anfang der 2010er Jahre)

      Der Begriff Data Science wurde als multidisziplinäres Feld beliebt, das Statistiken, Datenanalysen und maschinelles Lernen kombiniert. In dieser Zeit wurden Datenwissenschafts-Workflows formalisiert, darunter die Vorverarbeitung, Modellauswahl und -evaluierung von Daten, die jetzt integrale Bestandteile der Pipelines für maschinelles Lernen sind.

      Entwicklung von Bibliotheken und Tools für maschinelles Lernen (2010er Jahre)

      Die 2010er Jahre brachten die Entwicklung von Bibliotheken und Tools für maschinelles Lernen, die Erstellung von Pipelines erleichterten. Bibliotheken wie Scikit-learn (für Python) und Caret (für R) lieferten standardisierte APIs zum Erstellen und Auswerten von Modellen für maschinelles Lernen, was das Erstellen von Pipelines erleichtert.

      Der Aufstieg von AutoML (2010er Jahre)

      Tools und Plattformen für automatisiertes maschinelles Lernen (AutoML) wurden entwickelt, um den Prozess der Erstellung von Pipelines für maschinelles Lernen zu automatisieren. Diese Tools automatisieren in der Regel Aufgaben wie Hyperparameter-Tuning, Merkmalsauswahl und Modellauswahl und machen maschinelles Lernen mit Visualisierungen und Tutorials für Laien zugänglicher.

      Integration mit DevOps (2010er Jahre)

      DevOps-Praktiken begannen, maschinelles Lernen-Pipelines zu integrieren, um die kontinuierliche Integration und Bereitstellung (CI/CD) von Modellen für maschinelles Lernen zu ermöglichen. Diese als maschinelles Lernen (Machine Learning Operations, MLOps) bezeichnete Integration betonte die Notwendigkeit von Reproduzierbarkeit, Versionskontrolle und Überwachung in ML-Pipelines. 

      MLOps hilft Data-Science-Teams, komplexe Herausforderungen bei der KI-Orchestrierung effektiv zu meistern. In der Echtzeit-Bereitstellung antwortet die Pipeline innerhalb von Millisekunden auf eine Anfrage.

      Weiterführende Lösungen
      IBM watsonx.ai

      Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

      Entdecken sie watsonx.ai
      Lösungen im Bereich künstlicher Intelligenz

      Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

      Erkunden Sie KI-Lösungen
      KI-Beratung und -Services

      Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

      KI-Services entdecken
      Machen Sie den nächsten Schritt

      Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

      watsonx.ai erkunden Buchen Sie eine Live-Demo