Eine Pipeline für maschinelles Lernen ist eine Reihe miteinander verbundener Datenverarbeitungs- und Modellierungsschritte, die entwickelt wurden, um den Prozess der Erstellung, Schulung, Bewertung und Bereitstellung von maschinellen Lernmodellen zu automatisieren, zu standardisieren und zu optimieren.
Eine Pipeline für maschinelles Lernen ist eine entscheidende Komponente bei der Entwicklung und Produktion von Systemen für maschinelles Lernen und hilft Data Scientists und Dateningenieuren, die Komplexität des End-to-End-Prozesses des maschinellen Lernens zu bewältigen und genaue und skalierbare Lösungen für ein breites Spektrum zu entwickeln von Anwendungen.
Pipelines für maschinelles Lernen bieten viele Vorteile.
Die Technologie für maschinelles Lernen entwickelt sich rasant weiter. Wir können einige weitreichende Schritte identifizieren, die beim Erstellen und Bereitstellen von Modellen für maschinelles Lernen und Deep Learning erforderlich sind.
Die Lebenszyklen des maschinellen Lernens können unterschiedlich komplex sein und je nach Anwendungsfall zusätzliche Schritte umfassen, z. B. Hyperparameteroptimierung, Kreuzvalidierung und Funktionsauswahl.Ziel einer Pipeline für maschinelles Lernen ist es, diese Prozesse zu automatisieren und zu standardisieren, was die Entwicklung und Wartung von ML-Modellen für verschiedene Anwendungen erleichtert.
Die Geschichte der Pipelines für maschinelles Lernen ist eng an die Entwicklung von maschinellem Lernen und Data Science als Felder gebunden. Während das Konzept der Datenverarbeitungsworkflows schon vor dem maschinellen Lernen entstand, haben sich die Formalisierung und der weit verbreitete Einsatz von Pipelines für maschinelles Lernen, wie wir sie heute kennen, in jüngerer Zeit entwickelt.
Workflows zur frühzeitigen Datenverarbeitung (vor den 2000er Jahren): Vor der weitreichenden Einführung von maschinellem Lernen wurden Datenverarbeitungs-Workflows für Aufgaben wie Datenbereinigung, Transformation und Analyse verwendet. Diese Workflows erfolgten in der Regel manuell und erforderten die Erstellung von Skripten oder die Verwendung von Tools wie Tabellenkalkulationssoftware. Maschinelles Lernen war jedoch in diesem Zeitraum kein zentraler Bestandteil dieser Prozesse.
Entstehung des maschinellen Lernens (2000er Jahre): Maschinelles Lernen gewann in den frühen 2000er Jahren mit Fortschritten bei Algorithmen, Rechenleistung und der Verfügbarkeit großer Datensätze an Bedeutung. Forscher und Datenwissenschaftler begannen, maschinelles Lernen in verschiedenen Bereichen anzuwenden, was zu einem wachsenden Bedarf an systematischen und automatisierten Workflows führte.
Anstieg der Datenwissenschaft (Ende der 2000er bis Anfang der 2010er Jahre): Der Begriff „Data Science“ als multidisziplinäres Feld beliebt, das Statistiken, Datenanalysen und maschinelles Lernen kombiniert. In dieser Zeit wurden Datenwissenschafts-Workflows formalisiert, darunter die Vorverarbeitung, Modellauswahl und -evaluierung von Daten, die jetzt integrale Bestandteile der Pipelines für maschinelles Lernen sind.
Entwicklung von Bibliotheken und Tools für maschinelles Lernen (2010er Jahre): Die 2010er Jahre brachten die Entwicklung von Bibliotheken und Tools für maschinelles Lernen, die die Erstellung von Pipelines erleichterten. Bibliotheken wie Scikit-learn (für Python) und Caret (für R) lieferten standardisierte APIs zum Erstellen und Auswerten von Modellen für maschinelles Lernen, was das Erstellen von Pipelines erleichtert.
Aufstieg von AutoML (2010er Jahre): Es entstanden Tools und Plattformen für automatisiertes maschinelles Lernen (AutoML), die darauf abzielten, den Prozess der Erstellung von Pipelines für maschinelles Lernen zu automatisieren. Diese Tools automatisieren in der Regel Aufgaben wie Hyperparameter-Tuning, Merkmalsauswahl und Modellauswahl und machen maschinelles Lernen mit Visualisierungen und Tutorials für Laien zugänglicher. Apache Airflow ist ein Beispiel für eine Open-Source-Workflow-Management-Plattform, die zum Aufbau von Datenpipelines verwendet werden kann.
Integration mit DevOps (2010er): Pipelines für maschinelles Lernen wurden zunächst in DevOps-Praktiken integriert, um die kontinuierliche Integration und Bereitstellung (CI/CD) von Modellen für maschinelles Lernen zu ermöglichen. Diese Integration betonte die Notwendigkeit von Reproduzierbarkeit, Versionskontrolle und Überwachung in ML-Pipelines. Diese Integration wird als maschinelles Lernen oder MLOps bezeichnet und hilft Data-Science-Teams dabei, die Komplexität der Verwaltung der ML-Orchestrierung effektiv zu bewältigen. In einer Echtzeit-Bereitstellung antwortet die Pipeline auf eine Anfrage innerhalb von Millisekunden nach der Anforderung.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io