Die Geschichte der Pipelines für maschinelles Lernen ist eng an die Entwicklung von maschinellem Lernen und Data Science als Felder gebunden. Während das Konzept der Datenverarbeitungsworkflows schon vor dem maschinellen Lernen entstand, haben sich die Formalisierung und der weit verbreitete Einsatz von Pipelines für maschinelles Lernen, wie wir sie heute kennen, in jüngerer Zeit entwickelt.
Workflows zur frühzeitigen Datenverarbeitung (vor den 2000er Jahren): Vor der weitreichenden Einführung von maschinellem Lernen wurden Datenverarbeitungs-Workflows für Aufgaben wie Datenbereinigung, Transformation und Analyse verwendet. Diese Workflows erfolgten in der Regel manuell und erforderten die Erstellung von Skripten oder die Verwendung von Tools wie Tabellenkalkulationssoftware. Maschinelles Lernen war jedoch in diesem Zeitraum kein zentraler Bestandteil dieser Prozesse.
Entstehung des maschinellen Lernens (2000er Jahre): Maschinelles Lernen gewann in den frühen 2000er Jahren mit Fortschritten bei Algorithmen, Rechenleistung und der Verfügbarkeit großer Datensätze an Bedeutung. Forscher und Datenwissenschaftler begannen, maschinelles Lernen in verschiedenen Bereichen anzuwenden, was zu einem wachsenden Bedarf an systematischen und automatisierten Workflows führte.
Anstieg der Datenwissenschaft (Ende der 2000er bis Anfang der 2010er Jahre): Der Begriff „Data Science“ als multidisziplinäres Feld beliebt, das Statistiken, Datenanalysen und maschinelles Lernen kombiniert. In dieser Zeit wurden Datenwissenschafts-Workflows formalisiert, darunter die Vorverarbeitung, Modellauswahl und -evaluierung von Daten, die jetzt integrale Bestandteile der Pipelines für maschinelles Lernen sind.
Entwicklung von Bibliotheken und Tools für maschinelles Lernen (2010er Jahre): Die 2010er Jahre brachten die Entwicklung von Bibliotheken und Tools für maschinelles Lernen, die die Erstellung von Pipelines erleichterten. Bibliotheken wie Scikit-learn (für Python) und Caret (für R) lieferten standardisierte APIs zum Erstellen und Auswerten von Modellen für maschinelles Lernen, was das Erstellen von Pipelines erleichtert.
Aufstieg von AutoML (2010er Jahre): Es entstanden Tools und Plattformen für automatisiertes maschinelles Lernen (AutoML), die darauf abzielten, den Prozess der Erstellung von Pipelines für maschinelles Lernen zu automatisieren. Diese Tools automatisieren in der Regel Aufgaben wie Hyperparameter-Tuning, Merkmalsauswahl und Modellauswahl und machen maschinelles Lernen mit Visualisierungen und Tutorials für Laien zugänglicher. Apache Airflow ist ein Beispiel für eine Open-Source-Workflow-Management-Plattform, die zum Aufbau von Datenpipelines verwendet werden kann.
Integration mit DevOps (2010er): Pipelines für maschinelles Lernen wurden zunächst in DevOps-Praktiken integriert, um die kontinuierliche Integration und Bereitstellung (CI/CD) von Modellen für maschinelles Lernen zu ermöglichen. Diese Integration betonte die Notwendigkeit von Reproduzierbarkeit, Versionskontrolle und Überwachung in ML-Pipelines. Diese Integration wird als maschinelles Lernen oder MLOps bezeichnet und hilft Data-Science-Teams dabei, die Komplexität der Verwaltung der ML-Orchestrierung effektiv zu bewältigen. In einer Echtzeit-Bereitstellung antwortet die Pipeline auf eine Anfrage innerhalb von Millisekunden nach der Anforderung.