Eine Datenpipeline ist eine Methode, bei der Rohdaten aus verschiedenen Datenquellen erfasst, konvertiert und dann zur Analyse in einen Datenspeicher wie einen Data Lake oder ein Data Warehouse übertragen werden.
Bevor Daten in einen Speicher eingespeist werden, werden sie in der Regel vorverarbeitet. Dies beinhaltet Konvertierungen wie Filterung, Maskierung und Aggregationen, die eine angemessene Datenintegration und Standardisierung sicherstellen. Dies ist besonders wichtig, wenn der Datensatz in eine relationale Datenbank übertragen wird. In dieser Art von Datenspeicher müssen Spalten und Datentypen ein bestimmtes Muster einhalten, damit vorhandene Daten durch neue aktualisiert werden können.
Wie der Name nahelegt, fungieren Datenpipelines als „Leitungssysteme“ für Data-Science-Projekte oder Business-Intelligence-Dashboards. Daten können aus den verschiedensten Quellen stammen – z. B. APIs, SQL- und NoSQL-Datenbanken, Dateien usw. – sind aber meist nicht direkt verwendbar. Beim Bereitstellen wird die Datenabstammung verfolgt, um die Beziehung zwischen Unternehmensdaten in verschiedenen Geschäfts- und IT-Anwendungen zu dokumentieren, z. B. wo sich Daten aktuell befinden und wie sie in einer Umgebung gespeichert werden, z. B. lokal, in einem Data Lake oder Data Warehouse.
In der Regel übernehmen Data Scientists oder Dateningenieure die Aufbereitung der Daten, um sie so zu strukturieren, dass sie die Anforderungen der geschäftlichen Anwendungsfälle erfüllen und riesige Datenmengen verarbeiten können. Wie die Daten in einer Datenpipeline zu verarbeiten sind, ergibt sich normalerweise durch eine Mischung aus explorativer Datenanalyse und definierten Geschäftsanforderungen. Sobald die Daten entsprechend gefiltert, zusammengeführt und zusammengefasst wurden, können sie gespeichert und zur Nutzung bereitgestellt werden. Gut organisierte Datenpipelines stellen die Grundlage für die verschiedensten Datenprojekte bereit, wie explorative Datenanalysen, Datenvisualisierungen und Aufgaben des maschinellen Lernens.