Mein IBM

Anmelden

Was ist eine Datenplattform?

Autoren

Was ist eine Datenplattform?

Eine Datenplattform ist eine Technologie, die das Sammeln, Speichern, Bereinigen, die Transformation, die Analyse und das Verwalten von Daten ermöglicht. Datenplattformen können sowohl Hardware- als auch Software-Komponenten umfassen. Sie erleichtern es Unternehmen, ihre Daten zu nutzen, um die Entscheidungsfindung und Abläufe zu verbessern.

Heutzutage verlassen sich viele Unternehmen auf komplexe Datenpipelines, um Datenanalysen, Data Science und datengesteuerte Entscheidungen zu unterstützen. Eine moderne Datenplattform bietet die Tools, die Unternehmen benötigen, um die Datenqualität zu sichern und den Wert ihrer Daten freischalten.

Insbesondere Datenplattformen können dabei helfen, umsetzbare Erkenntnisse zu gewinnen, Datensilos zu reduzieren, Self-Service-Analyse zu ermöglichen, die Automatisierung zu rationalisieren und Anwendungen der künstlichen Intelligenz (KI) zu unterstützen.

Eine Datenplattform, die auch als „Data Stack“ bezeichnet wird, besteht aus fünf grundlegenden Schichten: Datenspeicher und -verarbeitung, Datenaufnahme, Datenkonvertierung, Business Intelligence (BI) und Analyse sowie Daten-Observability.

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Abonnieren Sie noch heute

Arten von Datenplattformen

Datenplattformen können für spezifische Geschäftsfunktionen erstellt und konfiguriert werden. Zu den häufigsten Arten von Datenplattformen gehören:

Enterprise-Datenplattform (EDP)
Big-Data-Plattform (BDP)
Cloud-Datenplattform (CDP)
Kundendaten-Plattform (CDP)

Enterprise-Datenplattform (EDP)

Unternehmensdatenplattformen wurden ursprünglich als zentrale Repositories entwickelt, um Daten in einem Unternehmen leichter zugänglich zu machen. Auf diesen Plattformen wurden Daten in der Regel lokal, in operativen Datenbanken oder Data Warehouses gespeichert. Sie arbeiteten häufig mit strukturierten Kunden-, Finanz- und Lieferkettendaten.

Die modernen Datenplattformen von heute erweitern die Funktionen traditioneller Unternehmensdatenplattformen, um sicherzustellen, dass Daten korrekt und zeitnah sind, Silos reduzieren und Self-Service zu ermöglichen. Moderne Datenplattformen basieren oft auf einer Suite cloudnativ Software, die mehr Flexibilität und Kosteneffizienz unterstützt.

Die beiden grundlegenden Prinzipien, die für Unternehmensdatenplattformen gelten, sind:

Verfügbarkeit: Daten sind in einem Data Lake, Data Warehouse oder Data Lakehouse sofort verfügbar, wobei Speicherung und Berechnung getrennt sind. Durch die Aufteilung dieser Funktionen ist es möglich, große Datenmengen relativ kostengünstig zu speichern.
Elastizität: Die Rechenfunktionen sind cloudbasiert, was die automatische Skalierbarkeit ermöglicht. Wenn beispielsweise die meisten Daten und Analysen an einem bestimmten Tag und zu einer bestimmten Uhrzeit verwendet werden, kann die Verarbeitung automatisch hochskaliert werden, um eine bessere Customer Experience zu erzielen, und bei sinkenden Workload-Anforderungen wieder herunterskaliert werden.

Big-Data-Plattform (BDP)

Eine Big Data-Plattform ist darauf ausgelegt, große Datenmengen zu sammeln, zu verarbeiten und zu speichern, oft in Echtzeit. Angesichts der riesigen Datenmengen, die sie verarbeiten, verwenden Big Data-Plattformen häufig verteiltes Computing, bei dem die Daten auf viele Server verteilt sind.

Andere Arten von Datenplattformen können auch große Datenmengen verwalten, aber eine Big-Data-Plattform ist speziell dafür konzipiert, diese Daten mit hohen Geschwindigkeiten zu verarbeiten. Ein BDP der Unternehmensklasse ist in der Lage, komplexe Abfragen für riesige Datensätze durchzuführen, egal ob strukturiert, halbstrukturiert oder unstrukturiert. Zu den typischen Einsatzgebieten von BDP gehören Big-Data-Analysen, Betrugserkennung, prädiktive Analysen und Empfehlungssysteme.

Big Data-Plattformen sind oft als Software-as-a-Service (SaaS)-Produkte, als Teil eines Data-as-a-Service (DaaS)-Angebots oder in einer Cloud Computing-Suite erhältlich.

Cloud-Datenplattform (CDP)

Wie der Name schon sagt, ist das entscheidende Merkmal einer Cloud-Datenplattform, dass sie cloudbasiert ist, was mehrere Nutzen bietet:

Eine Cloud-Datenplattform ist oft auf einer Pay-as-you-go-Basis verfügbar.
Der Gesamtspeicherplatz ist flexibel und kann je nach Bedarf vergrößert oder verkleinert werden.
Für die Wartung einer Hardwareplattform vor Ort ist kein Personal erforderlich.
Eine Cloud-Datenplattform kann Plattformen für Big Data, Unternehmensdaten oder Kundendaten beherbergen.
Viele CDPs bieten zusätzliche Funktionen wie erweiterte Analysen, maschinelles Lernen (ML) und Visualisierungstools.

Kundendaten-Plattform (CDP)

Eine Kundendatenplattform sammelt und vereinheitlicht Kundendaten aus verschiedenen Quellen, um einen einzigen, kohärenten und vollständigen Blick auf jeden Kunden zu erhalten.

Der Input für die CDP können von einem System für Kundenbeziehungsmanagement (CRM) des Unternehmens, von Aktivitäten in sozialen Netzwerken, Kontaktpunkten mit dem Unternehmen, Transaktionssystemen oder Website-Analysen erhalten werden.

Eine einheitliche 360-Grad-Sicht auf die Kunden kann einem Unternehmen eine bessere Erkenntnis in ihr Verhalten und ihre Vorlieben verschaffen und so gezielteres Marketing, bessere Erfahrungen und neue Umsatzmöglichkeiten ermöglichen.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Zur Episode wechseln

Schichten in einer Datenplattform

Datenplattformen können je nach den Bedürfnissen des Unternehmens in allen Formen und Größen erhältlich sein. Eine typische Plattform umfasst mindestens diese fünf Schichten:

Datenspeicher
Datenaufnahme
Datenkonvertierung
Business Intelligence und Analysen
Beobachtbarkeit von Daten

1. Datenspeicher

Die erste Schicht in vielen Datenplattformen ist die Datenspeicherschicht. Die Art des verwendeten Datenspeichers hängt von den Bedürfnissen des Unternehmens ab und kann sowohl lokale als auch Cloud-Speicher umfassen. Zu den gängigen Datenlagern gehören:

Data Warehouses

Ein Data Warehouse – oder auch Enterprise Data Warehouse (EDW) – fasst Daten aus verschiedenen Quellen in einem einzigen, zentralen, einheitlichen Datenspeicher zusammen, um Datenanalyse, Data Mining, künstliche Intelligenz und maschinelles Lernen zu unterstützen. Data Warehouses werden am häufigsten für die Verwaltung strukturierter Daten mit klar definierten Analyse-Anwendungsfällen verwendet.

Data Lakes

Ein Data Lake ist eine kostengünstigere Speicherumgebung, in der typischerweise Petabyte an Rohdaten gespeichert sind. Ein Data Lake kann sowohl strukturierte als auch unstrukturierte Daten in verschiedenen Formaten speichern, sodass Forscher leichter mit einer Vielzahl von Daten arbeiten können.

Data Lakes wurden ursprünglich oft im Hadoop-Ökosystem erstellt, einem Open-Source-Projekt, das auf NoSQL basiert. Ab etwa 2015 begann die Verlagerung vieler Data Lakes in die Cloud. Eine typische Data Lake-Architektur könnte Daten auf einer object storage Plattform wie Amazon S3 von Amazon Web Services (AWS) speichern und ein Tool wie Spark zur Verarbeitung der Daten verwenden.

Data Lakehouses

Ein Data Lakehouse kombiniert die Funktionen von Data Warehouses und Data Lakes in einer einzigen Lösung für die Datenverwaltung.

Während Data Warehouses eine bessere Leistung als Data Lakes bieten, sind sie oft teurer und in ihrer Skalierbarkeit eingeschränkt. Data Lakes optimieren die Speicherkosten, aber es fehlt ihnen die Struktur für nützliche Analysen.

Ein Data Lakehouse wurde entwickelt, um diese Herausforderungen zu bewältigen, indem es Cloud Object Storage verwendet, um eine breitere Palette von Datentypen zu speichern, d. h. strukturierte Daten, unstrukturierte Daten und halbstrukturierte Daten. Eine Data-Lakehouse-Architektur kombiniert diesen Speicher mit Tools zur Unterstützung erweiterter Analysen, wie z. B. Business Intelligence und maschinelles Lernen.

2. Datenaufnahme

Der Vorgang, Daten aus verschiedenen Quellen zu sammeln und die Daten in ein Speichersystem zu verschieben, wird als Datenaufnahme bezeichnet. Nach der Aufnahme können die Daten zu Aufzeichnungszwecken oder zur weiteren Verarbeitung und Analyse verwendet werden.

Die Effektivität der Dateninfrastruktur eines Unternehmens hängt weitgehend davon ab, wie gut die Daten aufgenommen und integriert werden. Wenn es bei der Aufnahme Probleme gibt, z. B. fehlende oder veraltete Datensätze, kann jeder Schritt der nachgelagerten analytischen Workflows darunter leiden.

Bei der Aufnahme können je nach den Bedürfnissen eines Unternehmens und seiner übergreifenden Datenarchitektur unterschiedliche Datenverarbeitung verwendet werden.

Die Stapelverarbeitung ist die gängigste Form der Datenaufnahme. Dabei werden Daten nicht in Echtzeit verarbeitet, sondern gesammelt und in Batches gruppiert, die dann an den Speicher gesendet werden. Die Stapelverarbeitung kann mithilfe eines einfachen Zeitplans gestartet oder aktiviert werden, wenn bestimmte vorgegebene Bedingungen erfüllt sind. Sie wird in der Regel verwendet, wenn keine Echtzeitdaten erforderlich sind, da sie weniger Arbeit erfordert und weniger kostspielig ist als die Echtzeitverarbeitung.
Bei der Echtzeitverarbeitung, auch Streaming oder Stream Processing genannt, werden die Daten nicht gruppiert. Stattdessen werden Daten so gewonnen, transformiert und geladen, wie sie erkannt werden. Die Verarbeitung in Echtzeit ist teurer, da sie eine ständige Überwachung der Datenquellen erfordert.

3. Datenkonvertierung

Die dritte Ebene, die Datenkonvertierung, befasst sich mit der Änderung der Struktur und des Formats von Daten, um sie für die Analyse und andere Projekte nutzbar zu machen. Zum Beispiel können unstrukturierte Daten in ein SQL-Format konvertiert werden, um die Suche zu erleichtern. Daten können entweder vor oder nach der Ankunft am Speicherort transformiert werden.

Bis vor Kurzem nutzten die meisten Datenaufnahmemodelle ein ETL-Verfahren (Extrahieren, Transformieren, Laden), um Daten aus ihrer Quelle zu entnehmen, sie neu zu formatieren und an ihr Ziel zu transportieren. Das macht Sinn, wenn Unternehmen interne Analysesysteme verwenden. Durch die Vorbereitung der Daten vor der Übermittlung an das Ziel kann man die Kosten senken. Unternehmen, die noch lokale Data Warehouses verwenden, nutzen normalerweise einen ETL-Prozess.

Viele Unternehmen bevorzugen heute jedoch cloudbasierte Data Warehouses, wie IBM Db2 Warehouse, Microsoft Azure, Snowflake oder BigQuery von Google Cloud. Die Skalierbarkeit der Cloud ermöglicht es Unternehmen, ein ELT-Modell zu verwenden, das Transformationen vor dem Laden umgeht, um Rohdaten schneller direkt an das Data Warehouse zu senden. Die Daten werden dann nach dem Eintreffen nach Bedarf transformiert, in der Regel beim Ausführen einer Abfrage.

4. Business Intelligence und Analysen

Die vierte Datenplattformschicht enthält Business Intelligence (BI) und Analysetools, die es Benutzern ermöglichen, Daten für Geschäftsanalysen und Big Data-Analysen zu nutzen. Mit BI- und Analysetools können Benutzer beispielsweise Daten abfragen, in Visualisierungen umwandeln oder sie anderweitig bearbeiten.

Für viele Abteilungen in einem Unternehmen ist diese Schicht die Oberfläche der Datenplattform, auf der Benutzer direkt mit den Daten interagieren.

Forscher und Datenwissenschaftler können mit Daten arbeiten, um verwertbare Informationen und Erkenntnisse zu gewinnen. Marketingabteilungen könnten BI- und Analyse-Tools nutzen, um mehr über ihre Kunden zu erfahren und wertschöpfende Initiativen zu ermitteln. Lieferkettenteams könnten die Erkenntnisse aus der Datenanalyse nutzen, um Prozesse zu optimieren oder bessere Anbieter zu finden.

Die Verwendung dieser Schicht ist der Hauptgrund, warum Unternehmen überhaupt Daten sammeln.

5. Daten-Observability

Daten-Observability ist die Praxis der Überwachung, Verwaltung und Pflege von Daten, um die Datenqualität, -verfügbarkeit und -zuverlässigkeit zu fördern. Die Daten-Observability umfasst verschiedene Aktivitäten und Technologien, darunter Tracking, Protokollierung, Alertausgabe und Anomalieerkennung.

Wenn diese Aktivitäten kombiniert und auf einem Dashboard angezeigt werden, können die Benutzer Datenschwierigkeiten nahezu in Echtzeit erkennen und beheben. Zum Beispiel hilft die Observability-Ebene Data Engineering Teams dabei, spezifische Fragen zu den Geschehnissen hinter den Kulissen verteilter Systeme zu beantworten. Sie kann zeigen, wie Daten durch das System fließen, wo sich Daten langsam bewegen und was nicht funktioniert.

Darüber hinaus können Observability-Tools Manager, Datenteams und andere Stakeholder auf potenzielle Probleme aufmerksam machen, sodass sie diese proaktiv angehen können.

Zusätzliche Ebenen der Datenplattform

Zusätzlich zu den fünf grundlegenden Schichten gehören zu den weiteren in einem modernen Datenstack üblichen Schichten:

Datenerkennung

Unzugängliche Daten sind nutzlose Daten. Die Datenerkennung trägt dazu bei, dass Daten nicht einfach außer Sichtweite bleiben. Konkret geht es bei der Datenerkennung um das Sammeln, Auswerten und Untersuchen von Daten aus unterschiedlichen und voneinander unabhängigen Quellen, mit dem Ziel, Daten aus isolierten oder bisher unbekannten Quellen für die Analyse zusammenzuführen.

Data Governance

Bei moderne Datenplattformen liegt der Schwerpunkt häufig auf der Data-Governance und Datensicherheit, um sensible Informationen zu schützen, die Einhaltung von Vorschriften voranzutreiben, den Zugriff zu erleichtern und die Datenqualität zu verwalten. Zu den Tools, die diese Ebene unterstützen, gehören Zugriffskontrollen, Verschlüsselung, Auditing und Datenabstammung.

Datenkatalogisierung und Metadatenmanagement

Datenkataloge verwenden Metadaten – Daten, die Daten beschreiben oder zusammenfassen –, um ein informatives und durchsuchbares Inventar aller Daten-Assets in einem Unternehmen zu erstellen. Zum Beispiel kann ein Datenkatalog Menschen helfen, unstrukturierte Daten, einschließlich Dokumente, Bilder, Audio-, Video- und Datenvisualisierung, schneller zu finden.

Maschinelles Lernen und KI

Einige Datenplattformen, die für Unternehmen entwickelt wurden, bieten maschinelles Lernen und KI-Funktionen, damit Benutzer wertvolle Erkenntnisse aus Daten gewinnen können. Zum Beispiel könnten Plattformen vorausschauende Analysealgorithmen, Modelle für maschinelles Lernen zur Anomalie-Erkennung und automatisierte Erkenntnisse, die auf generativen KI-Tools basieren, bieten.

Warum Datenplattformen wichtig sind

Eine robuste Datenplattform kann einem Unternehmen helfen, mehr aus seinen Daten herauszuholen, indem sie dem technischen Personal eine bessere Kontrolle über die Daten und einen schnelleren Self-Service für alltägliche Benutzer ermöglicht.

Datenplattformen können dabei helfen, Silos aufzubrechen – eines der größten Hindernisse für die Nutzbarkeit von Daten. Einzelne Abteilungen – wie z. B. Personalwesen, Produktion und Lieferkette – verwalten möglicherweise unterschiedliche Daten in unterschiedlichen Umgebungen, was zu Inkonsistenzen und Überschneidungen führt. Wenn Daten auf einer Datenplattform zusammengeführt werden, entsteht eine unternehmensweite Single-Source-of-Truth (SSOT).

Durch die Beseitigung von Silos und eine verbesserte Datenintegration können Analysen und Geschäftsentscheidungen verbessert werden. Auf diese Weise sind Datenplattformen Schlüsselkomponenten einer robusten Data Fabric, die Entscheidungsträgern hilft, einen zusammenhängenden Überblick über Unternehmensdaten zu erhalten. Diese zusammenhängende Sichtweise kann Unternehmen helfen, neue Verbindungen zwischen Daten herzustellen und Big Data für Data Mining und vorausschauende Analyse zu nutzen.

Eine Datenplattform kann es einem Unternehmen auch ermöglichen, End-to-End-Datenprozesse zu untersuchen und neue Effizienzpotenziale zu finden. Eine unternehmenstaugliche Datenplattform kann auch den Zugriff auf Informationen beschleunigen, was die Effizienz sowohl bei der internen Entscheidungsfindung als auch bei der Arbeit mit Kunden steigern kann.

Schließlich kann eine gut verwaltete Datenplattform einen diversifizierten und redundanten Datenspeicher bieten und so die Widerstandsfähigkeit des Unternehmens gegenüber Cyberangriffen oder Naturkatastrophen verbessern.

Datenverwaltung für KI und Analyse

Entdecken Sie den Wert von Datenarchitekturen und erfahren Sie, wie das Datenbankportfolio von IBM dazu beitragen kann, Daten für alle Ihre Anwendungen, Analysen und KI-Workflows zu vereinfachen.

Ressourcen

Verwaltung von Daten für KI und Analysen in großem Maßstab

Erfahren Sie, wie ein offener Data-Lakehouse-Ansatz vertrauenswürdige Daten und eine schnellere Durchführung von Analysen und KI-Projekten ermöglichen kann.

2024 Gartner® Magic Quadrant™ for Data Integration Tools

IBM wurde im 2024 Gartner Magic Quadrant for Data Integration Tools zum 19. Mal in Folge als ein führender Anbieter im Bereich Datenintegrationstools genannt.

Das Datendifferenzierungsmerkmal

Erkunden Sie den Leitfaden für Datenexperten zum Aufbau eines datengestützten Unternehmens und zur Förderung von geschäftlichen Vorteilen.

Steigerung der Akzeptanz von KI mit KI-fähigen Daten

Erfahren Sie, warum KI-gestützte Datenintelligenz und Datenintegration entscheidend sind, um die Bereitschaft für strukturierte und unstrukturierte Daten zu fördern und KI-Ergebnisse zu beschleunigen.

Das hybride, offene Data Lakehouse für KI

Vereinfachen Sie den Datenzugriff und automatisieren Sie die Data Governance. Entdecken Sie die Vorteile einer Data-Lakehouse-Strategie für Ihre Datenarchitektur, einschließlich der Kostenoptimierung Ihrer Workloads und der Skalierung von KI und Analysen, mit all Ihren Daten, überall.

IBM Research® Veröffentlichungen zur Datenverwaltung

Erkunden Sie, wie IBM Research regelmäßig in neue Funktionen für IBM Cloud Pak® for Data integriert wird.

Gartner® prognostiziert 2024: Wie sich KI auf Analytics-Nutzer auswirken wird

Erhalten Sie einzigartige Einblicke in die sich entwickelnde Geschäftswelt der ABI-Lösungen und hebt die wichtigsten Ergebnisse, Annahmen und Empfehlungen für Führungskräfte im Bereich Daten und Analysen hervor.

Weiterführende Lösungen

Software und Lösungen für die Datenverwaltung

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden

IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken

Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken

Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden

IBM watsonx.data entdecken

Was ist eine Datenplattform?

Autoren

Jim Holdsworth

Matthew Kosinski

Was ist eine Datenplattform?

Die neuesten Erkenntnisse und Insights zu KI

Arten von Datenplattformen

Enterprise-Datenplattform (EDP)

Big-Data-Plattform (BDP)

Cloud-Datenplattform (CDP)

Kundendaten-Plattform (CDP)

Ist Datenverwaltung das Geheimnis generativer KI?

Schichten in einer Datenplattform

1. Datenspeicher

2. Datenaufnahme

3. Datenkonvertierung

4. Business Intelligence und Analysen

5. Daten-Observability

Zusätzliche Ebenen der Datenplattform

Datenerkennung

Data Governance

Datenkatalogisierung und Metadatenmanagement

Maschinelles Lernen und KI

Warum Datenplattformen wichtig sind

Ressourcen

Weiterführende Lösungen