Eine Datenplattform ist eine Technologie, die das Sammeln, Speichern, Bereinigen, die Transformation, die Analyse und das Verwalten von Daten ermöglicht. Datenplattformen können sowohl Hardware- als auch Software-Komponenten umfassen. Sie erleichtern es Unternehmen, ihre Daten zu nutzen, um die Entscheidungsfindung und Abläufe zu verbessern.
Heutzutage verlassen sich viele Unternehmen auf komplexe Datenpipelines, um Datenanalysen, Data Science und datengesteuerte Entscheidungen zu unterstützen. Eine moderne Datenplattform bietet die Tools, die Unternehmen benötigen, um die Datenqualität zu sichern und den Wert ihrer Daten freischalten.
Insbesondere Datenplattformen können dabei helfen, umsetzbare Erkenntnisse zu gewinnen, Datensilos zu reduzieren, Self-Service-Analyse zu ermöglichen, die Automatisierung zu rationalisieren und Anwendungen der künstlichen Intelligenz (KI) zu unterstützen.
Eine Datenplattform, die auch als „Data Stack“ bezeichnet wird, besteht aus fünf grundlegenden Schichten: Datenspeicher und -verarbeitung, Datenaufnahme, Datenkonvertierung, Business Intelligence (BI) und Analyse sowie Daten-Observability.
Datenplattformen können für spezifische Geschäftsfunktionen erstellt und konfiguriert werden. Zu den häufigsten Arten von Datenplattformen gehören:
Unternehmensdatenplattformen wurden ursprünglich als zentrale Repositories entwickelt, um Daten in einem Unternehmen leichter zugänglich zu machen. Auf diesen Plattformen wurden Daten in der Regel lokal, in operativen Datenbanken oder Data Warehouses gespeichert. Sie arbeiteten häufig mit strukturierten Kunden-, Finanz- und Lieferkettendaten.
Die modernen Datenplattformen von heute erweitern die Funktionen traditioneller Unternehmensdatenplattformen, um sicherzustellen, dass Daten korrekt und zeitnah sind, Silos reduzieren und Self-Service zu ermöglichen. Moderne Datenplattformen basieren oft auf einer Suite cloudnativ Software, die mehr Flexibilität und Kosteneffizienz unterstützt.
Die beiden grundlegenden Prinzipien, die für Unternehmensdatenplattformen gelten, sind:
Eine Big Data-Plattform ist darauf ausgelegt, große Datenmengen zu sammeln, zu verarbeiten und zu speichern, oft in Echtzeit. Angesichts der riesigen Datenmengen, die sie verarbeiten, verwenden Big Data-Plattformen häufig verteiltes Computing, bei dem die Daten auf viele Server verteilt sind.
Andere Arten von Datenplattformen können auch große Datenmengen verwalten, aber eine Big-Data-Plattform ist speziell dafür konzipiert, diese Daten mit hohen Geschwindigkeiten zu verarbeiten. Ein BDP der Unternehmensklasse ist in der Lage, komplexe Abfragen für riesige Datensätze durchzuführen, egal ob strukturiert, halbstrukturiert oder unstrukturiert. Zu den typischen Einsatzgebieten von BDP gehören Big-Data-Analysen, Betrugserkennung, prädiktive Analysen und Empfehlungssysteme.
Big Data-Plattformen sind oft als Software-as-a-Service (SaaS)-Produkte, als Teil eines Data-as-a-Service (DaaS)-Angebots oder in einer Cloud Computing-Suite erhältlich.
Wie der Name schon sagt, ist das entscheidende Merkmal einer Cloud-Datenplattform, dass sie cloudbasiert ist, was mehrere Nutzen bietet:
Eine Kundendatenplattform sammelt und vereinheitlicht Kundendaten aus verschiedenen Quellen, um einen einzigen, kohärenten und vollständigen Blick auf jeden Kunden zu erhalten.
Der Input für die CDP können von einem System für Kundenbeziehungsmanagement (CRM) des Unternehmens, von Aktivitäten in sozialen Netzwerken, Kontaktpunkten mit dem Unternehmen, Transaktionssystemen oder Website-Analysen erhalten werden.
Eine einheitliche 360-Grad-Sicht auf die Kunden kann einem Unternehmen eine bessere Erkenntnis in ihr Verhalten und ihre Vorlieben verschaffen und so gezielteres Marketing, bessere Erfahrungen und neue Umsatzmöglichkeiten ermöglichen.
Datenplattformen können je nach den Bedürfnissen des Unternehmens in allen Formen und Größen erhältlich sein. Eine typische Plattform umfasst mindestens diese fünf Schichten:
Die erste Schicht in vielen Datenplattformen ist die Datenspeicherschicht. Die Art des verwendeten Datenspeichers hängt von den Bedürfnissen des Unternehmens ab und kann sowohl lokale als auch Cloud-Speicher umfassen. Zu den gängigen Datenlagern gehören:
Data Warehouses
Ein Data Warehouse – oder auch Enterprise Data Warehouse (EDW) – fasst Daten aus verschiedenen Quellen in einem einzigen, zentralen, einheitlichen Datenspeicher zusammen, um Datenanalyse, Data Mining, künstliche Intelligenz und maschinelles Lernen zu unterstützen. Data Warehouses werden am häufigsten für die Verwaltung strukturierter Daten mit klar definierten Analyse-Anwendungsfällen verwendet.
Data Lakes
Ein Data Lake ist eine kostengünstigere Speicherumgebung, in der typischerweise Petabyte an Rohdaten gespeichert sind. Ein Data Lake kann sowohl strukturierte als auch unstrukturierte Daten in verschiedenen Formaten speichern, sodass Forscher leichter mit einer Vielzahl von Daten arbeiten können.
Data Lakes wurden ursprünglich oft im Hadoop-Ökosystem erstellt, einem Open-Source-Projekt, das auf NoSQL basiert. Ab etwa 2015 begann die Verlagerung vieler Data Lakes in die Cloud. Eine typische Data Lake-Architektur könnte Daten auf einer object storage Plattform wie Amazon S3 von Amazon Web Services (AWS) speichern und ein Tool wie Spark zur Verarbeitung der Daten verwenden.
Data Lakehouses
Ein Data Lakehouse kombiniert die Funktionen von Data Warehouses und Data Lakes in einer einzigen Lösung für die Datenverwaltung.
Während Data Warehouses eine bessere Leistung als Data Lakes bieten, sind sie oft teurer und in ihrer Skalierbarkeit eingeschränkt. Data Lakes optimieren die Speicherkosten, aber es fehlt ihnen die Struktur für nützliche Analysen.
Ein Data Lakehouse wurde entwickelt, um diese Herausforderungen zu bewältigen, indem es Cloud Object Storage verwendet, um eine breitere Palette von Datentypen zu speichern, d. h. strukturierte Daten, unstrukturierte Daten und halbstrukturierte Daten. Eine Data-Lakehouse-Architektur kombiniert diesen Speicher mit Tools zur Unterstützung erweiterter Analysen, wie z. B. Business Intelligence und maschinelles Lernen.
Der Vorgang, Daten aus verschiedenen Quellen zu sammeln und die Daten in ein Speichersystem zu verschieben, wird als Datenaufnahme bezeichnet. Nach der Aufnahme können die Daten zu Aufzeichnungszwecken oder zur weiteren Verarbeitung und Analyse verwendet werden.
Die Effektivität der Dateninfrastruktur eines Unternehmens hängt weitgehend davon ab, wie gut die Daten aufgenommen und integriert werden. Wenn es bei der Aufnahme Probleme gibt, z. B. fehlende oder veraltete Datensätze, kann jeder Schritt der nachgelagerten analytischen Workflows darunter leiden.
Bei der Aufnahme können je nach den Bedürfnissen eines Unternehmens und seiner übergreifenden Datenarchitektur unterschiedliche Datenverarbeitung verwendet werden.
Die dritte Ebene, die Datenkonvertierung, befasst sich mit der Änderung der Struktur und des Formats von Daten, um sie für die Analyse und andere Projekte nutzbar zu machen. Zum Beispiel können unstrukturierte Daten in ein SQL-Format konvertiert werden, um die Suche zu erleichtern. Daten können entweder vor oder nach der Ankunft am Speicherort transformiert werden.
Bis vor Kurzem nutzten die meisten Datenaufnahmemodelle ein ETL-Verfahren (Extrahieren, Transformieren, Laden), um Daten aus ihrer Quelle zu entnehmen, sie neu zu formatieren und an ihr Ziel zu transportieren. Das macht Sinn, wenn Unternehmen interne Analysesysteme verwenden. Durch die Vorbereitung der Daten vor der Übermittlung an das Ziel kann man die Kosten senken. Unternehmen, die noch lokale Data Warehouses verwenden, nutzen normalerweise einen ETL-Prozess.
Viele Unternehmen bevorzugen heute jedoch cloudbasierte Data Warehouses, wie IBM Db2 Warehouse, Microsoft Azure, Snowflake oder BigQuery von Google Cloud. Die Skalierbarkeit der Cloud ermöglicht es Unternehmen, ein ELT-Modell zu verwenden, das Transformationen vor dem Laden umgeht, um Rohdaten schneller direkt an das Data Warehouse zu senden. Die Daten werden dann nach dem Eintreffen nach Bedarf transformiert, in der Regel beim Ausführen einer Abfrage.
Die vierte Datenplattformschicht enthält Business Intelligence (BI) und Analysetools, die es Benutzern ermöglichen, Daten für Geschäftsanalysen und Big Data-Analysen zu nutzen. Mit BI- und Analysetools können Benutzer beispielsweise Daten abfragen, in Visualisierungen umwandeln oder sie anderweitig bearbeiten.
Für viele Abteilungen in einem Unternehmen ist diese Schicht die Oberfläche der Datenplattform, auf der Benutzer direkt mit den Daten interagieren.
Forscher und Datenwissenschaftler können mit Daten arbeiten, um verwertbare Informationen und Erkenntnisse zu gewinnen. Marketingabteilungen könnten BI- und Analyse-Tools nutzen, um mehr über ihre Kunden zu erfahren und wertschöpfende Initiativen zu ermitteln. Lieferkettenteams könnten die Erkenntnisse aus der Datenanalyse nutzen, um Prozesse zu optimieren oder bessere Anbieter zu finden.
Die Verwendung dieser Schicht ist der Hauptgrund, warum Unternehmen überhaupt Daten sammeln.
Daten-Observability ist die Praxis der Überwachung, Verwaltung und Pflege von Daten, um die Datenqualität, -verfügbarkeit und -zuverlässigkeit zu fördern. Die Daten-Observability umfasst verschiedene Aktivitäten und Technologien, darunter Tracking, Protokollierung, Alertausgabe und Anomalieerkennung.
Wenn diese Aktivitäten kombiniert und auf einem Dashboard angezeigt werden, können die Benutzer Datenschwierigkeiten nahezu in Echtzeit erkennen und beheben. Zum Beispiel hilft die Observability-Ebene Data Engineering Teams dabei, spezifische Fragen zu den Geschehnissen hinter den Kulissen verteilter Systeme zu beantworten. Sie kann zeigen, wie Daten durch das System fließen, wo sich Daten langsam bewegen und was nicht funktioniert.
Darüber hinaus können Observability-Tools Manager, Datenteams und andere Stakeholder auf potenzielle Probleme aufmerksam machen, sodass sie diese proaktiv angehen können.
Zusätzlich zu den fünf grundlegenden Schichten gehören zu den weiteren in einem modernen Datenstack üblichen Schichten:
Unzugängliche Daten sind nutzlose Daten. Die Datenerkennung trägt dazu bei, dass Daten nicht einfach außer Sichtweite bleiben. Konkret geht es bei der Datenerkennung um das Sammeln, Auswerten und Untersuchen von Daten aus unterschiedlichen und voneinander unabhängigen Quellen, mit dem Ziel, Daten aus isolierten oder bisher unbekannten Quellen für die Analyse zusammenzuführen.
Bei moderne Datenplattformen liegt der Schwerpunkt häufig auf der Data-Governance und Datensicherheit, um sensible Informationen zu schützen, die Einhaltung von Vorschriften voranzutreiben, den Zugriff zu erleichtern und die Datenqualität zu verwalten. Zu den Tools, die diese Ebene unterstützen, gehören Zugriffskontrollen, Verschlüsselung, Auditing und Datenabstammung.
Datenkataloge verwenden Metadaten – Daten, die Daten beschreiben oder zusammenfassen –, um ein informatives und durchsuchbares Inventar aller Daten-Assets in einem Unternehmen zu erstellen. Zum Beispiel kann ein Datenkatalog Menschen helfen, unstrukturierte Daten, einschließlich Dokumente, Bilder, Audio-, Video- und Datenvisualisierung, schneller zu finden.
Einige Datenplattformen, die für Unternehmen entwickelt wurden, bieten maschinelles Lernen und KI-Funktionen, damit Benutzer wertvolle Erkenntnisse aus Daten gewinnen können. Zum Beispiel könnten Plattformen vorausschauende Analysealgorithmen, Modelle für maschinelles Lernen zur Anomalie-Erkennung und automatisierte Erkenntnisse, die auf generativen KI-Tools basieren, bieten.
Eine robuste Datenplattform kann einem Unternehmen helfen, mehr aus seinen Daten herauszuholen, indem sie dem technischen Personal eine bessere Kontrolle über die Daten und einen schnelleren Self-Service für alltägliche Benutzer ermöglicht.
Datenplattformen können dabei helfen, Silos aufzubrechen – eines der größten Hindernisse für die Nutzbarkeit von Daten. Einzelne Abteilungen – wie z. B. Personalwesen, Produktion und Lieferkette – verwalten möglicherweise unterschiedliche Daten in unterschiedlichen Umgebungen, was zu Inkonsistenzen und Überschneidungen führt. Wenn Daten auf einer Datenplattform zusammengeführt werden, entsteht eine unternehmensweite Single-Source-of-Truth (SSOT).
Durch die Beseitigung von Silos und eine verbesserte Datenintegration können Analysen und Geschäftsentscheidungen verbessert werden. Auf diese Weise sind Datenplattformen Schlüsselkomponenten einer robusten Data Fabric, die Entscheidungsträgern hilft, einen zusammenhängenden Überblick über Unternehmensdaten zu erhalten. Diese zusammenhängende Sichtweise kann Unternehmen helfen, neue Verbindungen zwischen Daten herzustellen und Big Data für Data Mining und vorausschauende Analyse zu nutzen.
Eine Datenplattform kann es einem Unternehmen auch ermöglichen, End-to-End-Datenprozesse zu untersuchen und neue Effizienzpotenziale zu finden. Eine unternehmenstaugliche Datenplattform kann auch den Zugriff auf Informationen beschleunigen, was die Effizienz sowohl bei der internen Entscheidungsfindung als auch bei der Arbeit mit Kunden steigern kann.
Schließlich kann eine gut verwaltete Datenplattform einen diversifizierten und redundanten Datenspeicher bieten und so die Widerstandsfähigkeit des Unternehmens gegenüber Cyberangriffen oder Naturkatastrophen verbessern.
Erfahren Sie, wie ein offener Data-Lakehouse-Ansatz vertrauenswürdige Daten und eine schnellere Durchführung von Analysen und KI-Projekten ermöglichen kann.
IBM wurde im 2024 Gartner Magic Quadrant for Data Integration Tools zum 19. Mal in Folge als ein führender Anbieter im Bereich Datenintegrationstools genannt.
Erkunden Sie den Leitfaden für Datenexperten zum Aufbau eines datengestützten Unternehmens und zur Förderung von geschäftlichen Vorteilen.
Erfahren Sie, warum KI-gestützte Datenintelligenz und Datenintegration entscheidend sind, um die Bereitschaft für strukturierte und unstrukturierte Daten zu fördern und KI-Ergebnisse zu beschleunigen.
Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com