Was ist ein Data Warehouse?
Ein Data Warehouse führt Daten aus vielen verschiedenen Quellen in einem einzigen Datenrepository zusammen und unterstützt so Analyse und Entscheidungsfindung
IBM Newsletter abonnieren
Schwarzer und blauer Hintergrund
Was ist ein Data Warehouse?

Ein Data Warehouse oder auch Enterprise Data Warehouse (EDW) ist ein System, das Daten aus verschiedenen Quellen in einem einzigen, zentralen, einheitlichen Datenspeicher zusammenführt, um Datenanalyse, Data Mining, künstliche Intelligenz (KI) und maschinelles Lernen zu unterstützen. Ein Data-Warehouse-System ermöglicht es einem Unternehmen, leistungsstarke Analysen auf riesigen Mengen (d. h. viele Petabytes) historischer Daten auszuführen, wie eine herkömmliche Datenbank es nicht kann.

Data-Warehouse-Systeme sind seit mehr als drei Jahrzehnten Teil von Business Intelligence-Lösungen (BI), haben sich aber gerade in letzter Zeit mit dem Aufkommen neuer Datentypen und Hosting-Methoden weiterentwickelt. Traditionell wurde ein Data Warehouse lokal bereitgestellt, oft auf einem Mainframe-Computer. Seine Funktionalität konzentrierte sich auf die Extraktion von Daten aus anderen Quellen, die Bereinigung und Aufbereitung der Daten sowie das Laden und Verwalten der Daten in einer relationalen Datenbank. Heutzutage kann ein Data Warehouse jedoch auf einer dedizierten Appliance oder in der Cloud gehostet werden. Daneben verfügen die meisten Data Warehouses über zusätzliche Analysefähigkeiten und Tools zur Datenvisualisierung und -darstellung.

Erfahren Sie mehr über die Data Warehouse-Lösungen von IBM.

 

watsonx.data kennenlernen

Skalieren Sie KI-Workloads für alle Ihre Daten, überall

Data Warehouse-Architektur

Im Allgemeinen haben Data Warehouses eine dreistufige Architektur, die aus den folgenden Elementen besteht:

  • Unterste Schicht: Die unterste Schicht besteht aus einem Data-Warehouse-Server, in der Regel ein relationales Datenbanksystem, das Daten aus mehreren Datenquellen durch einen Prozess sammelt, bereinigt und umwandelt, der als Extrahieren, Transformieren und Laden (Extract, Transform, Load; ETL) oder Extrahieren, Laden und Transformieren (Extract, Load, Transform; ELT) bezeichnet wird.
  • Mittlere Schicht: Die mittlere Schicht besteht aus einem OLAP-Server (d. h. Online Analytical Processing), der schnelle Abfragen ermöglicht. In dieser Schicht können drei Arten von OLAP-Modellen verwendet werden: ROLAP, MOLAP und HOLAP. Welche Art von OLAP-Modell verwendet wird, hängt von der Art des vorhandenen Datenbanksystems ab.
  • Oberste Schicht: Die oberste Schicht besteht aus einer Front-End-Benutzerschnittstelle oder einem Front-End-Berichtstool, die bzw. das es Endnutzern ermöglicht, Ad-hoc-Datenanalysen ihrer Geschäftsdaten durchzuführen.
Welche Rolle spielen OLAP und OLTP in Data Warehouses?

OLAP (kurz für Online Analytical Processing, d. h. Analytische Online-Verarbeitung) ist eine Software zur Durchführung schneller mehrdimensionaler Analysen großer Datenmengen aus einem einheitlichen, zentralen Datenspeicher, wie z. B. einem Data Warehouse. OLTP (Online Transactional Processing, d. h. Online-Transaktionsverarbeitung) ermöglicht die Echtzeit-Ausführung einer großen Anzahl von Datenbank-Transaktionen durch eine große Anzahl von Personen, in der Regel über das Internet. Der Hauptunterschied zwischen OLAP und OLTP ist bereits im Namen erkennbar: OLAP ist analytischer Natur, OLTP dagegen transaktionsorientiert. 

OLAP-Tools sind für die multidimensionale Analyse von Daten in einem Data Warehouse konzipiert, das sowohl historische als auch transaktionale Daten enthält. Zu den gängigen Verwendungszwecken von OLAP gehören Data Mining und andere Business-Intelligence-Anwendungen, komplexe analytische Berechnungen und Vorhersageszenarien sowie Funktionen für das Business Reporting wie Finanzanalyse, Budgetierung und Prognoseplanung.

OLTP ist hingegen darauf ausgelegt, transaktionsorientierte Anwendungen zu unterstützen, indem es aktuelle Transaktionen so schnell und genau wie möglich verarbeitet. Zu den üblichen Verwendungszwecken von OLTP gehören Geldautomaten, E-Commerce-Software, die Verarbeitung von Kreditkartenzahlungen, Online-Buchungen, Reservierungssysteme und Tools für die Datenhaltung.

Eine eingehende Untersuchung der Unterschiede zwischen diesen Ansätzen finden Sie in „OLAP und OLTP: Was ist der Unterschied?“.

Schemata in Data Warehouses

Schemata sind Methoden, mit denen Daten in einer Datenbank oder einem Data Warehouse organisiert werden. Es gibt zwei Hauptarten von Schemata-Strukturen, das Sternschema (Star Schema) und das Schneeflockenschema (Snowflake Schema), die das Design Ihres Datenmodells beeinflussen.

Sternschema: Dieses Schema besteht aus einer Faktentabelle, die mit einer Reihe von denormalisierten Dimensionstabellen verbunden werden kann. Das Sternschema gilt als der einfachste und gängigste Schematyp, und seine Nutzer profitieren von seiner schnelleren Abfragegeschwindigkeit.

Schneeflockenschema: Obwohl nicht so verbreitet wie das Sternschema, ist das Schneeflockenschema eine weitere mögliche Organisationsstruktur in Data Warehouses. In diesem Fall ist die Faktentabelle mit einer Reihe von normalisierten Dimensionstabellen verbunden, und diese Dimensionstabellen haben wiederum untergeordnete Tabellen. Nutzer eines Schneeflockenschemas profitieren von seiner niedrigen Datenredundanz, was jedoch zu Lasten der Abfrageleistung geht. 

Data Warehouse, Datenbank, Data Lake und Data Mart im Vergleich

Data Warehouse, Datenbank, Data Lake und Data Mart sind Begriffe, die manchmal synonym verwendet werden. Obwohl sich die Begriffe ähneln, gibt es jedoch signifikante Unterschiede:

Data Warehouse und Data Lake im Vergleich
 

Ein Data Warehouse sammelt Rohdaten aus verschiedenen Quellen in einem zentralen Repository, das anhand vordefinierter Schemata für die Datenanalyse strukturiert ist. Ein Data Lake ist ein Data Warehouse, jedoch ohne die vordefinierten Schemata. Folglich ermöglicht er mehr Arten von Analysen als ein Data Warehouse. Data Lakes werden häufig auf Big Data-Plattformen wie z. B. Apache Hadoop aufgebaut.

Weitere Informationen zu Data Lakes finden Sie im folgenden Video:

Data Warehouse und Data Mart im Vergleich
 

Ein Data Mart ist ein Teilbereich eines Data Warehouse, der Daten für einen bestimmten Geschäftsbereich oder eine bestimmte Abteilung enthält. Weil sie einen kleineren Teil der Daten enthalten, ermöglichen es Data Marts einer Abteilung oder einem Geschäftsbereich, aus einem Data Mart schnellere und gezieltere Erkenntnisse zu erhalten als aus dem breiteren Datensatz in einem Data Warehouse.

Data Warehouse und Datenbank im Vergleich
 

Eine Datenbank ist in erster Linie für schnelle Abfragen und die Verarbeitung von Transaktionen gedacht, jedoch nicht für Analysen. Eine Datenbank dient in der Regel als zielgerichteter Datenspeicher für eine bestimmte Anwendung, während ein Data Warehouse Daten aus einer beliebigen Anzahl von Anwendungen (oder sogar aus allen Anwendungen) in Ihrem Unternehmen speichert.

Eine Datenbank konzentriert sich auf die Aktualisierung von Echtzeitdaten, während ein Data Warehouse einen größeren Anwendungsbereich abdeckt und aktuelle und historische Daten für prädiktive Analysen, maschinelles Lernen und andere fortgeschrittene Arten der Analyse erfasst.

Arten von Data Warehouses

Cloud-Data-Warehouse
 

Ein Cloud-Data-Warehouse ist ein speziell für den Betrieb in der Cloud konzipiertes Data Warehouse und wird Kunden als verwalteter Service angeboten. Cloud-basierte Data Warehouses sind in den letzten fünf bis sieben Jahren immer beliebter geworden, da immer mehr Unternehmen Cloud-Dienste nutzen und versuchen, den Platzbedarf ihrer lokalen Rechenzentren zu verkleinern.

Bei einem Cloud-Data-Warehouse wird die physische Data-Warehouse-Infrastruktur vom Cloud-Anbieter verwaltet, d. h. der Kunde muss keine Vorabinvestitionen in Hardware oder Software tätigen und muss zudem die Data-Warehouse-Lösung nicht verwalten oder warten.

Data-Warehouse-Software (On-Premises/Lizenz)
 

Ein Unternehmen kann eine Data-Warehouse-Lizenz erwerben und dann ein Data Warehouse auf seiner eigenen On-Premises-Infrastruktur einrichten. Obwohl ein solcher Ansatz in der Regel teurer ist als ein Cloud-Data-Warehouse-Service, kann er für Behörden, Finanzinstitute oder andere Organisationen, die mehr Kontrolle über ihre Daten ausüben wollen oder strenge Sicherheits-, Datenschutz oder andere Vorschriften einhalten müssen, die bessere Alternative darstellen.

Data-Warehouse-Appliance
 

Eine Data-Warehouse-Appliance ist eine vorintegrierte Komplettlösung aus Hardware und Software – CPUs, Speicher, Betriebssystem und Data-Warehouse-Software, die ein Unternehmen einfach an sein Netzwerk  anschließen und sofort nutzen kann. Eine Data-Warehouse-Appliance liegt in Bezug auf Investitionskosten, Bereitstellungsgeschwindigkeit, Skalierbarkeit und Managementkontrolle ungefähr zwischen Cloud- und On-Premises-Implementierungen,

Vorteile eines Data Warehouse

Ein Data Warehouse bietet die folgenden Vorteile:

  • Bessere Datenqualität: Ein Data Warehouse zentralisiert Daten aus einer Vielzahl von Datenquellen, wie z. B. Transaktionssystemen, operativen Datenbanken und Flachdateien. Anschließend bereinigt es die Daten, eliminiert doppelte Datensätze und standardisiert die Daten, um eine einzige verlässliche Datengrundlage („Single Source of Truth“) zu schaffen.
  • Schnellere Geschäftseinblicke:  Daten aus unterschiedlichen Quellen schränken die Fähigkeit von Entscheidungsträgern ein, Unternehmensstrategien zuverlässig festzulegen. Data Warehouses machen dagegen Datenintegration möglich, damit die Nutzer im Unternehmen bei jeder geschäftlichen Entscheidung alle Unternehmensdaten nutzen können.
  • Bessere Entscheidungsfindung:  Ein Data Warehouse unterstützt umfangreiche Business-Intelligence-Funktionen wie Data Mining (d. h. das Auffinden von bis dato unsichtbaren Mustern und Beziehungen in Daten), künstliche Intelligenz und maschinelles Lernen – Tools also, die Datenexperten und Führungskräfte in Unternehmen dazu nutzen können, um auf harten Fakten beruhende und somit intelligentere Entscheidungen in praktisch jedem Bereich des Unternehmens zu treffen, von Geschäftsprozessen bis hin zum Finanz- und Bestandsmanagement.
  • Schaffung und Ausbau von Wettbewerbsvorteilen: Alle oben genannten Aspekte tragen dazu bei, dass ein Unternehmen mehr Nutzen aus seinen Daten ziehen kann, und zwar schneller, als dies mit heterogenen Datenspeichern möglich ist.
Weiterführende Lösungen
Data-Warehouse-Lösungen

IBM Data-Warehouse-Lösungen bieten Leistung und Flexibilität zur Unterstützung strukturierter und unstrukturierter Daten für Analyse-Workloads, einschließlich maschinellem Lernen.

Data-Warehouse-Lösungen erkunden
Db2 Warehouse on Cloud

Entdecken Sie die Möglichkeiten eines vollständig verwalteten, elastischen Cloud-Data-Warehouse, das für leistungsfähige Analysen und KI entwickelt wurde.

Db2 Warehouse on Cloud erkunden
IBM® Cloud Pak for Data System

IBM® Cloud Pak for Data System ist eine umfassende Hybrid-Cloud-Plattform, die eine vorkonfigurierte, verwaltete und sichere Umgebung vor Ort bereitstellt.

IBM® Cloud Pak for Data System erkunden
Ressourcen So wählen Sie das richtige Enterprise-Data-Warehouse, um die Herausforderungen im Bereich Daten und KI zu bewältigen

KI kann eine Reihe von Herausforderungen mit sich bringen, bei deren Bewältigung Enterprise-Data-Warehouses und Data Marts helfen können. Erfahren Sie, wie Sie den Gesamtwert einer solchen Lösung beurteilen können.

So wählen Sie das richtige Data Warehouse für Ihre KI

Bei der Auswahl eines Enterprise-Data-Warehouse sollten Unternehmen die Auswirkungen von KI, die wichtigsten Data Warehouse-Unterscheidungsmerkmale und die verschiedenen Bereitstellungsmodelle berücksichtigen. Dieses E-Book hilft dabei.

Differenzierungsmerkmal: Daten!

Ein Leitfaden zum Aufbau eines datengetriebenen Unternehmens und zur Schaffung von Wettbewerbsvorteilen

Machen Sie den nächsten Schritt

IBM bietet On-Premises-, Cloud- und integrierte Data-Warehouse-Appliance-Lösungen – alle auf der Grundlage von Datenanalytik und künstlicher Intelligenz und optimiert für prädiktive Einblicke und datengetriebene Entscheidungsfindung. Alle drei sind Teil der IBM Db2-Produktfamilie und bieten eine einheitliche SQL-Engine zur Optimierung von Abfragen und der Funktionen für maschinelles Lernen, die die Leistung des Datenmanagements verbessern.

Jetzt Data-Warehouse-Lösungen erkunden