Data-Warehouse-Systeme können große Datenmengen aus einer Vielzahl von Quellsystemen aufnehmen, darunter operative Datenbanken, Transaktionssysteme und Plattformen für das Kundenbeziehungsmanagement (Customer Relationship Management, CRM). Self-Service-Analysetools ermöglichen es Geschäftsanwendern, diese Daten zu untersuchen und zu analysieren, um wertvolle Erkenntnisse zu gewinnen.
Das Data-Warehouse-Konzept entstand in den 1980er Jahren, um unterschiedliche Daten für die Analyse in ein einheitliches Format zu integrieren. Als die Zahl neuer Datenquellen zunahm, wie das World Wide Web, soziale Medien und das Internet der Dinge (IoT), wuchs die Nachfrage nach größeren Speicherkapazitäten und schnelleren Analysen.
Data Warehouses sind für Echtzeitanalyse konfiguriert und optimiert. Das bedeutet, dass sie in der Regel nicht ideal für die Speicherung riesiger Mengen unstrukturierter Big Data geeignet sind. Mit der wachsenden Datenmenge in einem Warehouse steigen auch die Kosten und die Komplexität der Speicherung. Es können auchLatenz- und Leistungsprobleme auftreten.
Als Reaktion darauf wurden flexiblere Alternativen entwickelt, darunter cloudnative Data Warehouses und Data Lakehouses. (Weitere Informationen finden Sie unter „Data Lakehouse vs. Data Warehouse“.)
Data Warehouse verwenden oft eine dreistufige Architektur, die darauf ausgelegt ist, Daten für die Analyse zu transformieren:
Daten fließen aus mehreren Quellsystemen in einen Data Warehouse, wo sie gespeichert werden. Traditionell werden die Daten durch einen Datenintegrationprozess (Extract, Transform, Load) verschoben, der mithilfe von Automatisierung Daten bereinigt und organisiert, bevor sie in das Warehouse geladen werden.
Da Data Warehouse in erster Linie strukturierte Daten speichert, findet die Datenkonvertierung vor dem Laden der Daten statt. Einige moderne Warehouses verwenden stattdessen ELT-Prozesse (Extrahieren, Laden und Transformieren), bei denen Daten in das Warehouse geladen werden, bevor sie konvertiert werden. Diese Methode wird häufig in Data Lakes verwendet, die unstrukturierte und halbstrukturierte Daten speichern können, ohne dass standardisierte Formate erforderlich sind.
Diese Schicht enthält die Analyse-Engine, die häufig durch ein OLAP-System (Online Analytical Processing) betrieben wird. Traditionelle relationale Datenbanken, darunter viele Data Warehouse. können zwar multidimensionale Daten speichern (zum Beispiel können Verkaufszahlen mehrere Dimensionen wie Standort, Zeit und Produkt haben), aber sie sind nicht für multidimensionale Abfragen optimiert.
OLAP-Systeme sind für schnelle, komplexe Abfragen und multidimensionale Analysen großer Datenmengen konzipiert. Sie verwenden „Würfel“ (Array-basierte mehrdimensionale Datenstrukturen), um eine schnellere und flexiblere Analyse über mehrere Dimensionen hinweg zu ermöglichen. Zu den gängigen Anwendungsfällen gehören Data Mining, Finanzanalysen, Budgetierung und Prognoseplanung.
OLAP vs. OLTP: OLTP-Systeme (Online Transaction Processing) erfassen und aktualisieren große Mengen an Echtzeittransaktionen von vielen Benutzern. Im Gegensatz dazu analysieren OLAP-Systeme bereits erfasste Daten.
Es gibt drei Arten von OLAP, die man in einem Data Warehouse verwenden könnte:
Die letzte Schicht eines Data Warehouse bietet eine Front-End-Benutzeroberfläche für Berichte, Dashboards und Ad-hoc-Datenanalysen von Geschäftsdaten. Mit diesen Self-Service-Tools für Business Intelligence können Benutzer Berichte auf der Grundlage historischer Daten erstellen, Trends visualisieren und Workflow-Engpässe ohne technisches Fachwissen in der Datenentwicklung identifizieren.
Branchen-Newsletter
Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.
Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.
Data Warehouse-Lösungen haben sich deutlich weiterentwickelt, von ausschließlich lokalen Systemen hin zu flexiblen Cloud- und Hybridmodellen.
In der Vergangenheit wurden Data Warehouses lokal mit Standardhardware gehostet. Diese Systeme waren entweder in Massively Parallel Processing (MPP)- oder Symmetric Multiprocessing (SMP) -Architekturen organisiert. Sie wurden auch als eigenständige Geräte geliefert. Diese Bereitstellungen erfordern erhebliche Investitionen. Sie können jedoch eine gute Wahl für Unternehmen in Sektoren sein, in denen strenge Compliance-, Datensicherheits- oder Datenschutzstandards gelten.
Heutzutage werden viele Data Warehouses für den Betrieb in der Cloud konzipiert. Sie bieten alle Vorteile von Cloud Computing, wie z. B.Datenspeicherung im Petabyte-Bereich, hoch skalierbare Rechen- und Speichermöglichkeiten sowie nutzungsabhängige Preise. Cloudbasierte Data Warehouse werden in der Regel als vollständig verwaltetes Software-as-a-Service (SaaS) -Angebot bereitgestellt, sodass keine Vorabinvestitionen in Hardware oder Software erforderlich sind. Diese Servicebereitstellung reduziert auch die für das Infrastrukturmanagement benötigten Ressourcen, sodass sich Unternehmen auf Analysen und Erkenntnisse konzentrieren können.
Cloudbasierte Data Warehouses erfreuen sich zunehmender Beliebtheit, da Unternehmen die Möglichkeit suchen, ihre On-Premises-Rechenzentren und Ausgaben für veraltete Infrastrukturen flexibel zu skalieren und zu reduzieren.
Einige Organisationen entscheiden sich möglicherweise für ein Hybridmodell, das das Beste aus lokalen und Cloud-Data-Warehouse kombiniert. Dieser Ansatz ermöglicht es ihnen, von der Skalierbarkeit und Flexibilität der Cloud zu profitieren und gleichzeitig die Kontrolle über sensible Workloads zu behalten, die lokal bleiben müssen.
In einem Data Warehouse definieren Schemata, wie Daten organisiert werden. Es gibt drei gängige Schemata-Strukturen: das Sternschema (Star Schema), das Schneeflockenschema (Snowflake Schema) und das Galaxisschema (auch Faktenkonstellationsschema genannt).
Diese Schemas sind allesamt dimensionale Datenmodelle, die entwickelt wurden, um die Datenabrufgeschwindigkeiten in OLAP-Systemen zu optimieren. Dimensionale Modelle können die Redundanz erhöhen, das Auffinden von Informationen für die Berichterstellung und das Abrufen erleichtern und die Abfrageleistung verbessern.
Diese Schemata enthalten Faktentabellen und Dimensionstabellen, die unten definiert sind:
Sternschemata bestehen aus einer einzelnen, zentralen Faktentabelle, die von Dimensionstabellen umgeben ist. In einem Diagramm erscheint die Faktentabelle in der Mitte eines Sternmusters. Das Sternschema gilt als der einfachste und gängigste Schematyp und bietet Benutzern schnellere Abfragegeschwindigkeiten.
Ein Schneeflockenschema hat eine zentrale Faktentabelle, die mit vielen standardisierten Dimensionstabellen verbunden ist, die dann über Viele-zu-Eins-Beziehungen eine Verbindung zu anderen Dimensionstabellen herstellen können. Dieses komplexe, verzweigte Muster kann einer Schneeflocke ähneln. Snowflake-Schemas haben ein geringes Maß an Datenredundanz, aber das geht auf Kosten einer langsameren Abfrageleistung.
So wie es in unserer Galaxie viele Sterne gibt, enthält ein Galaxienschema viele Sternenschematas, die sich Dimensionstabellen teilen, die standartisiert sind, um Redundanzen zu vermeiden. Das Sternschema eignet sich am besten für hochkomplexe Data Warehouses, kann aber mit einer geringeren Leistung einhergehen.
Eine typische Data Warehouse-Architektur besteht aus mehreren Komponenten, die zusammenarbeiten, um Daten zu speichern, zu verwalten, zu verarbeiten und für Analysen bereitzustellen.
ETL-Tools extrahieren Daten aus Quellsystemen, wandeln sie in einem Staging-Bereich um und laden sie in das Data Warehouse. In ELT werden die Daten konvertiert, nachdem sie in das Warehouse geladen wurden. Ein Framework-Tool für die Datenverarbeitung, wie Apache Spark, kann helfen, die Transformation von Daten zu verwalten.
Eine Konnektivitätsebene für Anwendungsprogrammierschnittstellen (APIs) kann dem Warehouse helfen, Daten aus Betriebssystemen abzurufen und in diese zu integrieren. APIs können auch Zugriff auf Visualisierungs- und erweiterte Analysetools bieten.
Die Datenschicht (oder zentrale Datenbank) ist das Herzstück des Data Warehouse. Hier integriert und speichert das System Daten aus verschiedenen Quellen, wie z. B. Anwendungen, E-Mail-Listen, Websites oder anderen Datenbanken. Diese Ebene wird von ETL- oder ELT-Datenpipelines unterstützt und verwendet ein relationales Datenbankmanagementsystem (RDBMS) oder eine Cloud-Data-Warehouse-Plattform. Integrierte Data Governance - und Sicherheitsfunktionen können Daten aufteilen, sodass Benutzer nur auf das zugreifen, was sie benötigen.
Metadaten sind Daten über Daten, die die in einem System gespeicherten Daten beschreiben, um sie durchsuchbar und für die Analyse nutzbar zu machen. Es umfasst technische Metadaten (wie Tabellenstruktur und Datentyp) und beschreibende Metadaten (wie Autor, Erstellungsdatum oder Dateigröße). Metadaten sind der Schlüssel zu einer effektiven Data Governance und Datenverwaltung.
Einige Data Warehouses bieten eine Sandbox, die eine abgeschottete Testumgebung ist, die eine Kopie der Produktionsdaten und relevante Analysetools enthält. Data Analysten und Data Scientists können mit neuen Analysetechniken in der Sandbox testen, ohne den Betrieb des Data Warehouse für andere Benutzer zu beeinträchtigen.
Zugriffstools stellen eine Verbindung zu einem Data Warehouse her, um ein Front-End bereitzustellen, das für Geschäftsanwender benutzerfreundlich ist. Geschäftsanwender und Datenanalysten können Dashboards, Apps und Datenvisualisierung einsetzen, um mit Daten zu interagieren und Erkenntnisse zu gewinnen. Beispiele für diese Tools sind Tableau, Looker und Qlik.
Es gibt drei Data-Warehouse-Haupttypen:
Ein Enterprise Data Warehouse (EDW) ist ein Data Warehouse, das das gesamte Unternehmen abdeckt. Sie dient als zentralisiertes Informations-Repository mit historischen Daten für alle Teams und Themenbereiche. Eine Data-Warehousing-Umgebung für Unternehmen kann auch einen operationalen Datenspeicher (ODS) und departmentspezifische Data Marts umfassen.
Ein Betriebsdatenspeicher (ODS) enthält die neueste Momentaufnahme der Betriebsdaten. Ein ODS wird häufig aktualisiert und ermöglicht einen schnellen Zugriff auf Daten nahezu in Echtzeit. Unternehmen nutzen ein ODS häufig für die alltägliche operative Entscheidungsfindung und Echtzeitanalysen. Es kann auch eine Datenquelle für ein EDW oder andere Datensysteme sein.
Ein Data Mart ist eine Teilmenge eines vorhandenen Data Warehouse (oder anderer Datenquellen) und enthält Daten, die auf einen bestimmten Geschäftsbereich oder eine Abteilung zugeschnitten sind und nicht auf das gesamte Unternehmen. So könnte ein Unternehmen beispielsweise einen Data Mart haben, der auf die Marketingabteilung abgestimmt ist. Diese Benutzer können auf gezieltere Erkenntnisse zur Kundensegmentierung und Kampagnenleistung zugreifen, ohne sich durch den breiteren Unternehmensdatensatz navigieren zu müssen.
Die Begriffe Data Warehouse, Datenbank, Data Lake und Data Lakehouse werden manchmal synonym verwendet, aber es gibt wichtige Unterschiede.
Eine Datenbank ist wie ein Aktenschrank, der hauptsächlich für die automatische Datenerfassung und schnelle Transaktionsverarbeitung gebaut wurde. In der Regel dient es als gezielter Datenspeicher für eine bestimmte Anwendung. Data Warehouse speichert Daten aus einer beliebigen Anzahl von Anwendungen in einem Unternehmen und ist für vorausschauende Analyse und andere erweiterte Analysen optimiert.
Ein Data Lake ist eine kostengünstige Speicherlösung für riesige Mengen an Rohdaten und verwendet einen Schema-on-Read-Ansatz anstelle eines vordefinierten Schemas. Data Lakes enthalten oft unstrukturierte und halbstrukturierte Daten, wie z. B. Dokumente, Videos, Internet-of-Things-Protokolle (IoT) und Social-Media-Beiträge.
Sie können auf Big-Data-Plattformen wie Apache Hadoop oder Cloud Object Storage wie Amazon Simple Storage Service (Amazon S3) erstellt werden. In der Regel werden Daten für Analysen nicht bereinigt, validiert oder normalisiert, wie dies in einem Warehouse der Fall ist.
Ein Data Lakehouse verbindet Aspekte von Data Warehouses und Data Lakes – nämlich die kostengünstige Flexibilität eines Data Lake und die hohe Leistung eines Data Warehouse. Durch die Kombination der Hauptmerkmale von Lakes und Warehouses in einer Datenlösung können Lakehouses dazu beitragen, die Datenverarbeitung für große Mengen strukturierter, unstrukturierter und Echtzeit-Datenströme zu beschleunigen, um Workloads für maschinelles Lernen, Data Science und künstliche Intelligenz (KI) zu unterstützen.
Data Lakehouses können auch Funktionen wie gemeinsam genutzte Metadaten und verteilte SQL-Engines (Structured Query Language) hinzufügen.
Data Warehouse stellen Benutzern im Unternehmen Erkenntnisse und Informationen zur Verfügung und bieten viele Nutzen, wie z. B.:
Durch ELT- oder ETL-Prozesse bereiten Data Warehouses eingehende Daten auf, bevor sie im Data Warehouse gespeichert werden. Zu dieser Vorbereitung gehören Methoden zur Datenqualität wie Datenbereinigung,Standardisierung und Deduplizierung. Robuste Richtlinien und Verfahren für die Data-Governance können auch dazu beitragen, die Genauigkeit und Integrität der Daten für alle Benutzer zu gewährleisten.
Durch die Integration hochwertiger Daten in einen einzigen Speicher schaffen Unternehmen eine umfassende und zuverlässige Single-Source-of-Truth (SSOT), die dazu beiträgt, Daten-Silos zu beseitigen. Dieses zentrale Repository ermöglicht es Geschäftsanwendern, sicher auf alle relevanten Daten des Unternehmens zuzugreifen und diese für die Entscheidungsfindung zu verwenden. Ein Data-Warehouse der Unternehmensklasse kann auch Open-Source-Formate wie Apache Iceberg, Parquet und CSV unterstützen, was einen weiteren Datenaustausch im gesamten Unternehmen ermöglicht.
Moderne Data Warehouses können verschiedene KI- und maschinelle Lern-Workflows unterstützen, indem sie saubere, zuverlässige Daten bereitstellen. Data Scientists können bereinigte und validierte Warehouse-Daten verwenden, um eigene generative KI-Modelle zu erstellen oder bestehende Modelle weiter abzustimmen, um ihre individuellen Geschäftsanforderungen besser zu erfüllen.
Ein KI-fähiges Data Warehouse sollte in der Lage sein, Daten zu sammeln, zu bereinigen, zu organisieren und zu strukturieren sowie den Datenfluss zu KI- und maschinellen Lernplattformen zu erleichtern. Allerdings sind nicht alle modernen Data Warehouses für KI-Workloads optimiert. Data Lakehouses werden zunehmend zur bevorzugten Datenplattform für KI-Infrastrukturen.
Ein Data Warehouse zentralisiert und bereinigt Daten aus verschiedenen Quellen, um eine Single-Source-of-Truth (SSOT) zu schaffen, die Unternehmen einen umfassenden, zuverlässigen Überblick über die Unternehmensdaten verschafft. Self-Service-BI-Tools ermöglichen es Benutzern im gesamten Unternehmen, auf diese aggregierten Daten zuzugreifen und analytische Abfragen durchzuführen.
Auf diese Weise ermöglichen Data Warehouses Geschäftsanwendern aller Qualifikationsstufen, Themen, Trends und Aggregationen zu entdecken und darüber zu berichten. Führungskräfte können diese Erkenntnisse nutzen, um auf der Grundlage harter Fakten in praktisch jedem Bereich des Unternehmens – von den Geschäftsprozessen über das Finanzmanagement bis hin zum Bestandsmanagement – fundiertere Entscheidungen zu treffen und Prognosen zu erstellen.
Data Warehouses können auch für branchenspezifische Zwecke genutzt werden, z. B. für:
Mit den Funktionen eines Data Warehouse können Regierungen, komplexe Phänomene wie Kriminalität, demografische Trends und Verkehrsmuster besser verstehen.
Die Möglichkeit, verteilte Daten – wie Abrechnungs- und Diagnosecodes, Patientendemografie, Medikamente und Ergebnisse – zu zentralisieren und zu analysieren, kann Gesundheitsdienstleistern dabei helfen, Erkenntnisse in Ergebnisse, Betriebseffizienz und mehr zu gewinnen.
Unternehmen können historische Daten zu Reise- und Unterkunftsentscheidungen nutzen, um Werbung und Werbeaktionen präziser auf ihre Kunden auszurichten.
Große Fertigungsunternehmen, die große Datenmengen erzeugen, können Data Warehouse-Lösungen verwenden, um Data Mart zu erstellen, die auf die Bedürfnisse der einzelnen Abteilungen zugeschnitten sind.
Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.