Apa yang dimaksud dengan data warehouse?

Tampilan udara kendaraan terpandu otomatis yang dirender 3D di gudang pintar

Penyusun

Alexandra Jonker

Staff Editor

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Apa yang dimaksud dengan data warehouse?

Gudang data menggabungkan data dari berbagai sumber ke dalam penyimpanan data pusat yang dioptimalkan untuk kueri dan analisis. Biasanya menggunakan proses ekstrak, transformasi, dan muat (ETL) atau ekstrak, muat, dan transformasi (ELT) untuk membersihkan, menyiapkan, dan mengatur data untuk business intelligence (BI) dan contoh penggunaan analitik data lainnya.
 

Sistem pergudangan data dapat menyerap data dalam jumlah besar dari berbagai sistem sumber, termasuk basis data operasional, sistem transaksional, dan platform manajemen hubungan pelanggan (CRM). Alat analitik layanan mandiri memberdayakan pengguna bisnis untuk menjelajahi dan menganalisis data ini untuk mendapatkan insight yang berharga.

Konsep gudang data muncul pada tahun 1980-an untuk mengintegrasikan data yang berbeda ke dalam format yang konsisten untuk analisis. Seiring dengan banyaknya sumber data baru — seperti World Wide Web, media sosial dan Internet of Things (IoT)— permintaan untuk kapasitas penyimpanan yang lebih besar dan analisis yang lebih cepat tumbuh.

Gudang data dikonfigurasi dan dioptimalkan untuk analitik nyaris seketika, yang berarti mereka biasanya tidak ideal untuk menyimpan sejumlah besar big data mentah dan tidak terstruktur. Seiring bertambahnya jumlah data di gudang, biaya dan kompleksitas penyimpanan juga tumbuh bersamanya. Masalah latensi dan kinerja juga dapat muncul.

Sebagai tanggapan, alternatif yang lebih fleksibel berkembang, termasuk gudang data cloud native dan data lakehouse. (Lihat “data lakehouse vs. gudang data” untuk informasi lebih lanjut).

Bagaimana cara kerja gudang data?

Gudang data sering menggunakan arsitektur tiga tingkat yang dirancang untuk mengubah data untuk analitik:

  • Tingkat bawah
  • Tingkat menengah
  • Tingkat teratas

Tingkat bawah

Data mengalir dari beberapa sistem sumber ke server gudang data, tempat data tersebut disimpan. Secara tradisional, data pindah melalui proses integrasi data ekstrak, transformasi, muat (ETL), yang menggunakan otomatisasi untuk membersihkan dan mengatur data sebelum memuatnya ke gudang data.

Karena gudang data terutama menyimpan data terstruktur, transformasi data terjadi sebelum pemuatan data. Beberapa gudang modern menggunakan proses ekstrak, muat, transformasi (ELT) sebagai gantinya, yang memuat data ke dalam gudang sebelum mentransformasikannya. Metode ini umumnya digunakan di data lake, yang dapat menyimpan data tidak terstruktur dan semi-terstruktur tanpa memerlukan format standar.

Tingkat menengah

Tingkat ini berisi analytics engine, sering didukung oleh sistem pemrosesan analitik online (OLAP). Sementara basis data relasional tradisional — termasuk banyak gudang data — dapat menyimpan data multidimensi (misalnya, angka penjualan mungkin memiliki beberapa dimensi seperti lokasi, waktu dan produk), mereka tidak dioptimalkan untuk kueri multidimensi.

Sistem OLAP dirancang untuk kueri berkecepatan tinggi, kompleks dan analisis multidimensi pada volume data yang besar. Mereka menggunakan "kubus" (struktur data multidimensi berbasis array) untuk memungkinkan analisis yang lebih cepat dan lebih fleksibel di berbagai dimensi. Contoh penggunaan umum termasuk penambangan data, analisis keuangan, penganggaran, dan perencanaan perkiraan.

Diagram menunjukkan struktur kubus OLAP Kubus OLAP dengan dimensi untuk Produk, Wilayah Penjualan, dan Kuartal

OLAP vs OLTP: Sistem pemrosesan transaksi online (OLTP) menangkap dan memperbarui transaksi real-time dalam jumlah besar dari banyak pengguna. Sebaliknya, sistem OLAP menganalisis data yang telah ditangkap.

Ada tiga jenis OLAP yang dapat digunakan dalam gudang data:

  • Pemrosesan analitik online multidimensi (MOLAP): Bekerja secara langsung dengan kubus OLAP multidimensi dan biasanya merupakan jenis analisis data multidimensi yang tercepat dan paling praktis.

  • Pemrosesan analitik online relasional (ROLAP): Melakukan analisis data multidimensi yang beroperasi langsung pada data dalam tabel relasional, tanpa terlebih dahulu menata ulang data tersebut menjadi kubus.

  • Pemrosesan analitik online hibrida (HOLAP): Berfungsi untuk menciptakan pembagian kerja yang optimal antara basis data relasional dan multidimensi dalam arsitektur OLAP tunggal.

Tingkat atas

Lapisan terakhir gudang data menyediakan antarmuka pengguna front-end untuk pelaporan, dasbor, dan analisis data ad hoc dari data bisnis. Alat intelijen bisnis layanan mandiri ini memungkinkan pengguna membuat laporan berdasarkan data historis, memvisualisasikan tren, dan mengidentifikasi hambatan alur kerja tanpa keahlian rekayasa data teknis.

Berita teknologi terbaru, didukung oleh insight dari pakar

Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan disediakan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM® kami untuk informasi lebih lanjut.

Model penerapan gudang data: Lokal, cloud, dan hibrida

Gudang data telah berevolusi secara signifikan, beralih dari sistem lokal yang eksklusif ke model cloud dan hibrida yang fleksibel.

Gudang data tradisional

Secara historis, gudang data di-host secara lokal menggunakan perangkat keras komoditas. Sistem ini diatur dalam arsitektur Massively Parallel Processing (MPP) atau Symmetric Multiprocessing (SMP). Mereka juga dikirim sebagai peralatan mandiri. Penerapan ini membutuhkan investasi yang signifikan. Namun, mereka bisa menjadi pilihan yang kuat untuk organisasi di sektor-sektor dengan standar kepatuhan, keamanan data, atau privasi data yang ketat.

Gudang data cloud

Saat ini, banyak gudang data dibangun untuk berjalan di cloud. Mereka menawarkan manfaat komputasi cloud seperti penyimpanan data dalam skala petabyte, komputasi dan penyimpanan yang dapat diskalakan, dan harga bayar sesuai pemakaian. Gudang data berbasis cloud biasanya dikirimkan sebagai penawaran perangkat lunak sebagai layanan (SaaS) yang dikelola sepenuhnya, menghilangkan kebutuhan untuk investasi di muka dalam perangkat keras atau perangkat lunak. Penyampaian layanan ini juga mengurangi sumber daya yang dibutuhkan untuk manajemen infrastruktur sehingga organisasi dapat fokus pada analitik dan insight.

Gudang data berbasis cloud semakin populer karena organisasi mencari ketangkasan untuk menskalakan dan mengurangi jejak pusat data lokal dan pengeluaran infrastruktur lama mereka.

Pendekatan hibrida

Beberapa organisasi mungkin mengadopsi model hibrida, yang menggabungkan yang terbaik dari gudang data lokal dan cloud. Pendekatan ini memungkinkan mereka memanfaatkan skalabilitas dan fleksibilitas cloud sambil tetap mempertahankan kendali atas beban kerja sensitif yang harus tetap lokal.

Apa tiga skema dalam gudang data?

Dalam gudang data, skema menentuka bagaimana data diatur. Ada tiga struktur skema yang umum: skema bintang, skema kepingan salju, dan skema galaksi (juga disebut skema konstelasi fakta).

Skema ini adalah semua model data dimensional yang dirancang untuk mengoptimalkan kecepatan pengambilan data dalam sistem OLAP. Model dimensi dapat meningkatkan redundansi, sehingga lebih mudah untuk menemukan informasi untuk pelaporan dan pengambilan dan meningkatkan kinerja kueri.

Skema ini berisi tabel fakta dan tabel dimensi, didefinisikan di bawah ini:

  • Tabel fakta: Menyimpan data kuantitatif seperti produk yang terjual atau jumlah pendapatan

  • Tabel dimensi: Menyimpan informasi kontekstual dan deskriptif untuk fakta, seperti tanggal penjualan dan kategori produk

Skema bintang

Skema bintang terdiri dari satu tabel fakta sentral yang dikelilingi oleh tabel dimensi. Dalam diagram, tabel fakta muncul di tengah pola bintang. Skema bintang dianggap sebagai jenis skema yang paling sederhana dan paling umum, menawarkan kecepatan kueri yang lebih cepat kepada pengguna.

Grafik yang menggambarkan skema bintang Contoh skema bintang

Skema kepingan salju

Skema kepingan salju memiliki tabel fakta pusat yang terhubung ke banyak tabel dimensi yang dinormalisasi, yang kemudian dapat terhubung ke tabel dimensi lain melalui hubungan banyak-ke-satu. Pola percabangan yang lebih kompleks ini bisa menyerupai kepingan salju. Skema kepingan salju memiliki tingkat redundansi data yang rendah, tetapi ini datang dengan biaya kinerja kueri yang lebih lambat.

Contoh skema kepingan salju Contoh skema kepingan salju

Skema galaksi

Sama seperti galaksi kita berisi banyak bintang, skema galaksi berisi banyak skema bintang yang berbagi tabel dimensi yang dinormalisasi untuk menghindari redundansi. Skema galaksi paling cocok untuk gudang data yang sangat kompleks, tetapi pengguna mungkin mengalami pengalaman yang lebih rendah.

Contoh skema galaksi Contoh skema galaksi

Komponen arsitektur gudang data

Arsitektur gudang data yang khas memiliki beberapa komponen yang bekerja sama untuk menyimpan, mengelola, memproses, dan mengirimkan data untuk analitik.

  • Alat ETL/ELT
  • Lapisan API
  • Lapisan data (basis data pusat)
  • Metadata
  • Sandbox
  • Akses alat

Alat ETL/ELT

Alat ETL mengekstrak data dari sistem sumber, mengubahnya di area penahapan dan memuatnya ke gudang data. Di ELT, data diubah setelah dimuat di gudang. Kerangka kerja pemrosesan data, seperti Apache Spark, dapat membantu dalam mengelola transformasi data.

Lapisan API

Lapisan konektivitas untuk antarmuka pemrograman aplikasi (API) dapat membantu gudang menarik data dari dan mengintegrasikan dengan sistem operasional. API juga dapat menyediakan akses ke visualisasi dan alat analitik canggih.

Lapisan data (atau basis data pusat)

Lapisan data (atau basis data pusat) adalah jantung dari gudang data. Di sini, sistem mengintegrasikan dan menyimpan data dari berbagai sumber, seperti aplikasi bisnis, daftar email, situs web, atau basis data lainnya. Lapisan ini didukung oleh jalur data ETL atau ELT dan menggunakan sistem manajemen basis data relasional (RDBMS) atau platform gudang data cloud. Kemampuan tata kelola data bawaan dapat mempartisi data sehingga pengguna hanya mengakses apa yang mereka perlukan.

Metadata adalah data tentang data, menggambarkan data yang disimpan dalam sistem untuk membuatnya dapat dicari dan dapat digunakan untuk analitik. Metadata ini mencakup metadata teknis (seperti struktur tabel dan tipe data) dan metadata deskriptif (seperti penulis, tanggal pembuatan, atau ukuran file). Metadata adalah kunci untuk tata kelola data dan manajemen data yang efektif.

Sandbox

Beberapa gudang data menyediakan sandbox, yang merupakan lingkungan pengujian tertutup yang berisi salinan data produksi dan alat analisis yang relevan. Analis dan ilmuwan data dapat menguji teknik analitik baru di sandbox tanpa mengganggu operasional gudang data bagi pengguna lain.

Akses alat

Alat akses terhubung ke gudang data dan menyediakan front-end yang mudah digunakan oleh pengguna bisnis. Pengguna bisnis dan analis data dapat menggunakan dasbor, aplikasi, dan alat visualisasi data untuk berinteraksi dengan data dan mengekstrak insight. Contoh alat ini termasuk Tableau, Looker, dan Qlik.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Jenis gudang data

Ada tiga jenis utama gudang data:

  • Gudang data enterprise (EDW)
  • Penyimpanan data operasional (ODS)
  • data mart

Gudang data perusahaan (EDW)

Gudang data perusahaan (EDW) adalah gudang data yang melayani seluruh perusahaan. Ini bertindak sebagai repositori informasi terpusat data historis untuk semua tim dan bidang subjek. Lingkungan pergudangan data perusahaan juga dapat mencakup penyimpanan data (ODS) dan pasar data khusus departemen.

Penyimpanan data operasional (ODS)

Penyimpanan data operasional (ODS) berisi snapshot terbaru dari data operasional. ODS sering diperbarui, memungkinkan akses cepat ke data nyaris seketika. Organisasi sering menggunakan ODS untuk pengambilan keputusan operasional sehari-hari dan analisis waktu nyata. Ini juga bisa menjadi sumber data untuk EDW atau sistem data lainnya.

Pasar data

Pasar data adalah bagian dari gudang data yang ada (atau sumber data lainnya) dan berisi data yang disesuaikan dengan lini bisnis atau departemen tertentu daripada seluruh perusahaan. Misalnya, sebuah perusahaan mungkin memiliki pasar data yang selaras dengan departemen pemasaran. Pengguna tersebut dapat mengakses insight yang lebih terfokus untuk segmentasi pelanggan dan kinerja kampanye tanpa menavigasi kumpulan data perusahaan yang lebih luas.

Gudang data vs. jenis penyimpanan data lainnya

Istilah data warehouse, basis data, data lake, dan data lakehouse terkadang digunakan secara bergantian, namun ada perbedaan penting.

Gudang data vs. basis data

Basis data seperti lemari arsip yang dibangun terutama untuk pengambilan data otomatis dan pemrosesan transaksi yang cepat. Ini biasanya berfungsi sebagai penyimpanan data terfokus untuk aplikasi tertentu. Gudang data menyimpan data dari sejumlah aplikasi dalam organisasi dan dioptimalkan untuk analisis prediktif dan analisis lanjutan lainnya.

Gudang data vs. data lake

Data lake adalah solusi penyimpanan berbiaya rendah untuk data mentah dalam jumlah besar dan menggunakan pendekatan skema on-read daripada skema yang telah ditentukan sebelumnya. Data lake biasanya menyimpan data yang tidak terstruktur, dan semi-terstruktur, seperti dokumen, video, log Internet of Things (IoT), dan unggahan dari media sosial.

Mereka dapat dibangun di platform big data seperti Apache Hadoop atau layanan cloud object storage seperti Amazon Simple Storage Service (Amazon S3). Mereka biasanya tidak membersihkan, memvalidasi, atau menormalkan data untuk analitik, seperti yang dilakukan gudang.

Data lakehouse vs. gudang data

Data lakehouse menggabungkan aspek gudang data dan data lake—yaitu, fleksibilitas danau yang murah dan kinerja yang tinggi. Dengan menggabungkan fitur-fitur utama lake dan gudang ke dalam satu solusi data, lakehouse dapat membantu mempercepat pemrosesan data untuk sejumlah besar aliran data tidak terstruktur, terstruktur, and real-time untuk mendukung beban kerja machine learning, ilmu data, dan kecerdasan buatan (AI).

Data lakehouse juga dapat menambahkan fitur seperti metadata bersama dan mesin bahasa kueri terstruktur (SQL) terdistribusi.

Manfaat gudang data

Gudang data membuat insight dan informasi tersedia bagi pengguna di seluruh organisasi, menawarkan banyak insight, seperti:

  • Peningkatan kualitas data
  • Dukungan untuk AI dan machine learning
  • Dukungan keputusan yang ditingkatkan

Peningkatan kualitas data

Melalui proses ELT atau ETL, gudang data menyiapkan data yang masuk sebelum disimpan di gudang. Persiapan ini mencakup metode kualitas data seperti pembersihan data, standarisasi, dan deduplikasi. Kebijakan dan praktik tata kelola data yang kuat juga dapat membantu memastikan keakuratan dan integritas data untuk semua pengguna.

Dengan mengintegrasikan data berkualitas tinggi ke dalam satu penyimpanan, organisasi menciptakan sumber kebenaran tunggal yang komprehensif dan andal — yang membantu menghilangkan silo data. Repositori pusat ini memungkinkan pengguna bisnis untuk dengan percaya diri mengakses semua data terkait organisasi dan menggunakannya untuk pengambilan keputusan bisnis. Gudang data kelas enterprise juga dapat mendukung format sumber terbuka seperti Apache Iceberg, Parquet, dan CSV, sehingga mempermudah berbagi data di seluruh organisasi.

Dukungan untuk AI dan machine learning

Gudang data modern dapat mendukung berbagai alur kerja AI dan machine learning dengan menyediakan data yang bersih dan andal. Mereka dapat menggunakan data gudang yang telah dibersihkan dan divalidasi untuk membangun model AI generatif yang dipatenkan atau menyempurnakan model yang sudah ada agar lebih melayani kebutuhan bisnis unik mereka.

Gudang data siap AI harus dapat mengumpulkan, membersihkan, mengatur dan menyusun data, serta memfasilitasi aliran data ke AI dan platform machine learning. Namun, tidak semua gudang data modern dioptimalkan untuk beban kerja AI. Data lakehouse semakin menjadi platform data pilihan untuk infrastruktur AI.

Dukungan keputusan yang ditingkatkan

Gudang data memusatkan dan membersihkan data dari berbagai sumber untuk menciptakan sumber kebenaran tunggal, sehingga memberikan pandangan yang komprehensif dan dapat diandalkan kepada organisasi tentang data perusahaan. Alat BI layanan mandiri memungkinkan pengguna di seluruh perusahaan untuk mengakses dan menjalankan kueri analitis pada data agregat ini.

Dengan cara ini, gudang data memungkinkan pengguna bisnis dengan tingkat keahlian teknis apa pun untuk menemukan dan melaporkan tema, tren, dan agregasi. Para pemimpin bisnis dapat menggunakan insight ini untuk membuat keputusan dan perkiraan yang lebih terinformasi berdasarkan bukti kuat di hampir setiap area organisasi, mulai dari proses bisnis hingga manajemen keuangan dan manajemen inventaris.

Contoh penggunaan gudang data khusus industri

Gudang data juga dapat melayani penggunaan khusus industri, seperti:

Pemerintah

Kemampuan analisis data dari gudang data dapat membantu pemerintah memahami fenomena kompleks, seperti tingkat kejahatan, tren demografi, dan pola lalu lintas.

Pelayanan Kesehatan

Memusatkan dan menganalisis data berbeda, seperti kode penagihan, diagnosis, demografi pasien, obat-obatan dan hasil tes lab, dapat membantu penyedia layanan kesehatan memperoleh insight tentang hasil pasien, efisiensi operasional, dan aspek lainnya.

Perjalanan dan perhotelan

Organisasi dapat menggunakan data historis yang berkaitan dengan pilihan perjalanan dan akomodasi untuk menargetkan iklan dan promosi secara lebih tepat kepada pelanggan mereka.

Manufaktur

Perusahaan manufaktur besar yang menghasilkan data dalam jumlah besar dapat menggunakan solusi gudang data untuk membangun pasar data yang disesuaikan dengan kebutuhan setiap departemen.

Solusi terkait
IBM StreamSets

Buat dan kelola pipeline data streaming cerdas melalui antarmuka grafis yang intuitif, yang memfasilitasi integrasi data tanpa batas di seluruh lingkungan hybrid dan multicloud.

Jelajahi StreamSets
IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

Temukan watsonx.data
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data Temukan watsonx.data