Apa itu Gudang Data?

By Jim Holdsworth , Matthew Kosinski , Alexandra Jonker

Apa yang dimaksud dengan data warehouse?

Gudang data menggabungkan data dari berbagai sumber ke dalam penyimpanan data pusat yang dioptimalkan untuk kueri dan analisis. Biasanya menggunakan proses ekstrak, transformasi, dan muat (ETL) atau ekstrak, muat, dan transformasi (ELT) untuk membersihkan, menyiapkan, dan mengatur data untuk business intelligence (BI) dan contoh penggunaan analitik data lainnya.

Sistem pergudangan data dapat mengintegrasikan data dalam jumlah besar dari berbagai sistem sumber, termasuk basis data operasional, sistem transaksional dan platform manajemen hubungan pelanggan (CRM). Alat analitik layanan mandiri memberdayakan pengguna bisnis untuk menjelajahi dan menganalisis data ini untuk mendapatkan insight yang berharga.

Konsep gudang data muncul pada tahun 1980-an untuk mengintegrasikan berbagai data yang berbeda ke dalam format yang konsisten untuk analisis. Seiring dengan banyaknya sumber data baru, seperti World Wide Web, media sosial dan Internet of Things (IoT), permintaan untuk kapasitas penyimpanan yang lebih besar dan analisis yang lebih cepat makin bertumbuh.

Gudang data dikonfigurasi dan dioptimalkan untuk analitik nyaris seketika, yang berarti mereka biasanya tidak ideal untuk menyimpan sejumlah besar big data mentah dan tidak terstruktur. Seiring bertambahnya jumlah data di gudang, biaya dan kompleksitas penyimpanan juga tumbuh bersamanya. Masalah latensi dan kinerja juga dapat muncul.

Sebagai tanggapan, alternatif yang lebih fleksibel berkembang, termasuk gudang data cloud native dan data lakehouse. Untuk informasi lebih lanjut, lihat “data warehouse versus data lakehouse” untuk informasi lebih lanjut.

Bagaimana cara kerja gudang data?

Gudang data sering menggunakan arsitektur tiga tingkat yang dirancang untuk mengubah data untuk analitik:

Tingkat bawah
Tingkat menengah
Tingkat teratas

Tingkat bawah

Data mengalir dari beberapa sistem sumber ke server gudang data, tempat data tersebut disimpan. Secara tradisional, data pindah melalui proses integrasi data ekstrak, transformasi, muat (ETL), yang menggunakan otomatisasi untuk membersihkan dan mengatur data sebelum memuatnya ke gudang data.

Karena gudang data terutama menyimpan data terstruktur, transformasi data terjadi sebelum pemuatan data. Beberapa gudang modern menggunakan proses ekstrak, muat, transformasi (ELT) sebagai gantinya, yang memuat data ke dalam gudang sebelum mentransformasikannya. Metode ini umumnya digunakan di data lake, yang dapat menyimpan data tidak terstruktur dan semi-terstruktur tanpa memerlukan format standar.

Tingkat menengah

Tingkatan ini berisi mesin analitik, sering didukung oleh sistem pemrosesan analitik online (OLAP). Sementara basis data relasional tradisional (termasuk banyak gudang data) dapat menyimpan data multidimensi (angka penjualan mungkin memiliki beberapa dimensi seperti lokasi, waktu, dan produk), mereka tidak dioptimalkan untuk kueri multidimensi.

Sistem OLAP dirancang untuk kueri berkecepatan tinggi, kompleks dan analisis multidimensi pada volume data yang besar. Mereka menggunakan "kubus" (struktur data multidimensi berbasis array) untuk memungkinkan analisis yang lebih cepat dan lebih fleksibel di berbagai dimensi. Contoh penggunaan umum termasuk penambangan data, analisis keuangan, penganggaran, dan perencanaan perkiraan.

Kubus OLAP dengan dimensi untuk produk, wilayah penjualan, dan kuartal

OLAP versus OLTP: Sistem pemrosesan transaksi online (OLTP) menangkap dan memperbarui transaksi real-time dalam jumlah besar dari banyak pengguna. Sebaliknya, sistem OLAP menganalisis data yang telah ditangkap.

Ada tiga jenis OLAP yang dapat digunakan dalam gudang data:

Pemrosesan analitik online multidimensi (MOLAP): Bekerja secara langsung dengan kubus OLAP multidimensi dan biasanya merupakan jenis analisis data multidimensi yang tercepat dan paling praktis.
Pemrosesan analitik online relasional (ROLAP): Melakukan analisis data multidimensi yang beroperasi langsung pada data dalam tabel relasional, tanpa terlebih dahulu menata ulang data tersebut menjadi kubus.
Pemrosesan analitik online hibrida (HOLAP): Berfungsi untuk menciptakan pembagian kerja yang optimal antara basis data relasional dan multidimensi dalam arsitektur OLAP tunggal.

Tingkat atas

Lapisan terakhir gudang data menyediakan antarmuka pengguna front-end untuk pelaporan, dasbor, dan analisis data ad hoc dari data bisnis. Alat intelijen bisnis layanan mandiri ini memungkinkan pengguna membuat laporan berdasarkan data historis, memvisualisasikan tren, dan mengidentifikasi hambatan alur kerja tanpa keahlian rekayasa data teknis.

Berita teknologi terbaru, didukung oleh insight dari pakar

Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.

Model penerapan gudang data: Lokal, cloud, dan hibrida

Gudang data telah berevolusi secara signifikan, beralih dari sistem lokal yang eksklusif ke model cloud dan hibrida yang fleksibel.

Gudang data tradisional

Secara historis, gudang data di-host on premises menggunakan perangkat keras komoditas. Sistem ini diatur dalam arsitektur massively parallel processing (MPP) atau symmetric multiprocessing (SMP). Sistem ini juga dihadirkan sebagai peralatan mandiri. Penerapan ini membutuhkan investasi yang signifikan. Namun, mereka bisa menjadi pilihan yang kuat untuk organisasi di sektor-sektor dengan standar kepatuhan, keamanan data atau privasi data yang ketat.

Gudang data cloud

Saat ini, banyak gudang data dibangun untuk berjalan di cloud. Mereka menawarkan manfaat komputasi cloud seperti penyimpanan data dalam skala petabyte, komputasi dan penyimpanan yang dapat diskalakan, dan harga bayar sesuai pemakaian. Gudang data berbasis cloud biasanya dikirimkan sebagai penawaran perangkat lunak sebagai layanan (SaaS) yang dikelola sepenuhnya, menghilangkan kebutuhan untuk investasi di muka dalam perangkat keras atau perangkat lunak.

Penyampaian layanan ini juga mengurangi sumber daya yang dibutuhkan untuk manajemen infrastruktur sehingga organisasi dapat fokus pada analitik dan insight. Gudang data berbasis cloud semakin populer karena organisasi mencari ketangkasan untuk menskalakan dan mengurangi jejak pusat data on premises dan biaya infrastruktur lama mereka.

Kesalahpahaman umum tentang gudang data cloud

Pendekatan hibrida

Beberapa organisasi mungkin mengadopsi model hibrida, yang menggabungkan yang terbaik dari gudang data lokal dan cloud. Pendekatan ini memungkinkan mereka memanfaatkan skalabilitas dan fleksibilitas cloud sambil tetap mempertahankan kendali atas beban kerja sensitif yang harus tetap lokal.

Apa tiga skema dalam gudang data?

Dalam gudang data, skema menentukan bagaimana data diatur. Ada tiga struktur skema yang umum: skema bintang, skema kepingan salju, dan skema galaksi (juga disebut skema konstelasi fakta).

Skema ini adalah semua model data dimensional yang dirancang untuk mengoptimalkan kecepatan pengambilan data dalam sistem OLAP. Model dimensi dapat meningkatkan redundansi, sehingga lebih mudah untuk menemukan informasi untuk pelaporan dan pengambilan dan meningkatkan kinerja kueri.

Skema ini berisi tabel fakta dan tabel dimensi, didefinisikan sebagai berikut:

Tabel fakta: Menyimpan data kuantitatif seperti produk yang terjual atau jumlah pendapatan
Tabel dimensi: Menyimpan informasi kontekstual dan deskriptif untuk fakta, seperti tanggal penjualan dan kategori produk

Skema bintang

Skema bintang terdiri dari satu tabel fakta sentral yang dikelilingi oleh tabel dimensi. Dalam diagram, tabel fakta muncul di tengah pola bintang. Skema bintang dianggap sebagai jenis skema yang paling sederhana dan paling umum, menawarkan kecepatan kueri yang lebih cepat kepada pengguna.

Contoh skema bintang

Skema kepingan salju

Skema snowflake menempatkan tabel fakta pusat sebagai inti, dengan banyak tabel dimensi yang dinormalisasi yang memancar keluar dan dimensi tersebut meluas lebih jauh ke tabel dimensi lain melalui hubungan banyak-ke-satu. Pola percabangan yang lebih kompleks ini bisa menyerupai kepingan salju. Skema snowflake memiliki tingkat redundansi data yang rendah, tetapi manfaat ini datang dengan mengorbankan kinerja kueri yang lebih lambat.

Contoh skema kepingan salju

Skema galaksi

Sama seperti galaksi berisi banyak bintang, skema galaksi berisi beberapa skema bintang. Skema ini berbagi tabel dimensi yang dinormalisasi untuk mengurangi redundansi. Skema galaksi paling cocok untuk gudang data yang sangat kompleks, tetapi pengguna dapat mengalami kinerja yang lebih rendah.

Contoh skema galaksi

Komponen arsitektur gudang data

Arsitektur gudang data yang khas memiliki beberapa komponen yang bekerja sama untuk menyimpan, mengelola, memproses, dan mengirimkan data untuk analitik.

Alat ETL/ELT
Lapisan API
Lapisan data (basis data pusat)
Metadata
Sandbox
Akses alat

Alat ETL/ELT

Alat ETL mengekstrak data dari sistem sumber, mengubahnya di area penahapan dan memuatnya ke gudang data. Di ELT, data diubah setelah dimuat di gudang. Kerangka kerja pemrosesan data, seperti Apache Spark, dapat membantu dalam mengelola transformasi data.

ELT versus ETL: Apa bedanya?

Lapisan API

Lapisan konektivitas untuk antarmuka pemrograman aplikasi (API) dapat membantu gudang menarik data dari dan mengintegrasikan dengan sistem operasional. API juga dapat menyediakan akses ke visualisasi dan alat analitik canggih.

Lapisan data (atau basis data pusat)

Lapisan data (atau basis data pusat) adalah jantung dari gudang data. Di sini, sistem mengintegrasikan dan menyimpan data dari berbagai sumber, seperti aplikasi bisnis, daftar email, situs web, atau basis data lainnya. Pipeline data ETL atau ELT mendukung lapisan ini dan sistem manajemen basis data relasional (RDBMS) atau platform gudang data cloud memberdayakannya. Kemampuan tata kelola data bawaan dapat mempartisi data sehingga pengguna hanya mengakses apa yang mereka perlukan.

Metadata adalah data tentang data, menggambarkan data yang disimpan dalam sistem untuk membuatnya dapat dicari dan dapat digunakan untuk analitik. Metadata ini mencakup metadata teknis (seperti struktur tabel dan tipe data) dan metadata deskriptif (seperti penulis, tanggal pembuatan, atau ukuran file). Metadata adalah kunci untuk tata kelola data dan manajemen data yang efektif.

Sandbox

Beberapa gudang data menyediakan sandbox, yang merupakan lingkungan pengujian tertutup yang berisi salinan data produksi dan alat analisis yang relevan. Analis data dan ilmuwan data dapat menguji teknik analisis baru di sandbox tanpa mempengaruhi operasi langsung.

Akses alat

Alat akses terhubung ke gudang data dan menyediakan antarmuka pengguna yang mudah diakses. Pengguna bisnis dan analis data dapat menggunakan dasbor, aplikasi, dan alat visualisasi data untuk berinteraksi dengan data dan mengekstrak insight. Contoh alat ini termasuk Tableau, Looker, dan Qlik.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Buka episode

Jenis gudang data

Ada tiga jenis utama gudang data:

Gudang data enterprise (EDW)
Penyimpanan data operasional (ODS)
data mart

Gudang data perusahaan (EDW)

Gudang data perusahaan (EDW) adalah gudang data yang melayani seluruh perusahaan. Ini bertindak sebagai repositori informasi terpusat data historis untuk semua tim dan bidang subjek. Lingkungan pergudangan data perusahaan juga dapat mencakup penyimpanan data operasi (ODS) dan pasar data khusus departemen.

Penyimpanan data operasional (ODS)

Penyimpanan data operasional (ODS) berisi snapshot terbaru dari data operasional. ODS sering diperbarui, memungkinkan akses cepat ke data nyaris seketika. Organisasi sering menggunakan ODS untuk pengambilan keputusan operasional sehari-hari dan analisis waktu nyata. Ini juga bisa menjadi sumber data untuk EDW atau sistem data lainnya.

Pasar data

Pasar data adalah bagian dari gudang data yang ada (atau sumber data lainnya) dan berisi data yang disesuaikan dengan lini bisnis atau departemen tertentu daripada seluruh perusahaan. Misalnya, sebuah perusahaan dapat memiliki pasar data yang selaras dengan departemen pemasaran. Pengguna tersebut dapat mengakses insight yang lebih terfokus untuk segmentasi pelanggan dan kinerja kampanye tanpa menavigasi kumpulan data perusahaan yang lebih luas.

Gudang data vs. jenis penyimpanan data lainnya

Istilah data warehouse, basis data, data lake, dan data lakehouse terkadang digunakan secara bergantian, namun ada perbedaan penting.

Gudang data vs. data lake vs. data lakehouse

Gudang data vs. basis data

Basis data seperti lemari arsip yang dibangun terutama untuk pengambilan data otomatis dan pemrosesan transaksi yang cepat. Ini biasanya berfungsi sebagai penyimpanan data terfokus untuk aplikasi tertentu. Gudang data menyimpan data dari sejumlah aplikasi dalam organisasi dan dioptimalkan untuk analisis prediktif dan analisis lanjutan lainnya.

Gudang data vs. data lake

Data lake adalah solusi penyimpanan berbiaya rendah untuk data mentah dalam jumlah besar dan menggunakan pendekatan skema on-read daripada skema yang telah ditentukan sebelumnya. Data lake dapat menyimpan data terstruktur, data tidak terstruktur, dan data semi-terstruktur, seperti dokumen, video, log IoT, dan posting media sosial.

Mereka dapat dibangun di platform big data seperti Apache Hadoop atau layanan cloud object storage seperti Amazon Simple Storage Service (Amazon S3). Mereka biasanya tidak membersihkan, memvalidasi, atau menormalkan data untuk analitik, seperti yang dilakukan gudang.

Data lakehouse vs. gudang data

Data lakehouse menggabungkan kekuatan data warehouse dan data lake, memberikan fleksibilitas biaya rendah dari sebuah danau bersama dengan kinerja tinggi dari sebuah gudang. Dengan menggabungkan fitur-fitur utama dari lakehouse dan gudang data ke dalam satu platform data, lakehouse dapat mempercepat pemrosesan untuk volume besar data terstruktur, tidak terstruktur, dan real-time.

Mereka juga mendukung machine learning, ilmu data, dan beban kerja kecerdasan buatan (AI) dengan lebih efisien. Data lakehouse juga dapat menambahkan fitur seperti metadata bersama dan mesin bahasa kueri terstruktur (SQL) terdistribusi.

Manfaat gudang data

Gudang data membuat insight dan informasi tersedia bagi pengguna di seluruh organisasi, menawarkan banyak insight, seperti:

Peningkatan kualitas data
Dukungan untuk AI dan machine learning
Dukungan keputusan yang ditingkatkan

Peningkatan kualitas data

Melalui proses ELT atau ETL, gudang data menyiapkan data yang masuk sebelum disimpan di gudang. Persiapan ini mencakup metode kualitas data seperti pembersihan data, standardisasi, dan deduplikasi. Kebijakan dan praktik tata kelola data yang kuat juga dapat membantu memastikan keakuratan dan integritas data untuk semua pengguna.

Dengan mengintegrasikan data berkualitas tinggi ke dalam satu penyimpanan, organisasi menciptakan sumber kebenaran tunggal yang komprehensif dan andal, yang membantu menghilangkan silo data. Repositori pusat ini memungkinkan pengguna bisnis untuk dengan percaya diri mengakses data penting organisasi dan menggunakannya untuk pengambilan keputusan bisnis. Gudang data kelas enterprise juga dapat mendukung format sumber terbuka seperti Apache Iceberg, Parquet, dan CSV, sehingga mempermudah akses dan berbagi data di seluruh organisasi.

Dukungan untuk AI dan machine learning

Gudang data modern dapat mendukung berbagai alur kerja AI dan machine learning dengan menyediakan data yang bersih dan andal. Mereka dapat menggunakan data gudang yang telah dibersihkan dan divalidasi untuk membangun model AI generatif yang dipatenkan atau menyempurnakan model yang sudah ada agar lebih melayani kebutuhan bisnis unik mereka.

Gudang data siap AI harus dapat mengumpulkan, membersihkan, mengatur dan menyusun data, serta memfasilitasi aliran data ke AI dan platform machine learning. Namun, tidak semua gudang data modern dioptimalkan untuk beban kerja AI. Data lakehouse semakin menjadi platform data pilihan untuk infrastruktur AI.

Dukungan keputusan yang ditingkatkan

Gudang data memusatkan dan membersihkan data dari berbagai sumber untuk menciptakan sumber kebenaran tunggal, sehingga memberikan pandangan yang komprehensif dan dapat diandalkan kepada organisasi tentang data perusahaan. Alat BI layanan mandiri memungkinkan pengguna di seluruh perusahaan untuk mengakses dan menjalankan kueri analitis pada data agregat ini.

Dengan cara ini, gudang data memungkinkan pengguna bisnis dengan tingkat keahlian teknis apa pun untuk menemukan dan melaporkan tema, tren, dan agregasi. Para pemimpin bisnis dapat menggunakan insight ini untuk membuat keputusan dan perkiraan yang lebih terinformasi berdasarkan bukti kuat di hampir setiap area organisasi, mulai dari proses bisnis hingga manajemen keuangan dan manajemen inventaris.

Contoh penggunaan gudang data khusus industri

Gudang data juga dapat melayani penggunaan khusus industri, seperti:

Pemerintah

Kemampuan analisis data dari gudang data dapat membantu pemerintah memahami fenomena kompleks, seperti tingkat kejahatan, tren demografi, dan pola lalu lintas.

Pelayanan Kesehatan

Kemampuan untuk memusatkan dan menganalisis data yang berbeda, seperti kode tagihan dan diagnostik, demografi pasien, obat-obatan, dan hasil tes, dapat memberikan insight yang lebih dalam kepada penyedia layanan kesehatan. Insight ini membantu mereka memahami hasil pasien, meningkatkan efisiensi operasional, dan banyak lagi.

Perjalanan dan perhotelan

Organisasi dapat menggunakan data historis yang berkaitan dengan pilihan perjalanan dan akomodasi untuk menargetkan iklan dan promosi secara lebih tepat kepada pelanggan mereka.

Manufaktur

Perusahaan manufaktur besar yang menghasilkan data dalam jumlah besar dapat menggunakan solusi gudang data untuk membangun pasar data yang disesuaikan dengan kebutuhan setiap departemen.

Pertanyaan yang sering diajukan tentang gudang data

Apakah saya memerlukan gudang data?

Gudang data dapat menjadi pilihan cerdas jika organisasi Anda mengumpulkan data dalam jumlah besar dari berbagai sistem operasional, seperti aplikasi bisnis (BI), situs web, dan basis data lainnya. Ini sangat berguna ketika Anda berencana untuk melakukan analisis historis yang kompleks dengan alat atau dasbor BI.

Bagaimana cara mengoptimalkan biaya gudang data?

Untuk optimasi biaya, lihat arsitektur yang memisahkan sumber daya data dan komputasi, memungkinkan Anda untuk menskalakan sumber daya secara terpisah. Anda juga dapat menggunakan cloud object storage yang hemat biaya dan manajemen beban kerja yang didukung AI untuk distribusi sumber daya otomatis. Format data terbuka memudahkan berbagi data di seluruh gudang data dan lakehouse, mengurangi biaya penyimpanan dan kompleksitas.

Bagaimana cara menangani masalah kualitas data di gudang data?

Proses ETL/ELT yang kuat untuk pembersihan dan standardisasi data, kebijakan tata kelola data yang kuat, dan observabilitas datauntuk mendeteksi masalah saat muncul dapat membantu masalah kualitas data. Pendekatan “geser ke kiri” juga dapat membantu mendeteksi dan menyelesaikan masalah kualitas data yang lebih dekat ke akar masalah daripada ke hilir.

Apa perbedaan gudang data dan basis data?

Basis data dibuat terutama untuk pemrosesan transaksi yang cepat dan biasanya berfungsi sebagai penyimpanan data untuk aplikasi tertentu. Gudang data mengumpulkan volume besar data dari berbagai sumber, kemudian membersihkan dan mempersiapkannya untuk intelijen bisnis, kueri analitik, dan analisis data lanjutan lainnya.

Siapa yang harus memiliki gudang data?

Insinyur data membangun dan memelihara infrastruktur, sementara kepala data menetapkan strategi data dan mengawasi fungsi manajemen data. Tim intelijen bisnis mengelola lapisan semantik dan dasbor serta tim tata kelola data lintas fungsi membantu memastikan kualitas dan keamanan data.

Penyusun

Alexandra Jonker

Staff Editor

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

IBM® watsonx.data - Satu-satunya data lakehouse hybrid dan data terbuka

Tingkatkan akurasi AI dengan data terstruktur dan tidak terstruktur yang siap untuk AI.

Apa yang dimaksud dengan data warehouse?

Apa yang dimaksud dengan data warehouse?

Bagaimana cara kerja gudang data?

Tingkat bawah

Tingkat menengah

Tingkat atas

Berita teknologi terbaru, didukung oleh insight dari pakar

Terima kasih! Anda telah berlangganan.

Model penerapan gudang data: Lokal, cloud, dan hibrida

Gudang data tradisional

Gudang data cloud

Pendekatan hibrida

Apa tiga skema dalam gudang data?

Skema bintang

Skema kepingan salju

Skema galaksi

Komponen arsitektur gudang data

Alat ETL/ELT

Lapisan API

Lapisan data (atau basis data pusat)

Sandbox

Akses alat

Apakah manajemen data merupakan rahasia AI generatif?

Jenis gudang data

Gudang data perusahaan (EDW)

Penyimpanan data operasional (ODS)

Pasar data

Gudang data vs. jenis penyimpanan data lainnya

Gudang data vs. basis data

Gudang data vs. data lake

Data lakehouse vs. gudang data

Manfaat gudang data

Peningkatan kualitas data

Dukungan untuk AI dan machine learning

Dukungan keputusan yang ditingkatkan

Contoh penggunaan gudang data khusus industri

Pertanyaan yang sering diajukan tentang gudang data

Apakah saya memerlukan gudang data?

Bagaimana cara mengoptimalkan biaya gudang data?

Bagaimana cara menangani masalah kualitas data di gudang data?

Apa perbedaan gudang data dan basis data?

Siapa yang harus memiliki gudang data?

Sumber daya