Berita teknologi terbaru, didukung oleh insight dari pakar
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Sistem pergudangan data dapat mengintegrasikan data dalam jumlah besar dari berbagai sistem sumber, termasuk basis data operasional, sistem transaksional dan platform manajemen hubungan pelanggan (CRM). Alat analitik layanan mandiri memberdayakan pengguna bisnis untuk menjelajahi dan menganalisis data ini untuk mendapatkan insight yang berharga.
Konsep gudang data muncul pada tahun 1980-an untuk mengintegrasikan berbagai data yang berbeda ke dalam format yang konsisten untuk analisis. Seiring dengan banyaknya sumber data baru, seperti World Wide Web, media sosial dan Internet of Things (IoT), permintaan untuk kapasitas penyimpanan yang lebih besar dan analisis yang lebih cepat makin bertumbuh.
Gudang data dikonfigurasi dan dioptimalkan untuk analitik nyaris seketika, yang berarti mereka biasanya tidak ideal untuk menyimpan sejumlah besar big data mentah dan tidak terstruktur. Seiring bertambahnya jumlah data di gudang, biaya dan kompleksitas penyimpanan juga tumbuh bersamanya. Masalah latensi dan kinerja juga dapat muncul.
Sebagai tanggapan, alternatif yang lebih fleksibel berkembang, termasuk gudang data cloud native dan data lakehouse. Untuk informasi lebih lanjut, lihat “data warehouse versus data lakehouse” untuk informasi lebih lanjut.
Gudang data sering menggunakan arsitektur tiga tingkat yang dirancang untuk mengubah data untuk analitik:
Data mengalir dari beberapa sistem sumber ke server gudang data, tempat data tersebut disimpan. Secara tradisional, data pindah melalui proses integrasi data ekstrak, transformasi, muat (ETL), yang menggunakan otomatisasi untuk membersihkan dan mengatur data sebelum memuatnya ke gudang data.
Karena gudang data terutama menyimpan data terstruktur, transformasi data terjadi sebelum pemuatan data. Beberapa gudang modern menggunakan proses ekstrak, muat, transformasi (ELT) sebagai gantinya, yang memuat data ke dalam gudang sebelum mentransformasikannya. Metode ini umumnya digunakan di data lake, yang dapat menyimpan data tidak terstruktur dan semi-terstruktur tanpa memerlukan format standar.
Tingkatan ini berisi mesin analitik, sering didukung oleh sistem pemrosesan analitik online (OLAP). Sementara basis data relasional tradisional (termasuk banyak gudang data) dapat menyimpan data multidimensi (angka penjualan mungkin memiliki beberapa dimensi seperti lokasi, waktu, dan produk), mereka tidak dioptimalkan untuk kueri multidimensi.
Sistem OLAP dirancang untuk kueri berkecepatan tinggi, kompleks dan analisis multidimensi pada volume data yang besar. Mereka menggunakan "kubus" (struktur data multidimensi berbasis array) untuk memungkinkan analisis yang lebih cepat dan lebih fleksibel di berbagai dimensi. Contoh penggunaan umum termasuk penambangan data, analisis keuangan, penganggaran, dan perencanaan perkiraan.
OLAP versus OLTP: Sistem pemrosesan transaksi online (OLTP) menangkap dan memperbarui transaksi real-time dalam jumlah besar dari banyak pengguna. Sebaliknya, sistem OLAP menganalisis data yang telah ditangkap.
Ada tiga jenis OLAP yang dapat digunakan dalam gudang data:
Lapisan terakhir gudang data menyediakan antarmuka pengguna front-end untuk pelaporan, dasbor, dan analisis data ad hoc dari data bisnis. Alat intelijen bisnis layanan mandiri ini memungkinkan pengguna membuat laporan berdasarkan data historis, memvisualisasikan tren, dan mengidentifikasi hambatan alur kerja tanpa keahlian rekayasa data teknis.
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Gudang data telah berevolusi secara signifikan, beralih dari sistem lokal yang eksklusif ke model cloud dan hibrida yang fleksibel.
Secara historis, gudang data di-host on premises menggunakan perangkat keras komoditas. Sistem ini diatur dalam arsitektur massively parallel processing (MPP) atau symmetric multiprocessing (SMP). Sistem ini juga dihadirkan sebagai peralatan mandiri. Penerapan ini membutuhkan investasi yang signifikan. Namun, mereka bisa menjadi pilihan yang kuat untuk organisasi di sektor-sektor dengan standar kepatuhan, keamanan data atau privasi data yang ketat.
Saat ini, banyak gudang data dibangun untuk berjalan di cloud. Mereka menawarkan manfaat komputasi cloud seperti penyimpanan data dalam skala petabyte, komputasi dan penyimpanan yang dapat diskalakan, dan harga bayar sesuai pemakaian. Gudang data berbasis cloud biasanya dikirimkan sebagai penawaran perangkat lunak sebagai layanan (SaaS) yang dikelola sepenuhnya, menghilangkan kebutuhan untuk investasi di muka dalam perangkat keras atau perangkat lunak.
Penyampaian layanan ini juga mengurangi sumber daya yang dibutuhkan untuk manajemen infrastruktur sehingga organisasi dapat fokus pada analitik dan insight. Gudang data berbasis cloud semakin populer karena organisasi mencari ketangkasan untuk menskalakan dan mengurangi jejak pusat data on premises dan biaya infrastruktur lama mereka.
Beberapa organisasi mungkin mengadopsi model hibrida, yang menggabungkan yang terbaik dari gudang data lokal dan cloud. Pendekatan ini memungkinkan mereka memanfaatkan skalabilitas dan fleksibilitas cloud sambil tetap mempertahankan kendali atas beban kerja sensitif yang harus tetap lokal.
Dalam gudang data, skema menentukan bagaimana data diatur. Ada tiga struktur skema yang umum: skema bintang, skema kepingan salju, dan skema galaksi (juga disebut skema konstelasi fakta).
Skema ini adalah semua model data dimensional yang dirancang untuk mengoptimalkan kecepatan pengambilan data dalam sistem OLAP. Model dimensi dapat meningkatkan redundansi, sehingga lebih mudah untuk menemukan informasi untuk pelaporan dan pengambilan dan meningkatkan kinerja kueri.
Skema ini berisi tabel fakta dan tabel dimensi, didefinisikan sebagai berikut:
Skema bintang terdiri dari satu tabel fakta sentral yang dikelilingi oleh tabel dimensi. Dalam diagram, tabel fakta muncul di tengah pola bintang. Skema bintang dianggap sebagai jenis skema yang paling sederhana dan paling umum, menawarkan kecepatan kueri yang lebih cepat kepada pengguna.
Skema snowflake menempatkan tabel fakta pusat sebagai inti, dengan banyak tabel dimensi yang dinormalisasi yang memancar keluar dan dimensi tersebut meluas lebih jauh ke tabel dimensi lain melalui hubungan banyak-ke-satu. Pola percabangan yang lebih kompleks ini bisa menyerupai kepingan salju. Skema snowflake memiliki tingkat redundansi data yang rendah, tetapi manfaat ini datang dengan mengorbankan kinerja kueri yang lebih lambat.
Sama seperti galaksi berisi banyak bintang, skema galaksi berisi beberapa skema bintang. Skema ini berbagi tabel dimensi yang dinormalisasi untuk mengurangi redundansi. Skema galaksi paling cocok untuk gudang data yang sangat kompleks, tetapi pengguna dapat mengalami kinerja yang lebih rendah.
Arsitektur gudang data yang khas memiliki beberapa komponen yang bekerja sama untuk menyimpan, mengelola, memproses, dan mengirimkan data untuk analitik.
Alat ETL mengekstrak data dari sistem sumber, mengubahnya di area penahapan dan memuatnya ke gudang data. Di ELT, data diubah setelah dimuat di gudang. Kerangka kerja pemrosesan data, seperti Apache Spark, dapat membantu dalam mengelola transformasi data.
Lapisan konektivitas untuk antarmuka pemrograman aplikasi (API) dapat membantu gudang menarik data dari dan mengintegrasikan dengan sistem operasional. API juga dapat menyediakan akses ke visualisasi dan alat analitik canggih.
Lapisan data (atau basis data pusat) adalah jantung dari gudang data. Di sini, sistem mengintegrasikan dan menyimpan data dari berbagai sumber, seperti aplikasi bisnis, daftar email, situs web, atau basis data lainnya. Pipeline data ETL atau ELT mendukung lapisan ini dan sistem manajemen basis data relasional (RDBMS) atau platform gudang data cloud memberdayakannya. Kemampuan tata kelola data bawaan dapat mempartisi data sehingga pengguna hanya mengakses apa yang mereka perlukan.
Metadata adalah data tentang data, menggambarkan data yang disimpan dalam sistem untuk membuatnya dapat dicari dan dapat digunakan untuk analitik. Metadata ini mencakup metadata teknis (seperti struktur tabel dan tipe data) dan metadata deskriptif (seperti penulis, tanggal pembuatan, atau ukuran file). Metadata adalah kunci untuk tata kelola data dan manajemen data yang efektif.
Beberapa gudang data menyediakan sandbox, yang merupakan lingkungan pengujian tertutup yang berisi salinan data produksi dan alat analisis yang relevan. Analis data dan ilmuwan data dapat menguji teknik analisis baru di sandbox tanpa mempengaruhi operasi langsung.
Alat akses terhubung ke gudang data dan menyediakan antarmuka pengguna yang mudah diakses. Pengguna bisnis dan analis data dapat menggunakan dasbor, aplikasi, dan alat visualisasi data untuk berinteraksi dengan data dan mengekstrak insight. Contoh alat ini termasuk Tableau, Looker, dan Qlik.
Ada tiga jenis utama gudang data:
Gudang data perusahaan (EDW) adalah gudang data yang melayani seluruh perusahaan. Ini bertindak sebagai repositori informasi terpusat data historis untuk semua tim dan bidang subjek. Lingkungan pergudangan data perusahaan juga dapat mencakup penyimpanan data operasi (ODS) dan pasar data khusus departemen.
Penyimpanan data operasional (ODS) berisi snapshot terbaru dari data operasional. ODS sering diperbarui, memungkinkan akses cepat ke data nyaris seketika. Organisasi sering menggunakan ODS untuk pengambilan keputusan operasional sehari-hari dan analisis waktu nyata. Ini juga bisa menjadi sumber data untuk EDW atau sistem data lainnya.
Pasar data adalah bagian dari gudang data yang ada (atau sumber data lainnya) dan berisi data yang disesuaikan dengan lini bisnis atau departemen tertentu daripada seluruh perusahaan. Misalnya, sebuah perusahaan dapat memiliki pasar data yang selaras dengan departemen pemasaran. Pengguna tersebut dapat mengakses insight yang lebih terfokus untuk segmentasi pelanggan dan kinerja kampanye tanpa menavigasi kumpulan data perusahaan yang lebih luas.
Istilah data warehouse, basis data, data lake, dan data lakehouse terkadang digunakan secara bergantian, namun ada perbedaan penting.
Basis data seperti lemari arsip yang dibangun terutama untuk pengambilan data otomatis dan pemrosesan transaksi yang cepat. Ini biasanya berfungsi sebagai penyimpanan data terfokus untuk aplikasi tertentu. Gudang data menyimpan data dari sejumlah aplikasi dalam organisasi dan dioptimalkan untuk analisis prediktif dan analisis lanjutan lainnya.
Data lake adalah solusi penyimpanan berbiaya rendah untuk data mentah dalam jumlah besar dan menggunakan pendekatan skema on-read daripada skema yang telah ditentukan sebelumnya. Data lake dapat menyimpan data terstruktur, data tidak terstruktur, dan data semi-terstruktur, seperti dokumen, video, log IoT, dan posting media sosial.
Mereka dapat dibangun di platform big data seperti Apache Hadoop atau layanan cloud object storage seperti Amazon Simple Storage Service (Amazon S3). Mereka biasanya tidak membersihkan, memvalidasi, atau menormalkan data untuk analitik, seperti yang dilakukan gudang.
Data lakehouse menggabungkan kekuatan data warehouse dan data lake, memberikan fleksibilitas biaya rendah dari sebuah danau bersama dengan kinerja tinggi dari sebuah gudang. Dengan menggabungkan fitur-fitur utama dari lakehouse dan gudang data ke dalam satu platform data, lakehouse dapat mempercepat pemrosesan untuk volume besar data terstruktur, tidak terstruktur, dan real-time.
Mereka juga mendukung machine learning, ilmu data, dan beban kerja kecerdasan buatan (AI) dengan lebih efisien. Data lakehouse juga dapat menambahkan fitur seperti metadata bersama dan mesin bahasa kueri terstruktur (SQL) terdistribusi.
Gudang data membuat insight dan informasi tersedia bagi pengguna di seluruh organisasi, menawarkan banyak insight, seperti:
Melalui proses ELT atau ETL, gudang data menyiapkan data yang masuk sebelum disimpan di gudang. Persiapan ini mencakup metode kualitas data seperti pembersihan data, standardisasi, dan deduplikasi. Kebijakan dan praktik tata kelola data yang kuat juga dapat membantu memastikan keakuratan dan integritas data untuk semua pengguna.
Dengan mengintegrasikan data berkualitas tinggi ke dalam satu penyimpanan, organisasi menciptakan sumber kebenaran tunggal yang komprehensif dan andal, yang membantu menghilangkan silo data. Repositori pusat ini memungkinkan pengguna bisnis untuk dengan percaya diri mengakses data penting organisasi dan menggunakannya untuk pengambilan keputusan bisnis. Gudang data kelas enterprise juga dapat mendukung format sumber terbuka seperti Apache Iceberg, Parquet, dan CSV, sehingga mempermudah akses dan berbagi data di seluruh organisasi.
Gudang data modern dapat mendukung berbagai alur kerja AI dan machine learning dengan menyediakan data yang bersih dan andal. Mereka dapat menggunakan data gudang yang telah dibersihkan dan divalidasi untuk membangun model AI generatif yang dipatenkan atau menyempurnakan model yang sudah ada agar lebih melayani kebutuhan bisnis unik mereka.
Gudang data siap AI harus dapat mengumpulkan, membersihkan, mengatur dan menyusun data, serta memfasilitasi aliran data ke AI dan platform machine learning. Namun, tidak semua gudang data modern dioptimalkan untuk beban kerja AI. Data lakehouse semakin menjadi platform data pilihan untuk infrastruktur AI.
Gudang data memusatkan dan membersihkan data dari berbagai sumber untuk menciptakan sumber kebenaran tunggal, sehingga memberikan pandangan yang komprehensif dan dapat diandalkan kepada organisasi tentang data perusahaan. Alat BI layanan mandiri memungkinkan pengguna di seluruh perusahaan untuk mengakses dan menjalankan kueri analitis pada data agregat ini.
Dengan cara ini, gudang data memungkinkan pengguna bisnis dengan tingkat keahlian teknis apa pun untuk menemukan dan melaporkan tema, tren, dan agregasi. Para pemimpin bisnis dapat menggunakan insight ini untuk membuat keputusan dan perkiraan yang lebih terinformasi berdasarkan bukti kuat di hampir setiap area organisasi, mulai dari proses bisnis hingga manajemen keuangan dan manajemen inventaris.
Gudang data juga dapat melayani penggunaan khusus industri, seperti:
Kemampuan analisis data dari gudang data dapat membantu pemerintah memahami fenomena kompleks, seperti tingkat kejahatan, tren demografi, dan pola lalu lintas.
Kemampuan untuk memusatkan dan menganalisis data yang berbeda, seperti kode tagihan dan diagnostik, demografi pasien, obat-obatan, dan hasil tes, dapat memberikan insight yang lebih dalam kepada penyedia layanan kesehatan. Insight ini membantu mereka memahami hasil pasien, meningkatkan efisiensi operasional, dan banyak lagi.
Organisasi dapat menggunakan data historis yang berkaitan dengan pilihan perjalanan dan akomodasi untuk menargetkan iklan dan promosi secara lebih tepat kepada pelanggan mereka.
Perusahaan manufaktur besar yang menghasilkan data dalam jumlah besar dapat menggunakan solusi gudang data untuk membangun pasar data yang disesuaikan dengan kebutuhan setiap departemen.
Gudang data dapat menjadi pilihan cerdas jika organisasi Anda mengumpulkan data dalam jumlah besar dari berbagai sistem operasional, seperti aplikasi bisnis (BI), situs web, dan basis data lainnya. Ini sangat berguna ketika Anda berencana untuk melakukan analisis historis yang kompleks dengan alat atau dasbor BI.
Untuk optimasi biaya, lihat arsitektur yang memisahkan sumber daya data dan komputasi, memungkinkan Anda untuk menskalakan sumber daya secara terpisah. Anda juga dapat menggunakan cloud object storage yang hemat biaya dan manajemen beban kerja yang didukung AI untuk distribusi sumber daya otomatis. Format data terbuka memudahkan berbagi data di seluruh gudang data dan lakehouse, mengurangi biaya penyimpanan dan kompleksitas.
Proses ETL/ELT yang kuat untuk pembersihan dan standardisasi data, kebijakan tata kelola data yang kuat, dan observabilitas datauntuk mendeteksi masalah saat muncul dapat membantu masalah kualitas data. Pendekatan “geser ke kiri” juga dapat membantu mendeteksi dan menyelesaikan masalah kualitas data yang lebih dekat ke akar masalah daripada ke hilir.
Basis data dibuat terutama untuk pemrosesan transaksi yang cepat dan biasanya berfungsi sebagai penyimpanan data untuk aplikasi tertentu. Gudang data mengumpulkan volume besar data dari berbagai sumber, kemudian membersihkan dan mempersiapkannya untuk intelijen bisnis, kueri analitik, dan analisis data lanjutan lainnya.
Insinyur data membangun dan memelihara infrastruktur, sementara kepala data menetapkan strategi data dan mengawasi fungsi manajemen data. Tim intelijen bisnis mengelola lapisan semantik dan dasbor serta tim tata kelola data lintas fungsi membantu memastikan kualitas dan keamanan data.
watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.
Memberdayakan aplikasi, analitik, dan AI Anda dengan data apa pun dalam data lakehouse terbuka
Skalakan AI dengan sukses dengan menyiapkan strategi, data, keamanan, dan tata kelola yang tepat.