Cloud Data Lake vs Gudang Data vs Pasar Data

Jejak Aliran Cahaya Abstrak

Posting ini akan membahas tiga jenis repositori cloud penyimpanan yang berbeda yang ada saat ini, menggali perbedaannya, dan solusi mana yang paling baik untuk contoh penggunaan Anda.

Penyimpanan data berbasis cloud untuk data bisnis — terutama big data — menjadi prioritas utama saat ini, baik Anda mengandalkannya untuk menjalankan bisnis sehari-hari atau menyelesaikan tugas-tugas tertentu.

Data mendorong banyak fungsi bisnis — mulai dari membuat program yang ditargetkan untuk pelanggan dan prospek, hingga mengoptimalkan proses manufaktur dan operasi, dan mengembangkan, menguji, mendistribusikan, dan melacak pengujian virus dan vaksinasi. Bisnis modern bergantung pada ketersediaan data yang mereka butuhkan, ketika mereka membutuhkannya. Namun, menemukan opsi terbaik yang sesuai dengan kebutuhan Anda bukanlah tugas yang mudah, dan mungkin melibatkan beberapa jenis repositori yang berbeda untuk kategori data yang berbeda.

Mari kita mulai dengan dasar-dasarnya dan mempelajari beberapa contoh bagaimana satu repositori data atau banyak jenis repositori data mungkin diperlukan untuk melayani kebutuhan bisnis Anda.

 

Tiga jenis repositori penyimpanan cloud

Saat ini terdapat tiga jenis repositori penyimpanan cloud berbeda, masing-masing melayani tujuan yang berbeda untuk memenuhi kebutuhan tertentu:

Data lake

Data lake adalah gudang besar data mentah, baik yang tidak terstruktur maupun semiterstruktur. Data ini dikumpulkan dari berbagai sumber dan disimpan secara sederhana. Data tidak diubah agar sesuai dengan tujuan tertentu atau cocok dengan format tertentu. Untuk mempersiapkan data ini untuk analisis, diperlukan data preparation, pembersihan, dan pemformatan ulang untuk keseragaman yang memakan waktu. Data lake adalah sumber daya yang bagus untuk kotamadya atau organisasi lain yang menyimpan informasi terkait pemadaman, lalu lintas, kejahatan, atau demografi. Data tersebut dapat digunakan pada kemudian hari untuk memperbarui anggaran dan sumber daya Departemen Pekerjaan Umum atau layanan darurat.

Gudang data

Gudang data adalah agregasi data dari banyak sumber ke satu repositori terpusat yang menyatukan kualitas dan format data, sehingga berguna bagi para ilmuwan data untuk digunakan dalam penambangan data, kecerdasan buatan (AI), machine learning, dan terakhir analitik bisnis dan intelijen bisnis. Gudang data dapat digunakan oleh sebuah kota besar untuk mengumpulkan transaksi elektronik dari berbagai departemen, termasuk tilang, lisensi anjing, pembayaran cukai, dan transaksi lainnya. Data terstruktur ini akan dianalisis oleh pemerintah kota untuk menerbitkan faktur tindak lanjut serta memperbarui data sensus dan catatan kepolisian. Ini juga dapat digunakan oleh pengembang untuk mengumpulkan terabyte data yang dihasilkan oleh sensor pada mobil untuk membantu dalam proses pengambilan keputusan untuk solusi mengemudi otonom.

data mart

Sebuah pasar data adalah bagian dari gudang data yang memberikan manfaat pada sekumpulan pengguna tertentu dalam bisnis atau unit bisnis. Sebuah pasar data dapat digunakan oleh departemen pemasaran perusahaan manufaktur untuk menentukan target demografis atau persona yang ideal untuk membantu pengembangan rencana pemasaran. Ini juga dapat digunakan oleh departemen manufaktur untuk menganalisis kinerja dan tingkat kesalahan untuk memungkinkan peningkatan berkelanjutan. Kumpulan data dalam pasar data sering digunakan secara real-time, untuk analisis terkini dan hasil yang dapat ditindaklanjuti.

Data lake vs gudang data vs pasar data: Perbedaan utama

Meskipun ketiga jenis repositori data cloud menyimpan data, ada perbedaan yang sangat jelas di antara mereka. Sebagai contoh, gudang data dan data lake sama-sama merupakan kumpulan data yang besar, namun data lake biasanya lebih hemat biaya untuk diimplementasikan dan dipelihara karena sebagian besar tidak terstruktur. 

Arsitektur data lake telah berkembang selama beberapa tahun terakhir untuk mendukung volume data yang lebih besar dan komputasi berbasis cloud. Sejumlah besar data diterima dari banyak sumber data ke lokasi pusat. 

Gudang data dapat disusun dalam salah satu dari tiga cara:

  1. Sebagai layanan terkelola yang ditawarkan oleh penyedia cloud.
  2. Sebagai solusi perangkat lunak yang menyediakan kontrol internal dan protokol keamanan yang ketat, yang dapat membantu ketika berurusan dengan kepatuhan terhadap peraturan.
  3. Sebagai alat, yang biasanya merupakan solusi bundel perangkat lunak dan perangkat keras plug-and-play.

Data dalam gudang data dapat lebih mudah digunakan untuk berbagai tujuan daripada data dalam data lake. Alasannya adalah karena gudang data terstruktur dan dapat lebih mudah ditambang atau dianalisis.

Sebuah pasar data, di sisi lain, berisi jumlah data yang lebih kecil dibandingkan dengan data lake dan gudang data, dan data dikategorikan untuk penggunaan tertentu atau oleh demografi atau unit bisnis tertentu. Pasar data bisa memiliki berbagai format (bintang, kepingan salju, atau vault) yang ditentukan oleh struktur logis data, dengan struktur vault yang lebih tangkas, fleksibel, dan dapat diskalakan daripada format lainnya.

Ada tiga jenis pasar data:

  1. Sebuah pasar data dependen, terdiri dari partisi gudang data perusahaan. Ini adalah bagian dari data primer di gudang.
  2. Pasar data independen yang merupakan sistem mandiri terpisah di bagian tertentu bisnis.
  3. Pasar data hybrid, yang terdiri dari data dari gudang dan sumber independen. Jenis ini biasanya menyediakan akses data yang lebih cepat dan antarmuka yang ramah pengguna.

Jenis repositori data yang Anda pilih dan strukturnya sangat bergantung pada kebutuhan dan tuntutan bisnis Anda. Jika masuk akal untuk bisnis Anda, manfaatkan keuntungan dari penyimpanan berbasis hybrid cloud untuk fleksibilitas, skalabilitas, dan pendekatan tepat yang lebih luas untuk pemecahan masalah dan pengambilan keputusan.

Contoh penggunaan industri pada solusi repositori data berbasis cloud

Manufaktur

Sebuah perusahaan manufaktur multinasional besar menghasilkan volume data yang besar untuk berbagai penggunaan. Beberapa data penting, sementara data lain mungkin atau mungkin tidak memiliki tujuan pada masa depan. Perusahaan ini menggunakan gudang data berbasis cloud untuk penyimpanan data massal yang lebih murah daripada opsi penyimpanan data lainnya. Namun, perusahaan juga memiliki pasar data dependen untuk bidang bisnis tertentu, memberikan nilai pada pengguna bisnis di departemen seperti keuangan, manufaktur, dan pemasaran. Tiap pasar ini berisi data yang ditetapkan untuk penggunaan tertentu, diformat agar mudah dianalisis. Sebagai contoh:

  • Departemen keuangan menggunakan pasar data untuk menyiapkan laporan rekening pelanggan dan memelihara neraca.
  • Departemen manufaktur menggunakan pasar data untuk menganalisis efisiensi jalur perakitan, memproses data untuk dimasukkan ke dalam solusi AI dan memelihara basis data pengadaan.
  • Departemen pemasaran menggunakan pasar datanya untuk menentukan efektivitas kampanye dan komunikasi seraya menganalisis dan menyusun respon survei.

Kotamadya besar

Sebuah kotamadya besar membutuhkan solusi terjangkau yang menyediakan data dengan cara yang terjangkau dan dapat digunakan hingga tingkat tertentu. Kotamadya menggunakan data lake di cloud untuk memelihara data lalu lintas. Saat ini, mereka belum dapat menganalisis dan mengambil tindakan atas data tersebut, tetapi akan siap ketika pendanaan masuk. Kotamadya juga menggunakan gudang data perangkat lunak on premises untuk melacak status tagihan pajak. Selain itu, kotamadya menggunakan pasar data hybrid untuk melacak penyebaran virus di kalangan penduduk, mengumpulkan data dari berbagai rumah sakit dan layanan kesehatan kota ke satu repositori untuk dianalisis dan digunakan oleh departemen kesehatan.

Kesalahpahaman umum tentang penyimpanan data berbasis cloud

Ada banyak kesalahpahaman mengenai repositori data berbasis cloud. Beberapa kesalahpahaman yang paling umum termasuk yang berikut:

  • Satu solusi untuk semua masalah: Hal ini tidak dapat diterapkan ketika mempertimbangkan solusi penyimpanan data cloud. Setiap bisnis memiliki kendala anggaran, tujuan, alokasi sumber daya, dan preferensi yang berbeda. Penting untuk mengevaluasi kebutuhan dan anggaran bisnis Anda dan biarkan hal tersebut menentukan solusi yang akan membantu Anda mencapai tujuan.
  • Pulau data membuat data Anda terdampar di repositori: Ini salah. Sifat dasar penyimpanan berbasis cloud adalah memungkinkan akses ke data dari mana saja, dengan izin yang tepat.
  • Solusi berbasis cloud kurang aman: Pada kenyataannya, penyedia cloud dapat menawarkan keamanan yang lebih kuat, menyediakan pembaruan rutin dan protokol terbaru yang tersedia. Mereka sering memiliki tim pakar keamanan dengan sertifikasi terbaru yang berdedikasi untuk memastikan bahwa solusi keamanan paling ketat melindungi data Anda. Banyak penyedia juga memiliki tim yang bekerja dengan badan kepatuhan peraturan untuk mengoptimalkan solusi mereka. Namun, di beberapa industri (seperti perawatan kesehatan dan keuangan), kepatuhan terhadap peraturan dapat memerlukan kemampuan untuk mengakses data tanpa koneksi Internet, yang akan membutuhkan peralatan on premises.
  • Repositori data berbasis cloud mahal: Penyimpanan cloud bisa lebih murah daripada solusi on premises karena tidak ada investasi infrastruktur awal yang besar, biaya pendinginan atau luas lantai, biaya pemeliharaan berkelanjutan, atau memerlukan tim pakar internal. Biaya bulanan bervariasi menurut vendor atau penyedia cloud.

 

Cara menentukan solusi penyimpanan berbasis cloud mana yang terbaik untuk bisnis Anda

Bisnis Anda unik, dengan sumber daya, tujuan, dan tantangan yang spesifik. Evaluasi pilihan Anda dengan hati-hati untuk menentukan solusi apa yang paling sesuai dengan kebutuhan Anda. Pertimbangkan hal-hal berikut:

  • Sasaran bisnis dan teknologi Anda
  • Anggaran Anda
  • Volume data yang membutuhkan penyimpanan
  • Seberapa sering Anda perlu mengaksesnya
  • Apakah Anda memiliki kebutuhan khusus hari ini atau dalam jangka pendek

Semua pertimbangan ini akan membantu Anda menentukan solusi atau kombinasi solusi apa yang akan membantu Anda mencapai tujuan.

Repositori data IBM di cloud: Solusi dan manajemen

IBM menawarkan beberapa solusi untuk membantu penyimpanan cloud dan kebutuhan ilmu data Anda.

  • IBM Db2 Warehouse on Cloud adalah gudang data cloud elastis yang menawarkan penskalaan penyimpanan dan komputasi independen. Pasar data yang lebih kecil dapat menggunakan fitur Flex One, yang merupakan gudang data elastis yang dibangun untuk analitik berkinerja tinggi. Sistem ini dapat digunakan pada beberapa penyedia cloud, mulai dari penyimpanan 40 GB.
  • Pilihan lain yang layak dipertimbangkan adalah IBM InfoSphere Master Data Management (MDM). Sistem yang dapat disesuaikan ini mengelola semua aspek data perusahaan Anda yang penting, memberikan akses kepada pengguna dalam satu tampilan tepercaya. Melalui dasbor yang efisien ini, pengguna diberdayakan untuk melakukan analisis terperinci, mendapatkan insight yang dapat ditindaklanjuti, dan memastikan kepatuhan total terhadap tata kelola data dan kebijakan di seluruh perusahaan.
  • Netezza Performance Server, perkembangan berikutnya dari IBM Netezza appliance, dibangun di atas arsitektur yang sangat terpadu dari IBM Cloud Pak for Data System untuk menyediakan sistem pendukung keputusan cloud native untuk analitik paling kompleks di perusahaan Anda. Gudang data ini kini juga tersedia sekarang di AWS dan Azure.
  • IBM Watson Studio, sebuah penawaran ilmu data dan machine learning, memberdayakan organisasi untuk memanfaatkan aset data dan menyuntikkan prediksi ke dalam proses bisnis dan aplikasi modern.

    Penulis

    Tanmay Sinha

    Program Director, Db2 Portfolio