Penyimpanan data berbasis cloud untuk data bisnis — terutama big data — menjadi prioritas utama saat ini, baik Anda mengandalkannya untuk menjalankan bisnis sehari-hari atau menyelesaikan tugas-tugas tertentu.
Data mendorong banyak fungsi bisnis — mulai dari membuat program yang ditargetkan untuk pelanggan dan prospek, hingga mengoptimalkan proses manufaktur dan operasi, dan mengembangkan, menguji, mendistribusikan, dan melacak pengujian virus dan vaksinasi. Bisnis modern bergantung pada ketersediaan data yang mereka butuhkan, ketika mereka membutuhkannya. Namun, menemukan opsi terbaik yang sesuai dengan kebutuhan Anda bukanlah tugas yang mudah, dan mungkin melibatkan beberapa jenis repositori yang berbeda untuk kategori data yang berbeda.
Mari kita mulai dengan dasar-dasarnya dan mempelajari beberapa contoh bagaimana satu repositori data atau banyak jenis repositori data mungkin diperlukan untuk melayani kebutuhan bisnis Anda.
Saat ini terdapat tiga jenis repositori penyimpanan cloud berbeda, masing-masing melayani tujuan yang berbeda untuk memenuhi kebutuhan tertentu:
Data lake adalah gudang besar data mentah, baik yang tidak terstruktur maupun semiterstruktur. Data ini dikumpulkan dari berbagai sumber dan disimpan secara sederhana. Data tidak diubah agar sesuai dengan tujuan tertentu atau cocok dengan format tertentu. Untuk mempersiapkan data ini untuk analisis, diperlukan data preparation, pembersihan, dan pemformatan ulang untuk keseragaman yang memakan waktu. Data lake adalah sumber daya yang bagus untuk kotamadya atau organisasi lain yang menyimpan informasi terkait pemadaman, lalu lintas, kejahatan, atau demografi. Data tersebut dapat digunakan pada kemudian hari untuk memperbarui anggaran dan sumber daya Departemen Pekerjaan Umum atau layanan darurat.
Gudang data adalah agregasi data dari banyak sumber ke satu repositori terpusat yang menyatukan kualitas dan format data, sehingga berguna bagi para ilmuwan data untuk digunakan dalam penambangan data, kecerdasan buatan (AI), machine learning, dan terakhir analitik bisnis dan intelijen bisnis. Gudang data dapat digunakan oleh sebuah kota besar untuk mengumpulkan transaksi elektronik dari berbagai departemen, termasuk tilang, lisensi anjing, pembayaran cukai, dan transaksi lainnya. Data terstruktur ini akan dianalisis oleh pemerintah kota untuk menerbitkan faktur tindak lanjut serta memperbarui data sensus dan catatan kepolisian. Ini juga dapat digunakan oleh pengembang untuk mengumpulkan terabyte data yang dihasilkan oleh sensor pada mobil untuk membantu dalam proses pengambilan keputusan untuk solusi mengemudi otonom.
Sebuah pasar data adalah bagian dari gudang data yang memberikan manfaat pada sekumpulan pengguna tertentu dalam bisnis atau unit bisnis. Sebuah pasar data dapat digunakan oleh departemen pemasaran perusahaan manufaktur untuk menentukan target demografis atau persona yang ideal untuk membantu pengembangan rencana pemasaran. Ini juga dapat digunakan oleh departemen manufaktur untuk menganalisis kinerja dan tingkat kesalahan untuk memungkinkan peningkatan berkelanjutan. Kumpulan data dalam pasar data sering digunakan secara real-time, untuk analisis terkini dan hasil yang dapat ditindaklanjuti.
Meskipun ketiga jenis repositori data cloud menyimpan data, ada perbedaan yang sangat jelas di antara mereka. Sebagai contoh, gudang data dan data lake sama-sama merupakan kumpulan data yang besar, namun data lake biasanya lebih hemat biaya untuk diimplementasikan dan dipelihara karena sebagian besar tidak terstruktur.
Arsitektur data lake telah berkembang selama beberapa tahun terakhir untuk mendukung volume data yang lebih besar dan komputasi berbasis cloud. Sejumlah besar data diterima dari banyak sumber data ke lokasi pusat.
Gudang data dapat disusun dalam salah satu dari tiga cara:
Data dalam gudang data dapat lebih mudah digunakan untuk berbagai tujuan daripada data dalam data lake. Alasannya adalah karena gudang data terstruktur dan dapat lebih mudah ditambang atau dianalisis.
Sebuah pasar data, di sisi lain, berisi jumlah data yang lebih kecil dibandingkan dengan data lake dan gudang data, dan data dikategorikan untuk penggunaan tertentu atau oleh demografi atau unit bisnis tertentu. Pasar data bisa memiliki berbagai format (bintang, kepingan salju, atau vault) yang ditentukan oleh struktur logis data, dengan struktur vault yang lebih tangkas, fleksibel, dan dapat diskalakan daripada format lainnya.
Ada tiga jenis pasar data:
Jenis repositori data yang Anda pilih dan strukturnya sangat bergantung pada kebutuhan dan tuntutan bisnis Anda. Jika masuk akal untuk bisnis Anda, manfaatkan keuntungan dari penyimpanan berbasis hybrid cloud untuk fleksibilitas, skalabilitas, dan pendekatan tepat yang lebih luas untuk pemecahan masalah dan pengambilan keputusan.
Sebuah perusahaan manufaktur multinasional besar menghasilkan volume data yang besar untuk berbagai penggunaan. Beberapa data penting, sementara data lain mungkin atau mungkin tidak memiliki tujuan pada masa depan. Perusahaan ini menggunakan gudang data berbasis cloud untuk penyimpanan data massal yang lebih murah daripada opsi penyimpanan data lainnya. Namun, perusahaan juga memiliki pasar data dependen untuk bidang bisnis tertentu, memberikan nilai pada pengguna bisnis di departemen seperti keuangan, manufaktur, dan pemasaran. Tiap pasar ini berisi data yang ditetapkan untuk penggunaan tertentu, diformat agar mudah dianalisis. Sebagai contoh:
Sebuah kotamadya besar membutuhkan solusi terjangkau yang menyediakan data dengan cara yang terjangkau dan dapat digunakan hingga tingkat tertentu. Kotamadya menggunakan data lake di cloud untuk memelihara data lalu lintas. Saat ini, mereka belum dapat menganalisis dan mengambil tindakan atas data tersebut, tetapi akan siap ketika pendanaan masuk. Kotamadya juga menggunakan gudang data perangkat lunak on premises untuk melacak status tagihan pajak. Selain itu, kotamadya menggunakan pasar data hybrid untuk melacak penyebaran virus di kalangan penduduk, mengumpulkan data dari berbagai rumah sakit dan layanan kesehatan kota ke satu repositori untuk dianalisis dan digunakan oleh departemen kesehatan.
Ada banyak kesalahpahaman mengenai repositori data berbasis cloud. Beberapa kesalahpahaman yang paling umum termasuk yang berikut:
Bisnis Anda unik, dengan sumber daya, tujuan, dan tantangan yang spesifik. Evaluasi pilihan Anda dengan hati-hati untuk menentukan solusi apa yang paling sesuai dengan kebutuhan Anda. Pertimbangkan hal-hal berikut:
Semua pertimbangan ini akan membantu Anda menentukan solusi atau kombinasi solusi apa yang akan membantu Anda mencapai tujuan.
IBM menawarkan beberapa solusi untuk membantu penyimpanan cloud dan kebutuhan ilmu data Anda.