Silsilah data adalah proses pelacakan aliran data dari waktu ke waktu, memberikan pemahaman yang jelas tentang dari mana data berasal, bagaimana data telah berubah, dan tujuan akhirnya dalam pipeline data.
Alat bantu silsilah data menyediakan catatan data di sepanjang siklus hidupnya, termasuk informasi sumber dan transformasi data apa pun yang telah diterapkan selama proses ETL atau ELT.
Jenis dokumentasi ini memungkinkan pengguna untuk mengamati dan melacak titik kontak yang berbeda di sepanjang perjalanan data, yang memungkinkan organisasi untuk memvalidasi akurasi dan konsistensi. Ini adalah kemampuan penting untuk memastikan kualitas data dalam suatu organisasi. Ini biasanya digunakan untuk mendapatkan konteks tentang proses historis serta melacak kesalahan kembali ke akar masalah.
Silsilah data, asal usul data, dan tata kelola data adalah istilah yang terkait erat, yang saling berlapis. Bersama-sama, ketiganya memastikan bahwa organisasi dapat menjaga kualitas data dan keamanan data dari waktu ke waktu.
Tata kelola data menciptakan struktur dalam organisasi untuk mengelola aset data dengan mendefinisikan pemilik data, ketentuan bisnis, aturan, kebijakan, dan proses di seluruh siklus hidup data. Solusi silsilah data membantu tim tata kelola data memastikan data mematuhi standar ini, memberikan visibilitas tentang bagaimana data berubah dalam pipeline. Asal usul data biasanya digunakan dalam konteks silsilah data, tetapi secara khusus mengacu pada contoh pertama dari data itu atau sumbernya.
Silsilah data menyediakan jejak audit untuk data pada tingkat yang sangat terperinci; jenis detail ini sangat membantu untuk men-debug setiap kesalahan data, sehingga teknisi data dapat memecahkan masalah dengan lebih efektif dan mengidentifikasi resolusi dengan lebih cepat. Meskipun cakupan tata kelola data lebih luas daripada silsilah data dan asal usul data, aspek manajemen data ini penting dalam menegakkan standar organisasi.
Data yang dapat diandalkan sangat penting untuk mendorong pengambilan keputusan yang lebih baik dan peningkatan proses di seluruh aspek bisnis‑mulai dari penjualan hingga sumber daya manusia. Namun, informasi ini hanya berharga jika para pemangku kepentingan tetap yakin akan keakuratannya karena insight yang didapat hanya akan sebaik kualitas datanya. Silsilah data memberikan visibilitas ke dalam perubahan yang mungkin terjadi sebagai akibat dari migrasi data, pembaruan sistem, kesalahan, dan lainnya, memastikan integritas data sepanjang siklus hidupnya.
Silsilah data mendokumentasikan hubungan antara data perusahaan dalam berbagai aplikasi bisnis dan TI. Detail ini dapat mencakup:
Metadata memungkinkan pengguna alat silsilah data untuk sepenuhnya memahami bagaimana data mengalir melalui jalur data. Metadata adalah "data tentang data", yang mencakup berbagai informasi tentang aset data, seperti jenis, format, struktur, penulis, tanggal dibuat, tanggal dimodifikasi, dan ukuran file. Alat bantu silsilah data memberikan gambaran lengkap tentang metadata untuk memandu pengguna dalam menentukan seberapa berguna data tersebut bagi mereka.
Dalam beberapa tahun terakhir, cara kami menyimpan dan memanfaatkan data telah berkembang dengan evolusi big data. Perusahaan berinvestasi lebih banyak dalam ilmu data untuk mendorong pengambilan keputusan dan hasil bisnis. Namun, agar mereka dapat membuat analisis yang terbentuk dengan baik, mereka harus menggunakan alat bantu penelusuran data dan katalog data untuk penemuan data dan pemetaan data. Sementara alat silsilah data menunjukkan evolusi data dari waktu ke waktu melalui metadata, katalog data menggunakan informasi yang sama untuk membuat inventaris yang dapat dicari dari semua aset data dalam suatu organisasi. Bersama-sama, keduanya memungkinkan warga data untuk memahami pentingnya elemen data yang berbeda untuk hasil tertentu, yang merupakan dasar dalam pengembangan algoritma machine learning apa pun.
Perusahaan saat ini memiliki kebutuhan yang makin meningkat akan insight real-time. Namun, temuan tersebut bergantung pada pemahaman tentang data dan perjalanannya di seluruh jalur data. Beberapa cara yang dapat digunakan tim untuk memanfaatkan alat bantu penelusuran data secara menyeluruh untuk meningkatkan alur kerja antara lain:
Pemodelan data: Untuk membuat representasi visual dari berbagai elemen data dan keterkaitannya di dalam perusahaan, perusahaan harus mendefinisikan struktur data yang mendukungnya. Silsilah data membantu memodelkan hubungan-hubungan ini, yang menggambarkan ketergantungan yang berbeda di seluruh ekosistem data. Karena data berkembang dari waktu ke waktu, selalu ada sumber data baru yang muncul, integrasi data baru yang perlu dibuat, dan sebagainya. Akibatnya, keseluruhan model data yang digunakan bisnis untuk mengelola data mereka juga perlu menyesuaikan lingkungan yang terus berubah. Silsilah data membantu untuk secara akurat mencerminkan perubahan-perubahan ini dari waktu ke waktu melalui diagram model data, menyoroti koneksi atau tabel yang baru atau yang sudah usang. Hal ini, pada gilirannya, membantu analis dan ilmuwan data memfasilitasi analisis yang berharga dan tepat waktu karena mereka akan memiliki pemahaman yang lebih baik tentang kumpulan data.
Migrasi data: Saat memindahkan data ke sistem penyimpanan baru atau menggunakan perangkat lunak baru, organisasi menggunakan migrasi data untuk memahami lokasi dan siklus hidup data. Karena silsilah data memberikan pandangan tentang bagaimana data ini telah berkembang melalui organisasi, hal ini membantu tim dalam merencanakan migrasi atau peningkatan sistem ini, mempercepat transisi keseluruhan ke lingkungan penyimpanan yang baru. Hal ini juga memberikan kesempatan kepada tim untuk membersihkan sistem data, mengarsipkan atau menghapus data lama yang tidak relevan; hal ini, pada gilirannya, dapat meningkatkan kinerja sistem data secara keseluruhan sehingga mengurangi jumlah data yang perlu dikelola.
Kepatuhan: Silsilah data menyediakan mekanisme kepatuhan untuk mengaudit, meningkatkan manajemen risiko, dan memastikan data disimpan dan diproses sesuai dengan kebijakan dan peraturan tata kelola data. Sebagai contoh, pada tahun 2016, undang-undang GDPR dibuat untuk melindungi data pribadi orang-orang di Uni Eropa dan Wilayah Ekonomi Eropa, sehingga memberikan kontrol yang lebih besar kepada individu atas data mereka. Di Amerika Serikat, masing-masing negara bagian, seperti California, mengembangkan kebijakan, seperti California Consumer Privacy Act (CCPA), yang mengharuskan bisnis untuk memberi tahu konsumen tentang pengumpulan data mereka. Jenis undang-undang ini menjadikan penyimpanan dan keamanan data ini sebagai prioritas utama, dan tanpa alat penelusuran data, organisasi akan menemukan masalah ketidakpatuhan sebagai pekerjaan yang memakan waktu dan mahal.
Analisis Dampak: Alat bantu silsilah data dapat memberikan visibilitas terhadap dampak dari perubahan bisnis tertentu, seperti pelaporan hilir. Sebagai contoh, jika nama elemen data berubah, silsilah data dapat membantu para pemimpin memahami berapa banyak dasbor yang dapat terpengaruh dan kemudian berapa banyak pengguna yang mengakses pelaporan tersebut. Hal ini juga dapat membantu menilai dampak dari kesalahan data dan eksposur di seluruh organisasi. Kesalahan data dapat terjadi karena berbagai alasan, yang dapat mengikis kepercayaan terhadap laporan intelijen bisnis atau sumber data tertentu, tetapi alat bantu data lineage dapat membantu tim melacak kesalahan tersebut ke sumbernya, sehingga memungkinkan pengoptimalan pemrosesan data dan komunikasi ke masing-masing tim.
Memprediksi hasil lebih cepat menggunakan platform yang dibangun dengan arsitektur data fabric. Kumpulkan, atur, dan analisis data, di mana pun data berada.
Aktifkan data siap bisnis untuk AI dan analitik dengan katalog cerdas, yang didukung oleh metadata aktif dan manajemen kebijakan.