Singkatnya, ya. Ketika kita berbicara tentang integritas data, kita mengacu pada kelengkapan, akurasi, konsistensi, aksesibilitas, dan keamanan data organisasi secara menyeluruh. Bersama-sama, faktor-faktor ini menentukan keandalan data organisasi. Kualitas data menggunakan kriteria tersebut untuk mengukur tingkat integritas data dan, pada gilirannya, keandalan dan penerapannya untuk penggunaan yang dimaksudkan. Kualitas dan integritas data sangat penting bagi organisasi berbasis data yang menggunakan analisis untuk keputusan bisnis, menawarkan layanan mandiri untuk pemangku kepentingan internal dan menyediakan penawaran data kepada pelanggan.
Buletin industri
Ikuti perkembangan tren industri yang paling penting—dan menarik—di bidang AI, otomatisasi, data, dan lainnya dengan buletin Think. Lihat Pernyataan Privasi IBM.
Langganan Anda akan disediakan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.
Untuk mencapai tingkat integritas data yang tinggi, sebuah organisasi menerapkan proses, aturan, dan standar yang mengatur bagaimana data dikumpulkan, disimpan, diakses, diedit, dan digunakan. Proses, aturan, dan standar ini bekerja bersama-sama untuk:
Organisasi dapat menggunakan sejumlah alat dan lingkungan cloud pribadi atau publik sepanjang siklus hidup data untuk menjaga integritas data melalui sesuatu yang dikenal sebagai tata kelola data. Ini adalah praktik menciptakan, memperbarui, dan secara konsisten menegakkan proses, aturan, dan standar yang mencegah kesalahan, kehilangan data, kerusakan data, kesalahan penanganan data sensitif atau data yang diatur, dan pelanggaran data.
Organisasi dengan tingkat integritas data yang tinggi dapat:
Integritas data yang baik juga dapat meningkatkan hasil keputusan bisnis dengan meningkatkan akurasi analitik organisasi. Semakin lengkap, akurat, dan konsisten sebuah kumpulan data, semakin tepat intelijen bisnis dan proses bisnis. Akibatnya, para pemimpin lebih siap untuk menetapkan dan mencapai tujuan yang memberikan manfaat pada organisasi mereka dan mendorong kepercayaan karyawan dan konsumen.
Tugas ilmu data seperti machine learning juga mendapatkan manfaat besar dari integritas data yang baik. Ketika model machine learning yang mendasarinya dilatih dengan catatan data yang dapat dipercaya dan akurat, maka model tersebut akan mampu membuat prediksi bisnis atau mengotomatisasi tugas dengan lebih baik.
Ada dua kategori utama integritas data: integritas data fisik dan integritas data logis.
Integritas data fisik adalah perlindungan terhadap keutuhan data (yang berarti data tidak kehilangan informasi penting), aksesibilitas, dan akurasi saat data disimpan atau dalam perjalanan. Bencana alam, pemadaman listrik, kesalahan manusia, dan serangan siber menimbulkan risiko terhadap integritas fisik data.
Integritas data logis mengacu pada perlindungan konsistensi dan kelengkapan data saat diakses oleh pemangku kepentingan dan aplikasi yang berbeda di seluruh departemen, disiplin ilmu, dan lokasi. Integritas data logis dicapai dengan:
Keamanan data adalah subkomponen dari integritas data dan mengacu pada langkah-langkah yang diambil untuk mencegah akses atau manipulasi data yang tidak sah. Protokol dan alat keamanan data yang efektif berkontribusi pada integritas data yang kuat. Dengan kata lain, keamanan data adalah sarana, sementara integritas data adalah tujuannya. Pemulihan data — jika terjadi pelanggaran, serangan, pemadaman listrik, atau gangguan layanan — berada di bawah ranah keamanan data.
Kesalahan manusia, kesalahan transfer, tindakan jahat, keamanan yang tidak memadai, dan kerusakan perangkat keras, semuanya berkontribusi pada "data buruk", yang berdampak negatif pada integritas data organisasi. Sebuah organisasi yang bersaing dengan satu atau lebih masalah ini berisiko mengalami:
Data berkualitas rendah menyebabkan pengambilan keputusan yang buruk karena analitik yang tidak akurat dan tidak tepat. Penurunan kualitas data dapat mengakibatkan kehilangan produktivitas, penurunan pendapatan, dan kerusakan reputasi.
Data yang tidak diamankan dengan baik memiliki risiko yang lebih tinggi terhadap pelanggaran data atau hilang akibat bencana alam atau kejadian tak terduga lainnya. Dan tanpa insight yang tepat dan kontrol atas keamanan data, sebuah organisasi bisa lebih mudah tidak mematuhi peraturan lokal, regional, dan global, seperti Peraturan Perlindungan Data Umum Uni Eropa.
Kualitas data pada dasarnya adalah ukuran integritas data. Keakuratan, kelengkapan, konsistensi, validitas, keunikan, dan ketepatan waktu kumpulan data adalah ukuran kualitas data yang digunakan organisasi untuk menentukan kegunaan dan efektivitas data untuk contoh penggunaan tertentu.
Analis kualitas data akan menilai kumpulan data menggunakan dimensi yang tercantum di atas dan menetapkan skor keseluruhan. Ketika data memiliki peringkat tinggi di setiap dimensi, data itu dianggap berkualitas tinggi dan dapat diandalkan dan dipercaya untuk contoh penggunaan atau aplikasi yang dimaksudkan. Untuk mengukur dan memelihara data berkualitas tinggi, organisasi menggunakan aturan kualitas data, yang juga dikenal sebagai aturan validasi data, untuk memastikan kumpulan data memenuhi kriteria yang ditetapkan oleh organisasi.
Pengguna bisnis dan ilmuwan data tidak perlu membuang waktu mencari atau memformat data di seluruh sistem yang berbeda. Sebaliknya, mereka dapat dengan mudah mengakses dan menganalisis kumpulan data dengan lebih percaya diri. Waktu tambahan dihemat yang seharusnya terbuang sia-sia untuk bertindak atas data yang tidak lengkap atau tidak akurat.
Karena data diformat secara konsisten dan disesuaikan dengan konteks untuk pengguna atau aplikasi, organisasi dapat memperoleh nilai dari data yang mungkin telah dibuang atau diabaikan.
Data yang berkualitas membantu menghindari ketidaksesuaian di berbagai sistem dan departemen, serta memastikan data yang konsisten di seluruh proses dan prosedur. Kolaborasi dan pengambilan keputusan di antara para pemangku kepentingan juga meningkat karena mereka semua bergantung pada data yang sama.
Data berkualitas tinggi mudah ditemukan dan diakses. Karena tidak perlu membuat ulang atau melacak kumpulan data, maka biaya tenaga kerja berkurang, dan kesalahan entri data secara manual menjadi lebih kecil kemungkinannya. Karena data berkualitas tinggi mudah disimpan di lingkungan yang benar serta dikumpulkan dan disusun dalam laporan wajib, organisasi dapat memastikan kepatuhan dengan lebih baik dan menghindari hukuman akibat melanggar peraturan.
Data berkualitas tinggi memberikan insight yang lebih akurat dan mendalam yang dapat digunakan organisasi untuk memberikan pengalaman yang lebih personal dan berdampak bagi karyawan dan pelanggan.
Untuk menentukan kualitas data dan memberikan skor keseluruhan, analis mengevaluasi kumpulan data menggunakan enam dimensi ini, yang juga dikenal sebagai karakteristik data:
Semakin tinggi skor kumpulan data di masing-masing dimensi ini, semakin besar skor keseluruhannya. Skor keseluruhan yang tinggi menunjukkan bahwa kumpulan data dapat diandalkan, mudah diakses, dan relevan.
Beberapa metode dan inisiatif umum yang digunakan organisasi untuk meningkatkan kualitas data meliputi:
Profil data, juga dikenal sebagai penilaian kualitas data, adalah proses mengaudit data organisasi dalam kondisi saat ini. Hal ini dilakukan untuk mengungkap kesalahan, ketidakakuratan, kesenjangan, data yang tidak konsisten, duplikasi, dan hambatan aksesibilitas. Sejumlah alat kualitas data dapat digunakan untuk membuat profil kumpulan data dan deteksi anomali data yang perlu diperbaiki.
Pembersihan data adalah proses perbaikan masalah kualitas data dan inkonsistensi yang ditemukan selama pembuatan profil data. Ini termasuk deduplikasi kumpulan data, sehingga beberapa entri data tidak secara tidak sengaja ada di beberapa lokasi.
Ini adalah proses menyesuaikan aset data yang berbeda dan big data tidak terstruktur ke dalam format yang konsisten yang memastikan data lengkap dan siap digunakan, terlepas dari sumber datanya. Untuk standardisasi data, aturan bisnis diterapkan untuk memastikan kumpulan data sesuai dengan standar dan kebutuhan organisasi.
Geocoding adalah proses menambahkan metadata lokasi ke kumpulan data organisasi. Dengan menandai data dengan koordinat geografis untuk melacak dari mana data tersebut berasal, ke mana saja data tersebut terkirim, dan di mana saja data tersebut tersimpan, sebuah organisasi dapat memastikan bahwa standar data geografis nasional dan global telah dipenuhi. Misalnya, metadata geografis dapat membantu organisasi memastikan bahwa pengelolaan data pelanggan tetap mematuhi GDPR.
Ini adalah metode untuk mengidentifikasi, menggabungkan, dan menyelesaikan data duplikat atau berlebihan.
Menjaga kualitas data yang baik membutuhkan manajemen kualitas data yang berkelanjutan. Pemantauan kualitas data adalah praktik meninjau kembali kumpulan data yang telah dinilai sebelumnya dan mengevaluasinya kembali berdasarkan enam dimensi kualitas data. Banyak analis data menggunakan dasbor kualitas data untuk memvisualisasikan dan melacak KPI kualitas data.
Ini adalah penerapan aturan validasi data di semua aplikasi dan tipe data dalam skala besar untuk memastikan semua kumpulan data mematuhi standar tertentu. Hal ini dapat dilakukan secara berkala sebagai proses batch, atau secara terus menerus dan real time melalui proses seperti pengambilan data perubahan.
Manajemen data induk (MDM) adalah tindakan menciptakan dan memelihara registri data terpusat di seluruh organisasi di mana semua data dikelompokkan dan dilacak. Hal ini memberikan organisasi satu lokasi untuk melihat dan menilai kumpulan datanya dengan cepat, terlepas dari lokasi data berada atau jenisnya. Misalnya, data pelanggan, informasi rantai pasokan, dan data pemasaran semuanya akan berada di lingkungan MDM.
IBM menawarkan berbagai kualitas data terintegrasi dan kemampuan tata kelola termasuk pembuatan profil data, pembersihan data, pemantauan data, pencocokan data, dan pengayaan data untuk memastikan konsumen data memiliki akses ke data tepercaya dan berkualitas tinggi. Solusi tata kelola data IBM membantu organisasi membangun fondasi otomatis berbasis metadata yang memberikan nilai kualitas data pada aset dan meningkatkan kurasi melalui otomatisasi aturan untuk menyederhanakan manajemen kualitas data.
Dengan kemampuan observabilitas data, IBM dapat membantu organisasi mendeteksi dan menyelesaikan masalah dalam pipeline data dengan lebih cepat. Kemitraan dengan Manta untuk menyediakan kemampuan silsilah data otomatis memungkinkan IBM membantu klien menemukan, melacak, dan mencegah masalah secara lebih dekat ke sumbernya.
Buat dan kelola pipeline data streaming cerdas melalui antarmuka grafis yang intuitif, yang memfasilitasi integrasi data tanpa batas di seluruh lingkungan hybrid dan multicloud.
watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.