Saat ini, organisasi menghasilkan kumpulan data yang terus bertambah, dengan nilai lebih dari 400 juta terabyte per hari. Sebagian besar data ini terbukti sangat berharga, tetapi hanya jika bisnis dapat memahami dan memanfaatkan dengan sukses.
Sebagai bagian dari manajemen data yang efektif, kurasi data membantu bisnis memperoleh insight penting dari data perusahaan dan menggunakan insight ini untuk pengambilan keputusan. Data yang dikuratori dengan baik juga dianggap penting untuk meningkatkan kinerja inisiatif kecerdasan buatan (AI) dan membantu memastikan kepatuhan dengan manajemen data dan persyaratan privasi data.
Di luar perusahaan, kurasi data adalah proses kunci dalam pengaturan penelitian dan akademisi. Sebagai contoh, kurasi data penelitian dapat meningkatkan pembagian dan pengarsipan data di antara para pengembang, ilmuwan, profesional kesehatan, dan peneliti lainnya.
Proses kurasi data dapat dilakukan secara manual, atau dapat dilakukan dengan bantuan otomatisasi, dengan perangkat lunak yang dirancang untuk melaksanakan kegiatan kurasi dalam skala besar.
Pada intinya, kurasi data memberdayakan bisnis untuk menggunakan data mereka untuk menemukan nilai. Tetapi juga membantu mereka mengelola pertumbuhan data eksponensial, mendukung inisiatif AI yang efektif dan AI yang bertanggung jawab, menjaga kepatuhan terhadap peraturan, dan memastikan kegunaan data.
Pertumbuhan volume data yang eksponensial telah memberikan organisasi lebih banyak data yang relevan dengan bisnis daripada sebelumnya, dengan beberapa kumpulan data yang berisi terabyte atau petabyte informasi dari berbagai sumber data. Secara makro, diperkirakan 149 zettabyte data dihasilkan secara global pada tahun 2024 dan angka tersebut diperkirakan akan meningkat dua kali lipat pada tahun 2028.
Melakukan jaminan kualitas dan penemuan data pada dataset yang belum pernah terjadi sebelumnya yang dikenal sebagai “big data”, bukanlah prestasi sederhana. Namun, ini adalah satu yang penting, karena data perusahaan semakin terbukti menjadi sumber insight yang berharga. Menganotasi dan mengatur data untuk pengambilan keputusan berbasis data dapat memberikan keunggulan kompetitif dan meningkatkan kinerja untuk bisnis di industri secara keseluruhan.
Mengatasi kualitas data dan tantangan kegunaan telah menjadi sangat mendesak karena organisasi mengatasi kemampuan yang didukung AI sebagai keharusan strategis. Sistem AI memiliki potensi untuk mengubah bisnis dan meningkatkan produktivitas, namun kebutuhan datanya sangat besar: Sistem ini membutuhkan data berkualitas tinggi agar dapat bekerja secara efektif.
Data berkualitas rendah dapat mengakibatkan kinerja model yang buruk, skenario “sampah masuk, sampah keluar”. Datasets dengan masalah kualitas data seperti missing values, outlier atau inkonsistensi dapat mendistorsi analisis dan menyebabkan output yang salah.
Kurasi data juga membantu memastikan kepatuhan terhadap peraturan, terutama dalam konteks AI. Banyak industri, terutama yang menangani informasi sensitif seperti layanan kesehatan atau keuangan, harus menavigasi lanskap yang berkembang yang menentukan bagaimana mereka mengumpulkan, memproses, menyimpan, dan mengamankan data.
Praktik kurasi data yang efektif membantu memastikan data dikumpulkan, disimpan, diproses, dan diberi label sesuai dengan aturan-aturan ini. UU AI Uni Eropa, misalnya, mengharuskan sistem AI berisiko tinggi mengadopsi praktik tata kelola data yang ketat untuk memastikan bahwa data pelatihan, validasi, dan pengujian memenuhi kriteria kualitas tertentu. Misalnya, tata kelola yang efektif seputar proses pengumpulan data sangat penting.
Kurasi data juga merupakan kunci untuk membantu memastikan penggunaan kembali kumpulan data berkualitas tinggi. Misalnya, melalui kurasi data, organisasi dapat membuat dan memelihara glosarium terpusat yang disesuaikan khusus untuk bisnis. Melalui sumber kebenaran tunggal ini, pengguna di seluruh organisasi dapat lebih memahami dan menggunakan data. Ketika data dapat diakses dan dapat digunakan secara universal, kemungkinan besar pengguna akan berulang kali menggunakannya untuk mendapatkan insight.
Meskipun praktik kurasi data dapat bervariasi di setiap organisasi, para peneliti telah mengidentifikasi aktivitas kurasi yang umum dilakukan oleh kurator data, insinyur data, ilmuwan data, pengelola data, dan profesional manajemen data lainnya selama siklus hidup big data.1 Hal ini termasuk:
Menetapkan strategi dan kriteria untuk pengumpulan, produksi, dan penyerapan data. Pengambilan data mencakup akuisisi data dari berbagai sumber, termasuk basis data terstruktur dan antarmuka pemrograman aplikasi (API), serta basis data untuk data tak terstruktur. Langkah perencanaan kurasi data juga dapat mempertimbangkan tata kelola data, yang membantu memastikan integritas data dan keamanan data.
Membuat, mengumpulkan, melestarikan, dan memelihara metadata, yang merupakan informasi yang menggambarkan titik data atau kumpulan data, seperti penulis, tanggal pembuatan, atau ukuran file. Manajemen metadata yang berhasil dapat membantu membuat data lebih mudah ditemukan, memungkinkan penelusuran silsilah data, dan meningkatkan interoperabilitas sistem.
Terlibat dalam metode persiapan data. Misalnya, pembersihan data adalah proses mengidentifikasi dan memperbaiki kesalahan dan inkonsistensi dalam kumpulan data mentah. Transformasi data adalah konversi data mentah yang bersih ke dalam format yang dapat digunakan untuk analisis. Dan anonimisasi data sensitif membantu memastikan privasi data dan kepatuhan terhadap peraturan.
Menilai dan mencapai validasi kualitas data, menelusuri asal data, dan membantu memastikan perlindungan data sensitif. Kualitas data dapat dikategorikan melalui metrik seperti akurasi, kelengkapan dan konsistensi. Sementara itu, pelacakan asal data dapat membantu mengkonfirmasi kepercayaan data dan memastikan bahwa izin penggunaan yang diperlukan dari penyedia data telah diperoleh.
Mentransfer data dari unit pemrosesan data ke repositori data dan sistem penyimpanan data, seperti data lake dan gudang data. Pertimbangan untuk pelestarian data dapat mencakup penyimpanan berbagai jenis data dan memastikan keamanan data.
Membuat data dapat dicari dan diakses dengan mengembangkan taksonomi, menstandarkan metadata, dan menetapkan metode pencarian data.
Proses manual dapat membuat kurasi data menjadi upaya yang lambat, membosankan, dan tidak efisien. Namun, tata kelola data dan solusi manajemen data yang tepat dapat membantu bisnis mengotomatiskan alur kerja kurasi data dan mengoptimalkan saluran data.
Solusi terkemuka dapat mencakup fitur-fitur seperti:
Katalog data adalah inventaris terperinci dari semua aset data dalam suatu organisasi, yang dirancang untuk membantu profesional data dengan cepat menemukan data yang mereka butuhkan. Katalog data yang diatur menggunakan klasifikasi data dan fungsi masking untuk memungkinkan penanganan data yang aman.
Glosarium kosakata bisnis khusus industri dapat meningkatkan klasifikasi data, kepatuhan terhadap peraturan, dan aktivitas tata kelola lainnya.
Model bahasa besar (LLM) dapat diterapkan untuk pengayaan metadata, menambahkan lebih banyak konteks, label, atau deskripsi ke volume besar aset data sekaligus.
Pencarian cerdas dapat meningkatkan aksesibilitas data dan menghilangkan silo. Didukung oleh AI, ini memungkinkan pengguna untuk mengekstrak informasi dari mana saja (di dalam atau di luar perusahaan) terlepas dari formatnya, membantu mereka menemukan data yang mereka butuhkan dengan cepat dan mudah.
Kurasi data memainkan peran penting dalam berbagai bidang dan disiplin ilmu. Contoh penggunaannya meliputi:
Data yang dikuratori dapat membantu mendorong kemajuan dan terobosan dalam mengobati penyakit. Misalnya, sebuah klinik kesehatan yang berbasis di AS baru-baru ini mengumumkan kemitraan dengan platform data kesehatan AI untuk mengkurasi kumpulan data yang berfokus pada multiple sclerosis (MS), penyakit neurologis kronis.
Tujuan dari proyek ini, yang akan mencakup data yang dikumpulkan dari lebih dari 3.000 pasien, adalah untuk mengembangkan insight berbasis data tentang subtipe penyakit, perkembangan penyakit, dan banyak lagi.2
Kurasi data dapat membantu memastikan bahwa organisasi yang mengadopsi AI melakukannya sesuai dengan peraturan dan persyaratan yang berlaku.
Misalnya, industri telah banyak mengadopsi teknologi AI dan machine learning untuk melakukan modernisasi. Namun, lingkungan regulasi seputar adopsi AI dalam industri itu rumit dan dinamis. Undang-undang yang relevan seperti Arahan Solvency II mencakup kebijakan yang ketat bagi perusahaan asuransi mengenai “kecukupan dan kualitas data yang relevan untuk proses penjaminan dan pencadangan.” Peraturan ini juga mengharuskan data yang digunakan untuk menguji dan melatih sistem AI harus lengkap, akurat, dan sesuai.3
Peritel digital dan fisik sering kali mengkurasi data pembelanja mereka dengan terlibat dalam proses segmentasi, mengatur pelanggan ke dalam kelompok-kelompok berdasarkan karakteristik, perilaku, dan preferensi mereka. Hal ini memungkinkan peritel untuk lebih efektif dalam menargetkan kelompok pelanggan yang berbeda dengan promosi, rekomendasi produk, dan upaya pemasaran yang dipersonalisasi lainnya.
Sebagai contoh, sebuah analisis terhadap kampanye pemasaran email retail menentukan bahwa email yang tersegmentasi lebih sering dibaca 15% dibandingkan email yang tidak tersegmentasi.4
Aktifkan data untuk AI dan analitik dengan katalog cerdas dan manajemen kebijakan. IBM Knowledge Catalog adalah perangkat lunak tata kelola data yang menyediakan katalog data untuk mengotomatiskan penemuan data, manajemen kualitas data, dan perlindungan data.
Ubah data mentah menjadi insight yang dapat ditindaklanjuti dengan cepat, satukan tata kelola, kualitas, silsilah, dan pembagian data, serta berdayakan konsumen data dengan data yang andal dan kontekstual.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.
1 “Big data curation framework: Curation actions and challenges.” Journal of Information Science. 11 November 2022.
2 “Exclusive: Century Heath, Nira Medical partner to provide AI-curated EHR data.” MobiHealthNews. 14 Januari 2025.
3 “Consultation Paper: On Opinion on Artificial Intelligence Governance and Risk Management.” European Insurance and Occupational Pensions Authority (EIOPA). 10 Februari 2025.
4 “Sophisticated email segmentation boosts open rates, engagement: report.” Retail Dive. Diakses pada 28 Maret 2025.