Apa itu kurasi data?

Pria mengetik di laptop di depan dua monitor komputer besar.

Penyusun

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Apa yang dimaksud dengan kurasi data?

Kurasi data adalah proses pembuatan dan pengelolaan kumpulan data sehingga orang dapat menemukan, mengakses, menggunakan, dan menggunakan kembali data sesuai kebutuhan. Hal ini melibatkan penambahan aset data (kumpulan data yang berharga) ke repositori pusat untuk mengkonsolidasikan metadata aset, memperkayanya dengan informasi tambahan, dan menganalisis serta meningkatkan kualitas data selama siklus hidupnya.
 

Saat ini, organisasi menghasilkan kumpulan data yang terus bertambah, dengan nilai lebih dari 400 juta terabyte per hari. Sebagian besar data ini terbukti sangat berharga, tetapi hanya jika bisnis dapat memahami dan memanfaatkan dengan sukses.

Sebagai bagian dari manajemen data yang efektif, kurasi data membantu bisnis memperoleh insight penting dari data perusahaan dan menggunakan insight ini untuk pengambilan keputusan. Data yang dikuratori dengan baik juga dianggap penting untuk meningkatkan kinerja inisiatif kecerdasan buatan (AI) dan membantu memastikan kepatuhan dengan manajemen data dan persyaratan privasi data.

Di luar perusahaan, kurasi data adalah proses kunci dalam pengaturan penelitian dan akademisi. Sebagai contoh, kurasi data penelitian dapat meningkatkan pembagian dan pengarsipan data di antara para pengembang, ilmuwan, profesional kesehatan, dan peneliti lainnya.

Proses kurasi data dapat dilakukan secara manual, atau dapat dilakukan dengan bantuan otomatisasi, dengan perangkat lunak yang dirancang untuk melaksanakan kegiatan kurasi dalam skala besar.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Mengapa kurasi data penting?

Pada intinya, kurasi data memberdayakan bisnis untuk menggunakan data mereka untuk menemukan nilai. Tetapi juga membantu mereka mengelola pertumbuhan data eksponensial, mendukung inisiatif AI yang efektif dan AI yang bertanggung jawab, menjaga kepatuhan terhadap peraturan, dan memastikan kegunaan data.

Volume data yang meningkat

Pertumbuhan volume data yang eksponensial telah memberikan organisasi lebih banyak data yang relevan dengan bisnis daripada sebelumnya, dengan beberapa kumpulan data yang berisi terabyte atau petabyte informasi dari berbagai sumber data. Secara makro, diperkirakan 149 zettabyte data dihasilkan secara global pada tahun 2024 dan angka tersebut diperkirakan akan meningkat dua kali lipat pada tahun 2028.

Melakukan jaminan kualitas dan penemuan data pada dataset yang belum pernah terjadi sebelumnya yang dikenal sebagai “big data”, bukanlah prestasi sederhana. Namun, ini adalah satu yang penting, karena data perusahaan semakin terbukti menjadi sumber insight yang berharga. Menganotasi dan mengatur data untuk pengambilan keputusan berbasis data dapat memberikan keunggulan kompetitif dan meningkatkan kinerja untuk bisnis di industri secara keseluruhan.

Kecerdasan buatan yang efektif

Mengatasi kualitas data dan tantangan kegunaan telah menjadi sangat mendesak karena organisasi mengatasi kemampuan yang didukung AI sebagai keharusan strategis. Sistem AI memiliki potensi untuk mengubah bisnis dan meningkatkan produktivitas, namun kebutuhan datanya sangat besar: Sistem ini membutuhkan data berkualitas tinggi agar dapat bekerja secara efektif. 

Data berkualitas rendah dapat mengakibatkan kinerja model yang buruk, skenario “sampah masuk, sampah keluar”. Datasets dengan masalah kualitas data seperti missing values, outlier atau inkonsistensi dapat mendistorsi analisis dan menyebabkan output yang salah.

Kepatuhan terhadap peraturan

Kurasi data juga membantu memastikan kepatuhan terhadap peraturan, terutama dalam konteks AI. Banyak industri, terutama yang menangani informasi sensitif seperti layanan kesehatan atau keuangan, harus menavigasi lanskap yang berkembang yang menentukan bagaimana mereka mengumpulkan, memproses, menyimpan, dan mengamankan data. 

Praktik kurasi data yang efektif membantu memastikan data dikumpulkan, disimpan, diproses, dan diberi label sesuai dengan aturan-aturan ini. UU AI Uni Eropa, misalnya, mengharuskan sistem AI berisiko tinggi mengadopsi praktik tata kelola data yang ketat untuk memastikan bahwa data pelatihan, validasi, dan pengujian memenuhi kriteria kualitas tertentu. Misalnya, tata kelola yang efektif seputar proses pengumpulan data sangat penting.

Penggunaan kembali data

Kurasi data juga merupakan kunci untuk membantu memastikan penggunaan kembali kumpulan data berkualitas tinggi. Misalnya, melalui kurasi data, organisasi dapat membuat dan memelihara glosarium terpusat yang disesuaikan khusus untuk bisnis. Melalui sumber kebenaran tunggal ini, pengguna di seluruh organisasi dapat lebih memahami dan menggunakan data. Ketika data dapat diakses dan dapat digunakan secara universal, kemungkinan besar pengguna akan berulang kali menggunakannya untuk mendapatkan insight.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Apa langkah-langkah utama untuk kurasi data?

Meskipun praktik kurasi data dapat bervariasi di setiap organisasi, para peneliti telah mengidentifikasi aktivitas kurasi yang umum dilakukan oleh kurator data, insinyur data, ilmuwan data, pengelola data, dan profesional manajemen data lainnya selama siklus hidup big data.1 Hal ini termasuk:

  • Perencanaan
  • Deskripsi
  • Persiapan
  • Jaminan
  • Penyimpanan dan pelestarian
  • Penemuan dan akses

Perencanaan

Menetapkan strategi dan kriteria untuk pengumpulan, produksi, dan penyerapan data. Pengambilan data mencakup akuisisi data dari berbagai sumber, termasuk basis data terstruktur dan antarmuka pemrograman aplikasi (API), serta basis data untuk data tak terstruktur. Langkah perencanaan kurasi data juga dapat mempertimbangkan tata kelola data, yang membantu memastikan integritas data dan keamanan data.

Deskripsi

Membuat, mengumpulkan, melestarikan, dan memelihara metadata, yang merupakan informasi yang menggambarkan titik data atau kumpulan data, seperti penulis, tanggal pembuatan, atau ukuran file. Manajemen metadata yang berhasil dapat membantu membuat data lebih mudah ditemukan, memungkinkan penelusuran silsilah data, dan meningkatkan interoperabilitas sistem.

Persiapan

Terlibat dalam metode persiapan data. Misalnya, pembersihan data adalah proses mengidentifikasi dan memperbaiki kesalahan dan inkonsistensi dalam kumpulan data mentah. Transformasi data adalah konversi data mentah yang bersih ke dalam format yang dapat digunakan untuk analisis. Dan anonimisasi data sensitif membantu memastikan privasi data dan kepatuhan terhadap peraturan.

Jaminan

Menilai dan mencapai validasi kualitas data, menelusuri asal data, dan membantu memastikan perlindungan data sensitif. Kualitas data dapat dikategorikan melalui metrik seperti akurasi, kelengkapan dan konsistensi. Sementara itu, pelacakan asal data dapat membantu mengkonfirmasi kepercayaan data dan memastikan bahwa izin penggunaan yang diperlukan dari penyedia data telah diperoleh.

Penyimpanan dan pelestarian

Mentransfer data dari unit pemrosesan data ke repositori data dan sistem penyimpanan data, seperti data lake dan gudang data. Pertimbangan untuk pelestarian data dapat mencakup penyimpanan berbagai jenis data dan memastikan keamanan data.

Penemuan dan akses

Membuat data dapat dicari dan diakses dengan mengembangkan taksonomi, menstandarkan metadata, dan menetapkan metode pencarian data.

Solusi perangkat lunak kurasi data

Proses manual dapat membuat kurasi data menjadi upaya yang lambat, membosankan, dan tidak efisien. Namun, tata kelola data dan solusi manajemen data yang tepat dapat membantu bisnis mengotomatiskan alur kerja kurasi data dan mengoptimalkan saluran data.

Solusi terkemuka dapat mencakup fitur-fitur seperti:

Katalog data yang diatur

Katalog data adalah inventaris terperinci dari semua aset data dalam suatu organisasi, yang dirancang untuk membantu profesional data dengan cepat menemukan data yang mereka butuhkan. Katalog data yang diatur menggunakan klasifikasi data dan fungsi masking untuk memungkinkan penanganan data yang aman.

Glosarium yang dikuratori

Glosarium kosakata bisnis khusus industri dapat meningkatkan klasifikasi data, kepatuhan terhadap peraturan, dan aktivitas tata kelola lainnya.

Pengayaan metadata yang didukung AI

Model bahasa besar (LLM) dapat diterapkan untuk pengayaan metadata, menambahkan lebih banyak konteks, label, atau deskripsi ke volume besar aset data sekaligus.

Pencarian cerdas

Pencarian cerdas dapat meningkatkan aksesibilitas data dan menghilangkan silo. Didukung oleh AI, ini memungkinkan pengguna untuk mengekstrak informasi dari mana saja (di dalam atau di luar perusahaan) terlepas dari formatnya, membantu mereka menemukan data yang mereka butuhkan dengan cepat dan mudah.

Contoh penggunaan untuk kurasi data

Kurasi data memainkan peran penting dalam berbagai bidang dan disiplin ilmu. Contoh penggunaannya meliputi:

Memajukan penelitian medis

Data yang dikuratori dapat membantu mendorong kemajuan dan terobosan dalam mengobati penyakit. Misalnya, sebuah klinik kesehatan yang berbasis di AS baru-baru ini mengumumkan kemitraan dengan platform data kesehatan AI untuk mengkurasi kumpulan data yang berfokus pada multiple sclerosis (MS), penyakit neurologis kronis.

Tujuan dari proyek ini, yang akan mencakup data yang dikumpulkan dari lebih dari 3.000 pasien, adalah untuk mengembangkan insight berbasis data tentang subtipe penyakit, perkembangan penyakit, dan banyak lagi.2

Menjaga AI dalam kepatuhan asuransi

Kurasi data dapat membantu memastikan bahwa organisasi yang mengadopsi AI melakukannya sesuai dengan peraturan dan persyaratan yang berlaku.

Misalnya, industri telah banyak mengadopsi teknologi AI dan machine learning untuk melakukan modernisasi. Namun, lingkungan regulasi seputar adopsi AI dalam industri itu rumit dan dinamis. Undang-undang yang relevan seperti Arahan Solvency II mencakup kebijakan yang ketat bagi perusahaan asuransi mengenai “kecukupan dan kualitas data yang relevan untuk proses penjaminan dan pencadangan.” Peraturan ini juga mengharuskan data yang digunakan untuk menguji dan melatih sistem AI harus lengkap, akurat, dan sesuai.3

Personalisasi pemasaran konsumen

Peritel digital dan fisik sering kali mengkurasi data pembelanja mereka dengan terlibat dalam proses segmentasi, mengatur pelanggan ke dalam kelompok-kelompok berdasarkan karakteristik, perilaku, dan preferensi mereka. Hal ini memungkinkan peritel untuk lebih efektif dalam menargetkan kelompok pelanggan yang berbeda dengan promosi, rekomendasi produk, dan upaya pemasaran yang dipersonalisasi lainnya.

Sebagai contoh, sebuah analisis terhadap kampanye pemasaran email retail menentukan bahwa email yang tersegmentasi lebih sering dibaca 15% dibandingkan email yang tidak tersegmentasi.4

Solusi terkait
IBM Knowledge Catalog

Aktifkan data untuk AI dan analitik dengan katalog cerdas dan manajemen kebijakan. IBM Knowledge Catalog adalah perangkat lunak tata kelola data yang menyediakan katalog data untuk mengotomatiskan penemuan data, manajemen kualitas data, dan perlindungan data.

Temukan Knowledge Catalog
Solusi IBM data intelligence

Ubah data mentah menjadi insight yang dapat ditindaklanjuti dengan cepat, satukan tata kelola, kualitas, silsilah, dan pembagian data, serta berdayakan konsumen data dengan data yang andal dan kontekstual.

Temukan solusi intelijen data
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Temukan, pahami, kurasi, dan akses data, aset pengetahuan, dan hubungannya, di mana pun mereka berada—di cloud atau on premises. IBM Knowledge Catalog adalah perangkat lunak tata kelola data yang menyediakan katalog data untuk mengotomatiskan penemuan data, manajemen kualitas data, dan perlindungan data.

Jelajahi Katalog Pengetahuan Jelajahi solusi kecerdasan data
Catatan kaki

Big data curation framework: Curation actions and challenges.” Journal of Information Science. 11 November 2022.

2 “Exclusive: Century Heath, Nira Medical partner to provide AI-curated EHR data.” MobiHealthNews. 14 Januari 2025.

Consultation Paper: On Opinion on Artificial Intelligence Governance and Risk Management.” European Insurance and Occupational Pensions Authority (EIOPA). 10 Februari 2025.

4Sophisticated email segmentation boosts open rates, engagement: report.” Retail Dive. Diakses pada 28 Maret 2025.