Fundamental bisnis modern—seperti pengambilan keputusan berbasis data, analisis data, dan kecerdasan buatan (AI)—semuanya bergantung pada ketersediaan data berkualitas dalam jumlah besar. Akuisisi data mengambil data yang memungkinkan keputusan dan teknologi yang tepat ini. Meskipun konsepnya mungkin tampak mudah, memperoleh data bisa rumit, terutama di era big data.
Kumpulan data dewasa ini sangat besar dan rumit. Data tersebut dapat berukuran terabyte atau petabyte, hadir dalam format terstruktur atau tidak terstruktur, dan berasal dari beragam sumber. Kompleksitas ini menimbulkan tantangan seputar pengelolaan volume data, tata kelola, dan keamanan selama proses akuisisi.
Namun, jika dilakukan secara efektif, proses akuisisi data dapat menjadi saluran bahan bakar berkualitas tinggi untuk inisiatif strategis. Faktanya, sebuah studi oleh Harvard Business Review menemukan bahwa organisasi yang berhasil memanfaatkan big data dan AI mengungguli rekan-rekan mereka dalam metrik bisnis utama, termasuk efisiensi operasional, pertumbuhan pendapatan, dan Pengalaman pelanggan.1
Istilah "akuisisi data" juga dapat merujuk secara khusus pada pengumpulan sinyal fisik atau listrik yang mengukur kondisi dunia nyata-biasanya data sensor. Contohnya termasuk pengukuran suhu, tekanan dan fenomena fisik lainnya.
Sinyal-sinyal ini diproses dan diubah menjadi nilai digital yang dapat digunakan menggunakan perangkat akuisisi data, atau perangkat DAQ. Penggunaan ini umum dilakukan di berbagai bidang, seperti pemantauan lingkungan, otomatisasi industri dan penelitian ilmiah.
Buletin industri
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Langganan Anda akan disediakan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM® kami untuk informasi lebih lanjut.
Menurut Survei Geologi AS, ada empat metode untuk memperoleh data:2
Mengumpulkan data melibatkan menghasilkan data asli melalui cara langsung seperti survei, wawancara, sensor atau perangkat Internet of Things (IoT). Bisnis sering menggunakan pendekatan ini untuk riset pasar atau pemantauan operasional.
Metode ini berfokus pada pengambilan data lama organisasi dan mengubahnya menjadi format standar yang dapat digunakan. Proses ini dapat berkisar dari konversi lapangan sederhana (seperti tanggal) hingga normalisasi kompleks yang mungkin memerlukan keahlian ilmu data tingkat lanjut.
Pertukaran data melibatkan transfer data lintas sistem dan organisasi. Hal ini dapat terjadi melalui program pemerintah data terbuka, pertukaran data perkotaan, dan penyedia data komersial. Mekanisme pertukaran teknis meliputi antarmuka pemrograman aplikasi (API), transfer file, saluran streaming, dan platform berbasis cloud.
Organisasi juga dapat membeli data eksternal dari pasar digital. Platform ini menjembatani kesenjangan antara pembeli dan penjual, menawarkan ketersediaan komersial, aksesibilitas, dan manfaat yang dapat diskalakan. Produk data mereka yang dikuratori dan siap digunakan dapat membantu mengurangi overhead pengumpulan data.
Organisasi dapat mengumpulkan data melalui sumber yang tampaknya tidak terbatas jumlahnya. Data dapat terstruktur dan tidak terstruktur, serta bersifat internal maupun eksternal. Beberapa sumber data yang paling umum adalah:
Organisasi yang memperoleh data memiliki beberapa pertimbangan yang perlu diingat selama proses akuisisi:
Privasi data—juga dikenal sebagai privasi informasi—adalah gagasan bahwa orang harus memiliki kendali atas cara organisasi mengumpulkan, menyimpan, dan menggunakan data pribadi mereka . Selama akuisisi, organisasi mungkin mengumpulkan informasi pengguna seperti alamat email atau data otentikasi biometrik. Sangat penting bahwa mereka mendapatkan persetujuan pengguna sebelum mem proses data ini, melindunginya dari penyalahgunaan dan memberi pengguna alat untuk mengelolanya secara aktif.
Banyak perusahaan secara hukum berkewajiban untuk mengikuti praktik ini di bawah peraturan seperti Peraturan Perlindungan Data Umum (GDPR). Namun, bahkan tanpa undang-undang privasi data formal, ada manfaat untuk menerapkan langkah-langkah privasi data. Seringkali, praktik dan alat yang melindungi privasi pengguna juga membantu mengamankan informasi digital dari akses yang tidak sah, korupsi, atau pencurian.
Memastikan kualitas data harus menjadi prioritas utama bagi organisasi yang memperoleh data dari berbagai sumber. Kualitas data mengacu pada seberapa baik kumpulan data memenuhi kriteria untuk akurasi, kelengkapan, validitas, konsistensi, keunikan, ketepatan waktu, dan relevansi dengan tujuan yang dimaksud. Data berkualitas tinggi mendukung pengambilan keputusan yang akurat, adil, dan efektif yang selaras dengan tujuan bisnis.
Pentingnya pengendalian kualitas data melampaui operasi sehari-hari. Data pelatihan berkualitas tinggi adalah kunci untuk adopsi kecerdasan buatan dan otomatisasi yang efektif. Namun, pepatah AI yang terkenal "sampah masuk, sampah keluar" berlaku secara luas—data berkualitas buruk dalam contoh penggunaan apa pun menghasilkan output berkualitas buruk.
Ketika organisasi memperoleh kumpulan data dari berbagai sumber, mereka perlu mengatasi masalah kompatibilitas sebelum memuatnya ke dalam sistem mereka. Praktik pembersihan data dan standardisasi dapat memastikan bahwa data mematuhi format dan struktur yang konsisten, sehingga lebih mudah untuk dipahami dan dianalisis di masa mendatang. Misalnya, nama jalan biasanya berisi arah, seperti Utara atau Barat. Standardisasi akan memformat nilai-nilai ini menjadi “N” atau “W.”
Organisasi dalam industri yang sangat diatur (seperti keuangan atau perawatan kesehatan) mungkin menghadapi peraturan dan regulasi standar data tambahan. Undang-Undang Portabilitas dan Akuntabilitas Asuransi Kesehatan (HIPAA), misalnya, menetapkan set kode standar untuk diagnosis dan prosedur, menciptakan bahasa umum untuk data layanan kesehatan.
Sebelum memperoleh data, organisasi harus menentukan kebutuhan data mereka dan apakah biaya akuisisi dibenarkan. Selain biaya yang terkait dengan pembersihan dan standarisasi data, perusahaan harus mempertimbangkan harga, biaya lisensi (jika ada), dan biaya tambahan apa pun yang diuraikan dalam perjanjian pembelian.
Akuisisi data yang efisien juga membutuhkan infrastruktur data yang kuat yang dapat menangani, mengelola, dan toko data. Organisasi mungkin perlu berinvestasi di berbagai bidang seperti penyimpanan data, analisis, keamanan, dan tata kelola untuk membantu memastikan bahwa data yang diperoleh disimpan, diatur, dan digunakan dengan benar.
Meskipun sering digunakan secara bergantian, akuisisi data dan pengumpulan data memiliki arti yang berbeda.
Pengumpulan data adalah proses pengumpulan informasi mentah secara langsung dari berbagai sumber, biasanya dilakukan oleh ilmuwan data dan analis. Sebaliknya, akuisisi data adalah istilah yang lebih luas yang mencakup pengumpulan data. Namun, ini juga melibatkan memperoleh data melalui metode tambahan seperti kemitraan, perjanjian lisensi, pembelian data dan Transformasi data lama.
Menurut 72% CEO dengan kinerja terbaik, mendapatkan keunggulan kompetitif bergantung pada memiliki AI generatif yang paling canggih . Tetapi bahkan algoritma machine learning yang paling canggih pun hanya seefektif data yang dilatihnya. Data berkualitas tinggi sangat penting bagi sistem AI untuk belajar, beradaptasi, dan memberikan nilai nyata.
Namun, dalam praktiknya, memperoleh data yang cukup relevan untuk melatih model AI bisa menjadi tantangan. Masalah privasi, biaya tinggi, dan kendala hukum atau peraturan dapat membatasi akses ke metode dan sumber akuisisi data yang berharga seperti penggalian web atau kumpulan data publik. Dalam beberapa kasus, peraturan mungkin melarang pengumpulan jenis data tertentu untuk contoh penggunaan AI sama sekali.
Untuk meringankan hambatan ini, banyak organisasi beralih ke data sintetis — datayang dihasilkan secara artifisial yang meniru data dunia nyata. Dibuat menggunakan metodologi statistik atau teknologi kecerdasan buatan tingkat lanjut seperti pembelajaran mendalam dan AI generatif, data sintetis menawarkan beberapa keuntungan: penyesuaian yang lebih besar, akuisisi yang lebih efisien, peningkatan privasi data, dan data yang lebih kaya secara keseluruhan.
Buat dan kelola pipeline data streaming cerdas melalui antarmuka grafis yang intuitif, yang memfasilitasi integrasi data tanpa batas di seluruh lingkungan hybrid dan multicloud.
watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.
1 “Besar dalam data: Studi menunjukkan mengapa perusahaan berbasis data lebih menguntungkan daripada perusahaan sejenisnya,” studi ulasan Harvard Business Review yang dilakukan untuk Google Cloud, 24 Maret 2023.
2 “Metode Akuisisi Data”,” Survei Geologi AS.