Piktogram awan, grafik, dan diagram lingkaran

Diperbarui: 28 Juni 2024
Kontributor: Jim Holdsworth

Apa itu penambangan data?

Penambangan data adalah penggunaan machine learning dan analisis statistik untuk menemukan pola dan informasi berharga lainnya dari kumpulan data besar.

Mengingat evolusi machine learning (ML), pergudangan data, dan pertumbuhan big data, penggunaan penambangan data yang juga dikenal sebagai penemuan pengetahuan dalam database (KDD) telah meningkat pesat selama beberapa dekade terakhir. Namun, meski teknologi ini terus berkembang untuk menangani data dalam skala besar, para pimpinan mungkin masih menghadapi tantangan terkait skalabilitas dan otomatisasi.

Teknik penambangan data yang mendukung analisis data dapat digunakan untuk dua tujuan utama. Penambangan data dapat digunakan untuk membuat deskripsi kumpulan data target atau untuk memprediksi hasil dengan menggunakan algoritma machine learning.

Metode-metode ini digunakan untuk mengatur dan menyaring data sehingga memunculkan informasi yang paling berguna, dari penipuan hingga perilaku pengguna, hambatan, dan bahkan pelanggaran keamanan. Menggunakan algoritma ML dan kecerdasan buatan (AI) memungkinkan otomatisasi analisis yang dapat sangat mempercepat proses.

Ketika dikombinasikan dengan alat analisis dan visualisasi data, contohnya Apache Spark, perangkat lunak penambangan data menjadi lebih mudah dan dapat mengekstraksi insight yang relevan dengan jauh lebih cepat. Kemajuan AI terus mempercepat penggunaannya di berbagai industri.

Manfaat dan tantangan

Manfaat

Temukan insight dan tren tersembunyi: Penambangan data mengambil data mentah dan menemukan keteraturan dalam kekacauan: melihat gambaran besar dari hal-hal kecil. Hal ini dapat menghasilkan perencanaan yang lebih baik di seluruh fungsi dan industri perusahaan, termasuk periklanan, keuangan, pemerintahan, layanan kesehatan, sumber daya manusia (SDM), manufaktur, pemasaran, penelitian, penjualan, dan manajemen rantai pasokan (SCM).

Menghemat anggaran: Dengan menganalisis data kinerja dari berbagai sumber, hambatan dalam proses bisnis dapat diidentifikasi untuk mempercepat penyelesaian dan meningkatkan efisiensi.

Memecahkan berbagai tantangan: Penambangan data adalah alat serbaguna. Data dari hampir semua sumber dan semua aspek dalam organisasi dapat dianalisis untuk menemukan pola dan cara yang lebih baik dalam menjalankan bisnis. Hampir setiap departemen dalam suatu organisasi yang mengumpulkan dan menganalisis data dapat memperoleh manfaat dari penambangan data.

Tantangan

Kompleksitas dan risiko: Insight yang bermanfaat membutuhkan data yang valid, disertai para pakar yang berpengalaman dalam pengodean. Pengetahuan tentang bahasa penambangan data, termasuk Python, R, dan SQL sangat membantu. Pendekatan penambangan data yang kurang berhati-hati dapat memberikan hasil yang menyesatkan atau berbahaya. Beberapa data konsumen yang digunakan dalam penambangan data mungkin merupakan informasi identifikasi pribadi (PII) yang harus ditangani dengan hati-hati untuk menghindari masalah hukum atau publikasi.

Biaya: Untuk memperoleh hasil terbaik, kumpulan data yang luas dan mendalam sering kali diperlukan. Jika organisasi berencana mengumpulkan informasi baru, penyiapan pipeline data mungkin akan menimbulkan biaya baru. Jika data perlu dibeli dari sumber eksternal, tentunya hal ini juga akan menambah pengeluaran.

Ketidakpastian: Pertama, upaya penambangan data besar-besaran mungkin dapat berjalan dengan baik, tetapi hasilnya tidak jelas dan manfaatnya kurang signifikan. Atau, data yang tidak akurat dapat memberikan insight yang salah. Ini dapat terjadi akibat kesalahan dalam pemilihan data atau saat tahap prapemrosesan. Risiko lainnya mencakup kesalahan pemodelan atau data usang karena pasar berubah dengan cepat.

Potensi masalah lainnya adalah apabila hasil tampak valid, tetapi sebenarnya bersifat acak dan tidak dapat dipercaya. Penting untuk diingat bahwa “korelasi bukanlah sebab-akibat”. Sebuah contoh terkenal dari kasus “pengerukan data”, yaitu melihat korelasi nyata dan melebih-lebihkan signifikansinya, baru-baru ini diberikan oleh seorang blogger bernama Tyler Vigen: “Harga saham Amazon.com sangat mendekati jumlah anak-anak bernama ‘Stevie’ dari 2002 hingga 2022.”1 Namun, tentu saja memberi nama Stevie kepada anak tidak akan memengaruhi harga saham atau sebaliknya. Aplikasi penambangan data menemukan polanya, tetapi akal sehat manusia tetap berperan penting.

Penambangan data versus penambangan teks versus penambangan proses

Penambangan data adalah keseluruhan proses mengidentifikasi pola dan mengekstraksi insight yang berguna dari kumpulan big data. Hal ini dapat digunakan untuk mengevaluasi data terstruktur dan tidak terstruktur guna mengidentifikasi informasi baru, dan biasanya digunakan dalam analisis perilaku konsumen bagi tim pemasaran dan penjualan. Sebagai contoh, metode penambangan data dapat digunakan untuk mengamati dan memprediksi perilaku, termasuk berkurangnya jumlah pelanggan (churn), deteksi penipuan, analisis keranjang pasar, dan lain-lain.

Penambangan teks, juga dikenal sebagai penambangan data teks, adalah subbidang penambangan data yang dimaksudkan untuk mengubah teks tidak terstruktur menjadi format terstruktur guna mengidentifikasi pola yang bermakna dan menghasilkan insight baru. Data tidak terstruktur dapat mencakup teks dari sumber-sumber seperti postingan media sosial, ulasan produk, artikel, email, atau format media kaya seperti file video dan audio. Sebagian besar data yang tersedia untuk umum di dunia adalah data tidak terstruktur, sehingga penambangan teks menjadi praktik yang berharga.

Penambangan proses berada di persimpangan antara manajemen proses bisnis (BPM) dan penambangan data. Penambangan proses menyediakan cara untuk menerapkan algoritma pada data log peristiwa guna mengidentifikasi tren, pola, dan detail tentang berjalannya proses. Penambangan proses menerapkan ilmu data untuk menemukan hambatan, lalu memvalidasi dan meningkatkan alur kerja.

BPM umumnya mengumpulkan data secara lebih informal melalui lokakarya dan wawancara, kemudian menggunakan perangkat lunak untuk mendokumentasikan alur kerja tersebut sebagai peta proses. Karena data yang menyediakan informasi untuk peta proses ini umumnya bersifat kualitatif, penambangan proses membawa pendekatan yang lebih kuantitatif pada masalah proses, dengan memerinci proses yang sebenarnya melalui data peristiwa.

Sistem informasi, misalnya alat perencanaan sumber daya perusahaan (ERP) atau manajemen hubungan pelanggan (CRM), menyediakan jejak audit proses dari data log. Penambangan proses menggunakan data ini dari sistem TI untuk merakit model proses atau grafik proses. Dari sana, organisasi dapat memeriksa proses secara menyeluruh dengan detail dan variasi apa pun yang diuraikan.

Cara kerja penambangan data

Proses penambangan data terdiri dari beberapa langkah, dari pengumpulan hingga visualisasi data untuk mengekstrak informasi berharga dari kumpulan data besar. Teknik penambangan data dapat digunakan untuk menghasilkan deskripsi dan prediksi tentang kumpulan data target.

Ilmuwan data atau spesialis kecerdasan bisnis (BI) membuat deskripsi data melalui pengamatan pola, asosiasi, dan korelasi. Mereka juga membuat klasifikasi dan kluster data melalui metode klasifikasi dan regresi, serta mengidentifikasi outlier untuk contoh penggunaan, seperti deteksi spam.

Penambangan data biasanya terdiri dari lima langkah utama: penetapan tujuan, seleksi data, penyiapan data, pembuatan model data, dan penambangan pola serta evaluasi hasil.

1. Penetapan tujuan bisnis: Ini bisa jadi bagian tersulit dalam proses penambangan data, dan banyak organisasi yang mengalokasikan terlalu sedikit waktu untuk langkah penting ini. Bahkan sebelum data diidentifikasi, diekstraksi, atau dibersihkan, ilmuwan data dan pemangku kepentingan bisnis dapat bekerja sama untuk menentukan masalah bisnis secara tepat. Ini akan membantu menyediakan informasi bagi pertanyaan dan parameter data untuk proyek. Analis mungkin juga perlu melakukan penelitian lebih lanjut untuk sepenuhnya memahami konteks bisnis.

2. Seleksi data: Setelah lingkup masalah ditentukan, ilmuwan data akan lebih mudah mengidentifikasi kumpulan data mana yang akan membantu menjawab pertanyaan penting bagi bisnis. Mereka dan tim IT juga dapat menentukan di mana data harus disimpan dan diamankan.

3. Penyiapan data: Data yang relevan dikumpulkan dan dibersihkan untuk menghilangkan kebisingan, seperti duplikasi, nilai yang hilang, dan outlier. Tergantung pada kumpulan data, langkah pengelolaan data tambahan mungkin akan diambil untuk mengurangi jumlah dimensi, karena terlalu banyak fitur dapat memperlambat perhitungan selanjutnya.

Ilmuwan data ingin mempertahankan prediktor terpenting untuk membantu memastikan akurasi optimal dalam model apa pun. Ilmu data yang bertanggung jawab akan mempertimbangkan model di luar kode dan kinerja, dan ini sangat dipengaruhi oleh data yang digunakan dan seberapa tepercaya data tersebut.

4. Pembuatan model dan penambangan pola: Bergantung pada jenis analisisnya, ilmuwan data dapat menyelidiki tren atau hubungan data yang menarik, seperti pola berurutan, aturan asosiasi, atau korelasi. Meski pola frekuensi tinggi memiliki aplikasi yang lebih luas, terkadang penyimpangan dalam data bisa lebih menarik karena hal tersebut menyoroti area potensi penipuan. Model prediktif dapat membantu menilai tren atau hasil di masa depan. Dalam sistem yang paling canggih, model prediktif dapat membuat prediksi real time untuk merespons perubahan pasar dengan cepat.

Tergantung pada data yang tersedia, algoritma pembelajaran mendalam juga dapat digunakan untuk membuat klasifikasi atau kluster kumpulan data. Jika data input diberi label (seperti dalam pembelajaran dengan pengawasan), model klasifikasi dapat digunakan untuk mengategorikan data, atau sebagai alternatif, regresi dapat diterapkan untuk memprediksi kemungkinan penugasan tertentu. Jika kumpulan data tidak diberi label (yaitu, pembelajaran tanpa pengawasan), titik data individu dalam kumpulan pelatihan akan dibandingkan untuk menemukan kesamaan yang mendasarinya, kemudian dibagi ke dalam kluster berdasarkan karakteristik tersebut.

5. Evaluasi hasil dan implementasi pengetahuan: Setelah dikumpulkan, data kemudian dapat dipersiapkan untuk disajikan, biasanya menggunakan teknik visualisasi data, sehingga hasilnya dapat dievaluasi dan ditafsirkan. Hasil akhir yang ideal adalah yang valid, baru, bermanfaat, dan dapat dimengerti. Jika kriteria ini terpenuhi, para pengambil keputusan dapat menggunakan pengetahuan tersebut untuk mengimplementasikan strategi baru guna mencapai tujuan yang diinginkan.

Teknik penambangan data

Berikut adalah beberapa jenis penambangan data yang paling populer:

Aturan asosiasi: Aturan asosiasi adalah metode berbasis aturan jika/maka untuk menemukan hubungan antara berbagai variabel dalam kumpulan data. Kekuatan hubungan diukur dengan dukungan dan keyakinan. Tingkat keyakinan didasarkan pada seberapa sering pernyataan jika atau maka menunjukkan kebenaran. Ukuran dukungan adalah seberapa sering elemen terkait ditampilkan dalam data. 

Metode ini sering digunakan untuk analisis keranjang pasar, yang memungkinkan perusahaan untuk lebih memahami hubungan antara berbagai produk, misalnya produk-produk yang sering dibeli secara bersamaan. Dengan memahami kebiasaan pelanggan, bisnis dapat mengembangkan strategi penjualan silang dan mesin rekomendasi yang lebih baik.

Klasifikasi
:  Kelas objek telah ditentukan sebelumnya sesuai kebutuhan organisasi, dengan definisi karakteristik yang dimiliki objek tersebut. Dengan begitu, data yang mendasarinya dapat dikelompokkan untuk memudahkan analisis.

Sebagai contoh, perusahaan produk konsumen dapat memeriksa strategi pemberian voucernya dengan meninjau penukaran voucer di masa lalu bersama dengan data penjualan, statistik inventaris, dan semua data konsumen yang tersedia untuk menemukan strategi kampanye terbaik di masa depan.

Pengklusteran
:  Terkait erat dengan klasifikasi, pengklusteran melaporkan kesamaan, tetapi juga melakukan lebih banyak pengelompokan berdasarkan perbedaan. Klasifikasi yang telah ditetapkan untuk produsen sabun dapat mencakup detergen, pemutih, pelembut pakaian, pembersih lantai, dan lilin lantai; sementara pengklusteran dapat membuat kelompok yang mencakup produk pencuci pakaian dan perawatan lantai.

Pohon keputusan: 
Teknik penambangan data ini menggunakan analisis klasifikasi atau regresi untuk mengklasifikasikan atau memprediksi potensi hasil berdasarkan serangkaian keputusan. Sebagaimana tersirat dari namanya, pohon keputusan menggunakan visualisasi layaknya pohon untuk menunjukkan potensi hasil dari keputusan tersebut.

K-nearest neighbor (KNN): Juga dikenal sebagai algoritma KNN, K-nearest neighbor adalah algoritma non-parameter yang mengklasifikasikan titik data berdasarkan kedekatan dan hubungannya dengan data lain yang tersedia. Algoritma ini mengasumsikan bahwa titik data yang mirip akan ditemukan berdekatan satu sama lain. Hasilnya, algoritma ini berusaha menghitung jarak antara titik-titik data, biasanya melalui jarak Euclidean, dan kemudian menetapkan kategori berdasarkan kategori atau rata-rata yang paling sering.

Jaringan neural: 
Terutama digunakan untuk algoritma pembelajaran mendalam, jaringan neural memproses data pelatihan dengan meniru interkonektivitas otak manusia melalui lapisan-lapisan node. Setiap node terdiri dari input, bobot, bias (atau ambang batas), dan output.

Jika melebihi ambang batas yang ditetapkan, nilai output tersebut akan “memicu” atau mengaktifkan node dengan meneruskan data ke lapisan berikutnya dalam jaringan. Jaringan neural mempelajari fungsi pemetaan ini melalui pembelajaran dengan pengawasan, yaitu dengan membuat penyesuaian berdasarkan fungsi kerugian melalui proses penurunan gradien. Ketika fungsi biaya berada pada atau mendekati nol, sebuah organisasi dapat yakin akan akurasi model untuk menghasilkan jawaban yang benar.

Analisis prediktif: Dengan menggabungkan penambangan data dengan teknik pemodelan statistik dan machine learning, data historis dapat dianalisis menggunakan analisis prediktif untuk membuat model grafis atau matematis yang dimaksudkan untuk mengidentifikasi pola, meramalkan kejadian dan hasil di masa depan, serta mengidentifikasi risiko dan peluang.

Analisis regresi
: Teknik ini menemukan hubungan dalam data dengan memprediksi hasil berdasarkan variabel yang telah ditentukan. Ini dapat mencakup pohon keputusan serta regresi linear dan multivariat. Hasil dapat diprioritaskan berdasarkan kedekatan hubungan untuk membantu menentukan data apa yang paling signifikan atau paling tidak signifikan. Sebagai contoh, salah satu produsen minuman ringan memperkirakan persediaan minuman yang dibutuhkan sebelum datangnya cuaca musim panas yang telah diprediksi.

Contoh penggunaan penambangan data

Teknik penambangan data diadopsi secara luas oleh tim kecerdasan bisnis dan tim analisis data untuk membantu mengekstraksi pengetahuan bagi organisasi dan industri mereka. Beberapa contoh penggunaan penambangan data meliputi: 

Deteksi anomali
Pola yang sering timbul dalam data dapat memberi insight berharga bagi tim. Namun, mengamati anomali data juga bermanfaat karena akan membantu organisasi mendeteksi penipuan, intrusi jaringan, dan cacat produk. Meskipun ini adalah contoh penggunaan yang umum di bidang perbankan dan lembaga keuangan lainnya, perusahaan berbasis SaaS juga telah mulai mengadopsi praktik-praktik tersebut untuk menyingkirkan akun pengguna palsu dari kumpulan data mereka. Deteksi anomali juga dapat menjadi peluang untuk menemukan strategi baru dan kreatif atau target pasar yang terlewatkan di masa lalu.

Menilai risiko
Organisasi dapat lebih akurat menemukan dan menentukan skala risiko dengan penambangan data. Pola dan anomali dapat ditemukan di bidang keamanan siber, keuangan, dan hukum untuk menemukan kesalahan atau ancaman.

Fokus pada target pasar
Dengan melakukan pencarian di berbagai database untuk menemukan hubungan yang erat, penambangan data dapat secara akurat menghubungkan perilaku dan latar belakang pelanggan dengan penjualan barang tertentu. Ini dapat memungkinkan kampanye yang lebih bertarget untuk membantu meningkatkan penjualan.

Meningkatkan layanan pelanggan
Masalah pelanggan dapat ditemukan dan diperbaiki lebih cepat jika tindakan pelanggan dapat ditinjau secara menyeluruh dengan penambangan data. Ini mencakup tindakan pelanggan di lokasi, secara online, pada aplikasi seluler, atau melalui telepon. Agen layanan pelanggan dapat memiliki akses ke informasi yang lebih lengkap dan mendalam tentang pelanggan yang mereka layani.

Meningkatkan waktu aktif peralatan
Data operasional dapat ditambang dari peralatan industri yang dapat membantu memprediksi kinerja dan waktu henti di masa mendatang, serta memungkinkan perencanaan pemeliharaan protektif.

Optimalisasi operasional
Penambangan proses menggunakan teknik penambangan data untuk memangkas biaya di seluruh fungsi operasional, sehingga organisasi dapat berjalan lebih efisien. Praktik ini dapat membantu mengidentifikasi hambatan berbiaya tinggi dan meningkatkan pengambilan keputusan bagi para pemimpin bisnis.

Kasus penggunaan industri

Layanan pelanggan
Penambangan data dapat menciptakan sumber data yang lebih kaya untuk layanan pelanggan dengan membantu menentukan faktor yang paling menyenangkan pelanggan dan faktor yang menyebabkan gesekan atau ketidakpuasan.

Pendidikan
Lembaga pendidikan telah mulai mengumpulkan data untuk memahami populasi siswa dan lingkungan mana yang kondusif untuk mencapai kesuksesan. Dengan kursus yang biasanya menggunakan platform online, mereka dapat menggunakan berbagai dimensi dan metrik untuk mengamati dan mengevaluasi kinerja, seperti penekanan tombol, profil siswa, kelas yang dihadiri, dan lama waktu penggunaan.

Keuangan
Saat meneliti risiko, lembaga keuangan dan bank sering kali ingin melakukan perluasan demi menemukan faktor apa pun yang dapat berdampak negatif pada arus kas dan pengambilan. Alat penambangan data dapat berguna dalam menemukan dan menimbang kombinasi faktor yang menunjukkan risiko baik atau buruk.

Layanan kesehatan
Penambangan data adalah alat yang berguna untuk mendiagnosis kondisi medis, termasuk pembacaan pindaian dan citra, dan kemudian membantu dalam memberikan saran perawatan yang bermanfaat.

Sumber daya manusia
Organisasi dapat memperoleh insight baru tentang kinerja dan kepuasan karyawan dengan menganalisis berbagai faktor dan menemukan polanya. Datanya dapat mencakup tanggal mulai bekerja, masa kerja, promosi, gaji, pelatihan, kinerja rekan kerja, hasil kerja, penggunaan tunjangan, dan perjalanan.

Manufaktur
Dari bahan mentah hingga pengiriman akhir, semua aspek proses manufaktur dapat dianalisis untuk meningkatkan kinerja. Berapa biaya bahan dan apakah ada opsi? Seberapa efisien produksi? Di mana hambatannya? Apa saja masalah kualitas yang timbul dan di mana timbulnya, baik secara internal maupun dengan pelanggan?

Retail
Dengan menambang data dan tindakan pelanggan, peritel dapat mengidentifikasi kampanye, harga, promosi, dan penawaran produk khusus yang paling produktif, serta cross-selling dan up-selling yang paling sukses.

Penjualan dan pemasaran
Perusahaan mengumpulkan sejumlah besar data tentang pelanggan dan prospek. Dengan mengamati demografi konsumen, tanggapan media, dan perilaku pelanggan, perusahaan dapat menggunakan data untuk mengoptimalkan kampanye pemasaran demi meningkatkan segmentasi, penargetan, dan program loyalitas pelanggan. Ini semua membantu menghasilkan laba atas investasi (ROI) yang lebih tinggi pada upaya pemasaran. Analisis prediktif juga dapat membantu tim menetapkan ekspektasi dengan pemangku kepentingan, yang memberikan perkiraan hasil untuk setiap kenaikan atau penurunan investasi pemasaran.

Media sosial
Analisis data pengguna dapat membantu mengungkap peluang editorial baru atau sumber pendapatan iklan baru untuk target audiens tertentu.

Manajemen rantai pasokan (SCM)
Dengan menggunakan penambangan data, manajer produk dapat memprediksi permintaan, menyiapkan produksi, menyesuaikan penyedia, atau menyesuaikan upaya pemasaran dengan lebih baik. Sementara itu, manajer rantai pasokan juga dapat merencanakan pengiriman dan pergudangan dengan lebih baik.

Solusi terkait
Platform Enterprise Search

Temukan jawaban dan insight penting dari data bisnis Anda menggunakan teknologi pencarian perusahaan yang didukung AI.

Jelajahi IBM Watson Discovery
IBM Db2 Warehouse

Gudang data cloud elastis yang dikelola sepenuhnya dan dibangun untuk analisis dan AI berkinerja tinggi.

Jelajahi IBM Db2 Warehouse di Cloud
IBM SPSS Modeler

Impor data bervolume besar dari beberapa sumber berbeda untuk mengungkap pola dan tren data tersembunyi.

Klaim uji coba gratis 30 hari
Ambil langkah selanjutnya

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki 

¹ "Spurious Correlations" (tautan berada di luar ibm.com), Tyler Vigen.