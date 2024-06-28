Proses penambangan data terdiri dari beberapa langkah, dari pengumpulan hingga visualisasi data untuk mengekstrak informasi berharga dari kumpulan data besar. Teknik penambangan data dapat digunakan untuk menghasilkan deskripsi dan prediksi tentang kumpulan data target.

Ilmuwan data atau spesialis kecerdasan bisnis (BI) membuat deskripsi data melalui pengamatan pola, asosiasi, dan korelasi. Mereka juga membuat klasifikasi dan kluster data melalui metode klasifikasi dan regresi, serta mengidentifikasi outlier untuk contoh penggunaan, seperti deteksi spam.

Penambangan data biasanya terdiri dari lima langkah utama: penetapan tujuan, seleksi data, penyiapan data, pembuatan model data, dan penambangan pola serta evaluasi hasil.

1. Penetapan tujuan bisnis: Ini bisa jadi bagian tersulit dalam proses penambangan data, dan banyak organisasi yang mengalokasikan terlalu sedikit waktu untuk langkah penting ini. Bahkan sebelum data diidentifikasi, diekstraksi, atau dibersihkan, ilmuwan data dan pemangku kepentingan bisnis dapat bekerja sama untuk menentukan masalah bisnis secara tepat. Ini akan membantu menyediakan informasi bagi pertanyaan dan parameter data untuk proyek. Analis mungkin juga perlu melakukan penelitian lebih lanjut untuk sepenuhnya memahami konteks bisnis.

2. Seleksi data: Setelah lingkup masalah ditentukan, ilmuwan data akan lebih mudah mengidentifikasi kumpulan data mana yang akan membantu menjawab pertanyaan penting bagi bisnis. Mereka dan tim IT juga dapat menentukan di mana data harus disimpan dan diamankan.



3. Penyiapan data: Data yang relevan dikumpulkan dan dibersihkan untuk menghilangkan kebisingan, seperti duplikasi, nilai yang hilang, dan outlier. Tergantung pada kumpulan data, langkah pengelolaan data tambahan mungkin akan diambil untuk mengurangi jumlah dimensi, karena terlalu banyak fitur dapat memperlambat perhitungan selanjutnya.

Ilmuwan data ingin mempertahankan prediktor terpenting untuk membantu memastikan akurasi optimal dalam model apa pun. Ilmu data yang bertanggung jawab akan mempertimbangkan model di luar kode dan kinerja, dan ini sangat dipengaruhi oleh data yang digunakan dan seberapa tepercaya data tersebut.



4. Pembuatan model dan penambangan pola: Bergantung pada jenis analisisnya, ilmuwan data dapat menyelidiki tren atau hubungan data yang menarik, seperti pola berurutan, aturan asosiasi, atau korelasi. Meski pola frekuensi tinggi memiliki aplikasi yang lebih luas, terkadang penyimpangan dalam data bisa lebih menarik karena hal tersebut menyoroti area potensi penipuan. Model prediktif dapat membantu menilai tren atau hasil di masa depan. Dalam sistem yang paling canggih, model prediktif dapat membuat prediksi real time untuk merespons perubahan pasar dengan cepat.

Tergantung pada data yang tersedia, algoritma pembelajaran mendalam juga dapat digunakan untuk membuat klasifikasi atau kluster kumpulan data. Jika data input diberi label (seperti dalam pembelajaran dengan pengawasan), model klasifikasi dapat digunakan untuk mengategorikan data, atau sebagai alternatif, regresi dapat diterapkan untuk memprediksi kemungkinan penugasan tertentu. Jika kumpulan data tidak diberi label (yaitu, pembelajaran tanpa pengawasan), titik data individu dalam kumpulan pelatihan akan dibandingkan untuk menemukan kesamaan yang mendasarinya, kemudian dibagi ke dalam kluster berdasarkan karakteristik tersebut.

5. Evaluasi hasil dan implementasi pengetahuan: Setelah dikumpulkan, data kemudian dapat dipersiapkan untuk disajikan, biasanya menggunakan teknik visualisasi data, sehingga hasilnya dapat dievaluasi dan ditafsirkan. Hasil akhir yang ideal adalah yang valid, baru, bermanfaat, dan dapat dimengerti. Jika kriteria ini terpenuhi, para pengambil keputusan dapat menggunakan pengetahuan tersebut untuk mengimplementasikan strategi baru guna mencapai tujuan yang diinginkan.