Apa itu reduksi data?

18 Januari 2024

Penyusun

Phill Powell

Staff Writer

Ian Smalley

Senior Editorial Strategist

Apa itu reduksi data?

Reduksi data adalah proses yang dilakukan organisasi untuk mengatur batas jumlah data yang disimpannya.

Teknik reduksi data berupaya untuk mengurangi redundansi yang ditemukan dalam kumpulan data asli sehingga sejumlah besar data yang bersumber dari sumber asli dapat disimpan secara lebih efisien sebagai data yang direduksi.

Sejak awal, penting untuk ditekankan bahwa istilah “reduksi data” tidak selalu sama dengan hilangnya informasi. Dalam banyak kasus, reduksi data hanya berarti bahwa data sekarang disimpan dengan cara yang lebih cerdas—mungkin setelah melalui proses pengoptimalan dan kemudian disatukan kembali dengan data terkait dalam konfigurasi yang lebih praktis.

Reduksi data juga tidak sama dengan deduplikasi data, yang berarti salinan tambahan dari data yang sama dihapus untuk tujuan perampingan. Lebih tepatnya, reduksi data menggabungkan berbagai aspek dari kegiatan yang berbeda, seperti deduplikasi data dan konsolidasi data, untuk mencapai tujuannya.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Tampilan data yang lebih komprehensif

Ketika data dibahas dalam konteks reduksi data, kita sering berbicara tentang data dalam bentuk tunggalnya, bukan bentuk jamak yang biasanya digunakan. Satu aspek reduksi data, misalnya, berkaitan dengan mendefinisikan dimensi fisik aktual dari poin data individual.

Ada sejumlah besar ilmu data yang terlibat dalam aktivitas reduksi data. Materinya mungkin sangat kompleks dan sulit untuk dirangkum dengan ringkas, dan dilema ini telah melahirkan istilahnya sendiri—interpretabilitas, atau kemampuan manusia dengan kecerdasan rata-rata untuk memahami model machine learning tertentu.

Memahami makna beberapa istilah ini bisa jadi menantang karena ini adalah data yang dilihat dari sudut pandang hampir mikroskopis. Kita biasanya mendiskusikan data dalam bentuk “makro”, tetapi dalam data reduksi, kita sering kali membicarakan data dari segi “mikro”. Lebih tepatnya, sebagian besar diskusi tentang topik ini akan membutuhkan diskusi di tingkat makro pada satu sisi dan tingkat mikro pada sisi lain.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Manfaat reduksi data

Ketika sebuah organisasi mengurangi volume data yang dibawanya, perusahaan tersebut biasanya menyadari penghematan finansial yang substansial dalam bentuk pengurangan biaya penyimpanan serta penggunaan ruang penyimpanan yang lebih sedikit.

Metode reduksi data juga memberikan keuntungan lainnya, seperti meningkatkan efisiensi data. Saat reduksi data tercapai, data yang dihasilkan akan lebih mudah digunakan oleh metode kecerdasan buatan (AI) dalam berbagai cara, termasuk aplikasi analitik data canggih yang dapat menyederhanakan berbagai tugas pengambilan keputusan.

Misalnya, saat virtualisasi penyimpanan berhasil digunakan, ini membantu koordinasi antara lingkungan server dan desktop, meningkatkan keseluruhan efisiensi dan membuatnya lebih andal.

Upaya reduksi data berperan penting dalam aktivitas penambangan data. Data harus sepenuhnya bersih dan siap sebelum ditambang dan digunakan untuk analisis data.

Jenis reduksi data

Berikut ini adalah beberapa metode yang dapat digunakan organisasi untuk mencapai reduksi data.

Pengurangan dimensi

Gagasan dimensi data mendasari seluruh konsep ini. Dimensi mengacu pada jumlah atribut (atau fitur) yang ditetapkan pada satu kumpulan data. Namun, ada konsekuensi yang terjadi di sini—makin besar jumlah dimensi, makin banyak penyimpanan data yang dibutuhkan oleh kumpulan data tersebut. Selain itu, makin tinggi dimensinya, data cenderung lebih terpisah-pisah, sehingga mempersulit analisis outlier yang diperlukan.

Reduksi dimensi mencegah hal ini dengan membatasi “gangguan” dalam data dan memungkinkan visualisasi data yang lebih baik. Contoh utama reduksi dimensi adalah metode transformasi wavelet, yang membantu kompresi gambar dengan mempertahankan jarak relatif yang ada antara objek di berbagai tingkat resolusi.

Ekstraksi format adalah transformasi lain yang memungkinkan untuk data—kemampuan ini mengubah data orisinal menjadi format numerik dan bekerja bersama dengan machine learning. Ini berbeda dengan analisis komponen utama (PCA), cara lain untuk mengurangi dimensi kumpulan data yang besar. Di sini, kumpulan variabel yang cukup besar ditransformasikan menjadi kumpulan yang lebih kecil seraya mempertahankan sebagian besar data dari kumpulan yang besar.

Reduksi jumlah

Metode lain melibatkan pemilihan format yang tidak padat data dan lebih kecil sebagai representasi data. Ada dua jenis reduksi jumlah—satu jenis didasarkan pada metode parametrik, dan jenis lainnya didasarkan pada metode nonparametrik. Metode parametrik seperti regression berfokus pada parameter model, sehingga mengecualikan datanya sendiri. Model log-linear yang berfokus pada subruang di dalam data juga dapat digunakan. Sementara itu, metode nonparametrik (seperti histogram, yang menunjukkan cara distribusi data numerik) tidak mengandalkan model sama sekali.

Agregasi kubus data

Kubus data adalah cara visual untuk menyimpan data. Istilah “kubus data” sebenarnya hampir menyesatkan dari segi singularitas tersirat yang dimilikinya, karena ini sebenarnya menggambarkan kubus multidimensi besar yang terdiri dari berbagai kuboid lebih kecil yang tertata. Tiap kuboid mewakili beberapa aspek dari total data dalam kubus data itu, khususnya bagian data yang berhubungan dengan pengukuran dan dimensi. Karena itulah, agregasi kubus data adalah konsolidasi data menjadi format visual kubus multidimensi, yang mengurangi ukuran data dengan memberinya kontainer unik yang dibuat khusus untuk tujuan tersebut.

Pendiskresian data

Metode reduksi data lainnya yang ada adalah pendiskresian data, yang membuat kumpulan nilai data linear berdasarkan kumpulan interval yang telah ditentukan yang masing-masing berkaitan dengan nilai data yang ditetapkan.

Kompresi data

Untuk membatasi ukuran data dan berhasil mencapai kompresi data, beragam jenis pengodean bisa digunakan. Umumnya, teknik kompresi data dianggap menggunakan kompresi lossless atau kompresi lossy, dan teknik data dikelompokkan menurut dua jenis kompresi ini. Dalam kompresi lossless, ukuran data dikurangi melalui teknik pengodean dan algoritma, dan seluruh data asli dapat dipulihkan jika diperlukan. Kompresi lossy, di sisi lain, menggunakan metode lain untuk melakukan kompresinya. Meski hasil data olahannya mungkin layak disimpan, ini bukan salinan persisnya, seperti yang akan Anda dapatkan dengan kompresi lossless.

Prapemrosesan data

Beberapa data perlu dibersihkan, ditangani, dan diproses sebelum menjalani proses analisis data dan reduksi data. Bagian dari transformasi tersebut mungkin melibatkan pengubahan data dari analog menjadi digital. Binning adalah contoh lain prapemrosesan data. Dalam metode ini, nilai median digunakan untuk menormalkan berbagai jenis data dan memastikan integritas data di seluruh proses.

Solusi terkait
Perangkat lunak dan solusi manajemen data

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data
IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

Temukan watsonx.data
Layanan konsultasi data dan analitik

Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data Temukan watsonx.data