Apa Itu Reduksi Data?

Diterbitkan: 18 Januari 2024
Kontributor: Phill Powell, Ian Smalley

Apa itu reduksi data?

Reduksi data adalah proses yang dilakukan organisasi untuk mengatur batas jumlah data yang disimpannya.

Teknik reduksi data berupaya untuk mengurangi redundansi yang ditemukan dalam kumpulan data asli sehingga sejumlah besar data yang bersumber dari sumber asli dapat disimpan secara lebih efisien sebagai data yang direduksi.

Sejak awal, penting untuk ditekankan bahwa istilah “reduksi data” tidak selalu sama dengan hilangnya informasi. Dalam banyak kasus, reduksi data hanya berarti bahwa data sekarang disimpan dengan cara yang lebih cerdas—mungkin setelah melalui proses pengoptimalan dan kemudian disatukan kembali dengan data terkait dalam konfigurasi yang lebih praktis.

Reduksi data juga tidak sama dengan deduplikasi data, yang berarti salinan tambahan dari data yang sama dihapus untuk tujuan perampingan. Lebih tepatnya, reduksi data menggabungkan berbagai aspek dari kegiatan yang berbeda, seperti deduplikasi data dan konsolidasi data, untuk mencapai tujuannya.

Mengapa tata kelola AI merupakan keharusan bisnis untuk meningkatkan AI perusahaan

Pelajari hambatan adopsi AI, terutama kurangnya tata kelola AI dan solusi manajemen risiko.

Konten terkait

Daftar untuk mendapatkan panduan tentang model dasar

Tampilan data yang lebih komprehensif

Ketika data dibahas dalam konteks reduksi data, kita sering berbicara tentang data dalam bentuk tunggalnya, bukan bentuk jamak yang biasanya digunakan. Satu aspek reduksi data, misalnya, berkaitan dengan mendefinisikan dimensi fisik aktual dari poin data individual.

Ada sejumlah besar ilmu data yang terlibat dalam aktivitas reduksi data. Materinya mungkin sangat kompleks dan sulit untuk dirangkum dengan ringkas, dan dilema ini telah melahirkan istilahnya sendiri—interpretabilitas, atau kemampuan manusia dengan kecerdasan rata-rata untuk memahami model machine learning tertentu.

Memahami makna beberapa istilah ini bisa jadi menantang karena ini adalah data yang dilihat dari sudut pandang hampir mikroskopis. Kita biasanya mendiskusikan data dalam bentuk “makro”, tetapi dalam data reduksi, kita sering kali membicarakan data dari segi “mikro”. Lebih tepatnya, sebagian besar diskusi tentang topik ini akan membutuhkan diskusi di tingkat makro pada satu sisi dan tingkat mikro pada sisi lain.

Manfaat reduksi data

Ketika sebuah organisasi mengurangi volume data yang dibawanya, perusahaan tersebut biasanya menyadari penghematan finansial yang substansial dalam bentuk pengurangan biaya penyimpanan serta penggunaan ruang penyimpanan yang lebih sedikit.

Metode reduksi data juga memberikan keuntungan lainnya, seperti meningkatkan efisiensi data. Saat reduksi data tercapai, data yang dihasilkan akan lebih mudah digunakan oleh metode kecerdasan buatan (AI) dalam berbagai cara, termasuk aplikasi analitik data canggih yang dapat menyederhanakan berbagai tugas pengambilan keputusan.

Misalnya, saat virtualisasi penyimpanan berhasil digunakan, ini membantu koordinasi antara lingkungan server dan desktop, meningkatkan keseluruhan efisiensi dan membuatnya lebih andal.

Upaya reduksi data berperan penting dalam aktivitas penambangan data. Data harus sepenuhnya bersih dan siap sebelum ditambang dan digunakan untuk analisis data.

Jenis reduksi data

Berikut ini adalah beberapa metode yang dapat digunakan organisasi untuk mencapai reduksi data.

Pengurangan dimensi

Gagasan dimensi data mendasari seluruh konsep ini. Dimensi mengacu pada jumlah atribut (atau fitur) yang ditetapkan pada satu kumpulan data. Namun, ada konsekuensi yang terjadi di sini—makin besar jumlah dimensi, makin banyak penyimpanan data yang dibutuhkan oleh kumpulan data tersebut. Selain itu, makin tinggi dimensinya, data cenderung lebih terpisah-pisah, sehingga mempersulit analisis outlier yang diperlukan.

Reduksi dimensi mencegah hal ini dengan membatasi “gangguan” dalam data dan memungkinkan visualisasi data yang lebih baik. Contoh utama reduksi dimensi adalah metode transformasi wavelet, yang membantu kompresi gambar dengan mempertahankan jarak relatif yang ada antara objek di berbagai tingkat resolusi.

Ekstraksi format adalah transformasi lain yang memungkinkan untuk data—kemampuan ini mengubah data orisinal menjadi format numerik dan bekerja bersama dengan machine learning. Ini berbeda dengan analisis komponen utama (PCA), cara lain untuk mengurangi dimensi kumpulan data yang besar. Di sini, kumpulan variabel yang cukup besar ditransformasikan menjadi kumpulan yang lebih kecil seraya mempertahankan sebagian besar data dari kumpulan yang besar.

Reduksi jumlah

Metode lain melibatkan pemilihan format yang tidak padat data dan lebih kecil sebagai representasi data. Ada dua jenis reduksi jumlah—satu jenis didasarkan pada metode parametrik, dan jenis lainnya didasarkan pada metode nonparametrik. Metode parametrik seperti regression berfokus pada parameter model, sehingga mengecualikan datanya sendiri. Model log-linear yang berfokus pada subruang di dalam data juga dapat digunakan. Sementara itu, metode nonparametrik (seperti histogram, yang menunjukkan cara distribusi data numerik) tidak mengandalkan model sama sekali.

Agregasi kubus data

Kubus data adalah cara visual untuk menyimpan data. Istilah “kubus data” sebenarnya hampir menyesatkan dari segi singularitas tersirat yang dimilikinya, karena ini sebenarnya menggambarkan kubus multidimensi besar yang terdiri dari berbagai kuboid lebih kecil yang tertata. Tiap kuboid mewakili beberapa aspek dari total data dalam kubus data itu, khususnya bagian data yang berhubungan dengan pengukuran dan dimensi. Karena itulah, agregasi kubus data adalah konsolidasi data menjadi format visual kubus multidimensi, yang mengurangi ukuran data dengan memberinya kontainer unik yang dibuat khusus untuk tujuan tersebut.

Pendiskresian data

Metode reduksi data lainnya yang ada adalah pendiskresian data, yang membuat kumpulan nilai data linear berdasarkan kumpulan interval yang telah ditentukan yang masing-masing berkaitan dengan nilai data yang ditetapkan.

Kompresi data

Untuk membatasi ukuran data dan berhasil mencapai kompresi data, beragam jenis pengodean bisa digunakan. Umumnya, teknik kompresi data dianggap menggunakan kompresi lossless atau kompresi lossy, dan teknik data dikelompokkan menurut dua jenis kompresi ini. Dalam kompresi lossless, ukuran data dikurangi melalui teknik pengodean dan algoritma, dan seluruh data asli dapat dipulihkan jika diperlukan. Kompresi lossy, di sisi lain, menggunakan metode lain untuk melakukan kompresinya. Meski hasil data olahannya mungkin layak disimpan, ini bukan salinan persisnya, seperti yang akan Anda dapatkan dengan kompresi lossless.

Prapemrosesan data

Beberapa data perlu dibersihkan, ditangani, dan diproses sebelum menjalani proses analisis data dan reduksi data. Bagian dari transformasi tersebut mungkin melibatkan pengubahan data dari analog menjadi digital. Binning adalah contoh lain prapemrosesan data. Dalam metode ini, nilai median digunakan untuk menormalkan berbagai jenis data dan memastikan integritas data di seluruh proses.

Solusi terkait

Keberlanjutan penyimpanan dengan IBM FlashSystem

Manfaatkan situasi yang sama-sama menguntungkan untuk organisasi Anda dan lingkungan dengan menggunakan penyimpanan IBM FlashSystem. Konsumsi lebih sedikit energi dan raih penghematan biaya, seraya mengurangi jejak karbon perusahaan Anda.

Jelajahi keberlanjutan penyimpanan dengan IBM FlashSystem

IBM Spectrum Virtualize for Public Cloud

Bayangkan sebuah solusi yang mendukung pencerminan antara data on premises dan pusat data cloud atau antara pusat data cloud. IBM Spectrum Virtualize for Public Cloud juga membantu menerapkan strategi pemulihan dari bencana.

Jelajahi IBM Spectrum Virtualize for Public Cloud

IBM Storage-as-a-Service

Dapatkan yang terbaik dari keduanya dengan IBM Storage-as-a-Service. Mulai dengan perangkat keras on premises yang disediakan dan dikelola oleh IBM. Pasangkan dengan model harga berbasis konsumsi semacam cloud untuk kombinasi yang fleksibel.

Jelajahi IBM Storage-as-a-Service

Sumber daya

Tur produk IBM FlashSystem

Jelajahi FlashSystems yang didukung oleh IBM Spectrum Virtualize software yang menggunakan virtualisasi simetris.

Tonton webinar tentang penyimpanan berkelanjutan

Biaya energi dan data tampaknya berkembang dengan sangat pesat. Seiring upaya perusahaan untuk menghadapi kenyataan yang mahal ini, mereka membutuhkan penyimpanan hemat energi yang dapat diandalkan.

IBM Data Reduction Estimator Tool

Data Reduction Estimator Tool (DRET) adalah utilitas berbasis host dengan baris perintah untuk memperkirakan penghematan reduksi data pada perangkat blok.

Apa yang dimaksud dengan konsolidasi data?

Temukan mengapa banyak organisasi mengandalkan alat konsolidasi data untuk menangani gudang data mereka.

Apa yang dimaksud dengan penyimpanan data?

Pelajari dasar-dasar penyimpanan data, termasuk jenis perangkat penyimpanan dan berbagai format penyimpanan data.

Apa itu penyimpanan flash?

Tersedia berbagai solusi penyimpanan flash, mulai dari drive USB hingga rangkaian tingkat perusahaan. Pelajari keunggulannya masing-masing.

Ambil langkah selanjutnya

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai

Pesan demo langsung