Apa itu kumpulan data?

10 Desember 2024

Penyusun

Matthew Kosinski

Enterprise Technology Writer

Apa itu kumpulan data?

Kumpulan data adalah gabungan data yang biasanya diatur dalam tabel, array, atau format tertentu—seperti CSV atau JSON—untuk memudahkan pengambilan dan analisis. Kumpulan data sangat penting untuk analisis data, machine learning (ML), kecerdasan buatan (AI) dan aplikasi lain yang membutuhkan data yang andal dan dapat diakses.

Organisasi saat ini mengumpulkan sejumlah besar data dari berbagai sumber, termasuk interaksi pelanggan, transaksi keuangan, perangkat IoT, dan platform media sosial.

Untuk membuka nilai bisnis dari semua data ini, data tersebut harus sering diatur ke dalam kumpulan data: kumpulan terorganisir yang membuat informasi dapat diakses untuk analisis dan aplikasi.

Berbagai jenis kumpulan data menyimpan data dalam berbagai cara. Misalnya, kumpulan data terstruktur sering kali mengatur titik data dalam tabel dengan baris dan kolom yang ditentukan. Kumpulan data tidak terstruktur dapat berisi berbagai format seperti file teks, gambar, dan audio.

Meskipun tidak selalu melibatkan data terstruktur, kumpulan data selalu memiliki beberapa struktur umum, baik itu skema yang ditentukan atau sintaks yang terorganisir secara longgar dalam format data semistruktur seperti JSON atau XML.

Contoh kumpulan data meliputi:

  • Kumpulan data layanan pelanggan yang melacak interaksi dan resolusi dukungan.
  • Kumpulan data manufaktur yang memantau metrik kinerja peralatan.
  • Kumpulan data penjualan menganalisis pola transaksi dan perilaku konsumen.
  • Kumpulan data pemasaran yang mengukur efektivitas dan keterlibatan kampanye.

Organisasi sering kali menggunakan dan memelihara beberapa kumpulan data untuk mendukung berbagai inisiatif bisnis, termasuk analisis data dan intelijen bisnis (BI).

Big data, khususnya, bergantung pada kumpulan data besar dan kompleks untuk menghadirkan nilai. Ketika dikumpulkan, dikelola, dan dianalisis dengan benar menggunakan analitik big data, kumpulan data ini dapat membantu mengungkap wawasan baru dan memungkinkan pengambilan keputusan berbasis data.

Dalam beberapa tahun terakhir, kebangkitan kecerdasan buatan (AI) dan machine learning makin meningkatkan fokus pada kumpulan data. Organisasi memerlukan data pelatihan yang luas dan terorganisir dengan baik untuk mengembangkan model machine learning yang akurat dan menyempurnakan algoritma prediktif.

Menurut Gartner, 61% organisasi melaporkan harus mengembangkan atau memikirkan kembali model operasi data dan analitik mereka karena dampak teknologi AI.1

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Apa itu kumpulan data—dan apa yang bukan

Meskipun istilah "kumpulan data" sering digunakan secara luas, kualitas tertentu menentukan apakah suatu gabungan data merupakan kumpulan data. Umumnya, kumpulan data memiliki 3 karakteristik mendasar: variabel, skema, dan metadata.

  • Variabel mewakili atribut atau karakteristik spesifik yang sedang dipelajari dalam kumpulan data. Misalnya, dalam kumpulan data penjualan, variabel mungkin menyertakan ID produk, harga, dan tanggal pembelian. Variabel sering berfungsi sebagai input untuk machine learning dan analisis statistik.
  • Skema menentukan struktur kumpulan data, termasuk hubungan dan sintaksis di antara variabel-variabelnya. Misalnya, skema kumpulan data tabular mungkin menguraikan format kumpulan data dan header kolom, seperti "tanggal", "jumlah", dan "kategori". Skema JSON dapat menggambarkan struktur data bertingkat seperti profil pelanggan dengan atribut seperti “nama”, “email”, dan susunan objek “riwayat pesanan”.
  • Metadata atau data tentang data, memberikan konteks penting tentang kumpulan data, termasuk detail tentang asal, tujuan, dan pedoman penggunaannya. Informasi ini membantu memastikan bahwa kumpulan data tetap dapat ditafsirkan dan terintegrasi secara efektif dengan sistem lain.

Tidak semua kumpulan data memenuhi syarat sebagai kumpulan data. Akumulasi acak dari titik data yang tidak terkait biasanya tidak membentuk kumpulan data tanpa organisasi dan struktur yang tepat untuk memungkinkan analisis yang bermakna.

Demikian pula, meskipun antarmuka pemrograman aplikasi (API), database, dan spreadsheet dapat berhubungan dengan atau berisi kumpulan data, ketiganya belum tentu merupakan kumpulan data itu sendiri.

API memungkinkan aplikasi berkomunikasi satu sama lain, yang terkadang melibatkan akses dan pertukaran kumpulan data. Basis data dan lembar kerja merupakan kontainer informasi, yang dapat mencakup kumpulan data.

Jenis kumpulan data

Organisasi umumnya bekerja dengan 3 jenis kumpulan data utama, yang biasanya diklasifikasikan berdasarkan jenis data yang mereka tangani:

  • Kumpulan data terstruktur
  • Kumpulan data tidak terstruktur
  • Kumpulan data semiterstruktur

Organisasi sering menggunakan beberapa jenis kumpulan data dalam kombinasi untuk mendukung strategi analisis data yang komprehensif. Misalnya, bisnis retail dapat menganalisis data penjualan terstruktur bersama ulasan pelanggan tidak terstruktur dan analisis web semistruktur untuk mendapatkan wawasan yang lebih baik tentang perilaku dan preferensi pelanggan.

Kumpulan data terstruktur

Kumpulan data terstruktur mengatur informasi dalam format yang telah ditentukan sebelumnya, biasanya berupa tabel dengan baris dan kolom yang jelas. Kumpulan data ini merupakan dasar bagi berbagai proses bisnis penting, seperti manajemen hubungan pelanggan (CRM) dan manajemen inventaris.

Karena kumpulan data terstruktur mengikuti skema yang konsisten, kumpulan data terstruktur memungkinkan kueri cepat dan analisis yang andal. Ini menjadikannya ideal untuk alat intelijen bisnis dan sistem pelaporan yang memerlukan data yang tepat dan dapat diukur.

Contoh umum dari kumpulan data terstruktur meliputi:

  • Catatan keuangan disusun dalam spreadsheet Excel dengan bidang yang ditentukan untuk tanggal, jumlah, dan categories.
  • Database pelanggan dengan format standar untuk informasi kontak dan riwayat pembelian.
  • Sistem inventaris melacak jumlah, lokasi, dan pergerakan produk.
  • Aliran data sensor menyediakan metrik seragam untuk pemantauan peralatan dan pemeliharaan prediktif.

Kumpulan data tidak terstruktur

Kumpulan data tidak terstruktur berisi informasi yang tidak sesuai dengan model data tradisional atau skema kaku. Meskipun memerlukan alat pemrosesan yang lebih canggih, kumpulan data ini sering mengandung insight kaya yang tidak dapat ditangkap oleh format data terstruktur.

Organisasi mengandalkan kumpulan data tidak terstruktur untuk mendukung kecerdasan buatan dan model machine learning. Kumpulan data ini menyediakan beragam data dunia nyata yang diperlukan untuk melatih model AI dan mengembangkan kemampuan analitik yang lebih canggih.

Contoh umum dari kumpulan data tidak terstruktur meliputi:

  • Dokumen teks, seperti email, laporan, dan halaman web.
  • Gambar dan video yang digunakan untuk melatih model machine learning.
  • Rekaman audio dari aplikasi dunia nyata.
  • Log obrolan dan transkrip layanan pelanggan.

Kumpulan data semiterstruktur

Kumpulan data semiterstruktur menjembatani kesenjangan antara data terstruktur dan tidak terstruktur. Meskipun tidak mengikuti skema yang kaku, kumpulan data ini menggabungkan sintaks atau penanda yang ditentukan untuk membantu mengatur informasi dalam format yang fleksibel tetapi dapat diuraikan.

Pendekatan hybrid ini membuat kumpulan data semistruktur berharga untuk proyek integrasi data modern dan aplikasi yang perlu menangani beragam tipe data sekaligus mempertahankan beberapa struktur organisasi.

Contoh umum dari kumpulan data semi terstruktur meliputi: 

  • File JSON, HTML, dan XML yang digunakan dalam aplikasi web dan API.
  • File log yang berisi bidang yang diformat dan teks bentuk bebas.
  • Kumpulan data publik menggabungkan beberapa format data untuk aksesibilitas yang lebih luas.
Mixture of Experts | Podcast

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Sumber kumpulan data

Organisasi mengumpulkan data dari berbagai sumber untuk membangun kumpulan data yang mendukung berbagai inisiatif bisnis. Sumber data dapat secara langsung menentukan kualitas dan utilitas kumpulan data.

Beberapa sumber data umum meliputi:

  • Repositori data
  • Basis Data
  • Antarmuka pemrograman aplikasi (API)
  • Platform data publik

Repositori data

Repositori data adalah penyimpanan data terpusat. Repositori data eksklusif sering kali menyimpan data sensitif atau penting bisnis seperti catatan pelanggan, transaksi keuangan, atau metrik operasional yang memberikan keunggulan kompetitif.

Repositori data lainnya tersedia untuk umum. Misalnya, platform seperti GitHub menyimpan kumpulan data sumber terbuka di samping kode. Para peneliti dan organisasi dapat menggunakan kumpulan data publik ini untuk berkolaborasi secara terbuka pada model machine learning dan proyek ilmu data.

Basis Data

Database adalah repositori data digital yang dioptimalkan untuk menyimpan data dengan aman dan mengambil data dengan mudah sesuai kebutuhan.

Database dapat berisi satu atau beberapa kumpulan data. Pengguna dapat dengan cepat mengekstrak titik data yang relevan dengan menjalankan kueri database yang menggunakan bahasa khusus seperti bahasa kueri terstruktur (SQL).

Antarmuka pemrograman aplikasi (API)

API menghubungkan aplikasi perangkat lunak sehingga mereka dapat berkomunikasi. Konsumen data dapat menggunakan API untuk mengambil data secara real time dari sumber yang terhubung, seperti layanan web dan platform digital, dan menyalurkannya ke aplikasi dan repositori lain untuk digunakan.

Ilmuwan data sering kali membangun pipeline pengumpulan data otomatis dengan menggunakan bahasa seperti Python, yang menawarkan pustaka yang kuat untuk integrasi API dan pemrosesan data. Misalnya, sistem analitik retail mungkin menggunakan pipeline otomatis ini untuk terus mengumpulkan data pembelian pelanggan dan tingkat inventaris dari retail e-commerce dan sistem manajemen inventaris.

Platform data publik

Situs seperti Data.gov dan inisiatif data terbuka tingkat kota seperti New York City Open Data menyediakan akses gratis ke kumpulan data yang mencakup metrik kesehatan, transportasi, dan lingkungan. Para peneliti dapat menggunakan kumpulan data ini untuk mempelajari segala sesuatu mulai dari pola transportasi hingga tren kesehatan masyarakat.

Contoh penggunaan kumpulan data

Dari memperkuat kecerdasan buatan hingga memungkinkan insight berbasis data, kumpulan data merupakan dasar untuk beberapa inisiatif bisnis dan teknologi utama.

Beberapa aplikasi kumpulan data yang paling umum meliputi:

  • Kecerdasan buatan (AI) dan pembelajaran mesin
  • Analisis data dan wawasan
  • Intelijen bisnis (BI)

Kecerdasan buatan (AI) dan pembelajaran mesin

Kecerdasan buatan (AI) berpotensi menjadi pembeda penting bagi banyak organisasi.

Menurut IBM Institute for Business Value, 72% CEO dengan kinerja terbaik yakin bahwa keunggulan kompetitif mereka bergantung pada memiliki AI generatif (gen AI) yang paling canggih. Sistem AI mutakhir ini bergantung pada kumpulan data yang luas—baik berlabel maupun tidak berlabel—untuk melatih model secara efektif.

Dengan data pelatihan yang komprehensif, organisasi dapat mengembangkan sistem AI yang menjalankan tugas-tugas kompleks seperti:

  • Pemrosesan bahasa alami (NLP): Model NLP mengandalkan kumpulan data bahasa Inggris dan multibahasa untuk memahami bahasa manusia dan aplikasi daya seperti model bahasa besar(LLM), chatbot, layanan terjemahan, dan alat analisis teks. Misalnya, chatbot layanan pelanggan dapat menggunakan NLP untuk menganalisis kumpulan data percakapan dukungan sebelumnya untuk mempelajari cara menanggapi pertanyaan umum.
  • Visi komputer: Dengan menggunakan kumpulan data gambar berlabel, AI dapat belajar mengenali objek, wajah, dan pola visual. Visi komputer membantu mendorong inovasi dalam kendaraan otonom, analisis pencitraan medis, dan banyak lagi. Contoh, sistem AI dalam perawatan kesehatan dapat menganalisis kumpulan data pemindaian medis untuk deteksi tanda-tanda awal penyakit dengan akurasi tinggi.
  • Analisis prediktif: Analisis prediktif bergantung pada kumpulan data terstruktur untuk melatih model guna meramalkan hasil di dunia nyata, seperti harga rumah dan permintaan konsumen. Model regresi ini menganalisis pola data historis untuk membuat prediksi yang akurat, seperti menganalisis data penjualan tahun untuk memprediksi permintaan musiman dan mengoptimalkan tingkat persediaan.
  • Penelitian: Sistem AI dapat memproses kumpulan data penelitian yang luas untuk mengungkap wawasan baru dan mempercepat inovasi. Misalnya, perusahaan farmasi dapat menggunakan AI untuk menganalisis kumpulan data molekuler dan mengidentifikasi kandidat obat-obatan baru yang menjanjikan lebih cepat daripada metode tradisional.

Analisis data dan wawasan

Ilmuwan dan analis data menggunakan kumpulan data untuk mengekstrak insight berharga dan mendorong penemuan lintas disiplin ilmu. Seiring dengan makin banyaknya data yang dikumpulkan oleh organisasi, analisis data menjadi sangat penting untuk menguji hipotesis, mengidentifikasi tren, dan mengungkap hubungan yang menjadi dasar pengambilan keputusan strategis.

Beberapa cara umum kumpulan data membantu analisis data meliputi:

  • Pengenalan pola: Analisis canggih dari agregat besar kumpulan data dapat mengungkapkan tren tersembunyi, korelasi, dan anomali yang dapat digunakan organisasi untuk mengidentifikasi peluang dan mengurangi risiko. Misalnya, perusahaan peritel mungkin mengungkap tren pembelian selama musim liburan dengan menganalisis data transaksi.
  • Visualisasi data: Alat visualisasi mengubah kumpulan data yang kompleks menjadi wawasan yang jelas dan dapat ditindaklanjuti dengan menggunakan bagan, grafik, dan dasbor untuk membuat data lebih mudah diakses. Misalnya, perusahaan mungkin menggunakan dasbor interaktif untuk menampilkan tren penjualan dan pendapatan, yang membantu eksekutif dengan cepat memahami metrik kinerja dan membuat keputusan yang tepat.
  • Analisis statistik: Menggunakan metode statistik yang ketat, ilmuwan data dapat mengubah kumpulan data mentah menjadi wawasan terukur yang membantu mengukur signifikansi dan memvalidasi temuan. Misalnya, analis keuangan dapat menghitung metrik utama dari kumpulan data untuk menilai kinerja pasar.
  • Pengujian hipotesis: Ilmuwan data dapat menggunakan kumpulan data eksperimental untuk memvalidasi teori dan mengevaluasi solusi potensial, memberikan dukungan berbasis bukti untuk keputusan bisnis dan penelitian. Misalnya, perusahaan farmasi mungkin menganalisis kumpulan data uji klinis untuk menentukan kemanjuran obat baru.

Intelijen bisnis (BI)

Organisasi menggunakan intelijen bisnis (BI) untuk mengungkap insight dalam kumpulan data dan mendorong pengambilan keputusan real-time.

Alat bantu BI dapat membantu menganalisis berbagai jenis data untuk mengidentifikasi tren, memantau kinerja, dan mengungkap peluang baru. Beberapa aplikasi meliputi:

  • Pemantauan real-time: Dengan kumpulan data metrik dan indikator kinerja utama (KPI), organisasi dapat memperoleh visibilitas yang berkesinambungan terhadap efisiensi operasional dan kinerja sistem. Sebagai contoh, perusahaan logistik menggunakan pemantauan real-time selama musim liburan untuk melacak waktu pengiriman dan dengan cepat mengatasi keterlambatan.
  • Analisis perilaku pelanggan: Kumpulan data transaksi dan interaksi dapat membantu mengungkapkan pola pembelian dan preferensi pelanggan. Organisasi kemudian dapat menggunakan insight ini untuk mengembangkan strategi pemasaran yang ditargetkan dan meningkatkan pengalaman di seluruh titik kontak.
  • Analisis deret waktu: Dengan bantuan kumpulan data sekuensial dan historis, organisasi dapat melacak tren dan pola kinerja dengan lebih baik dari waktu ke waktu. Sebagai contoh, penyedia energi menganalisis data deret waktu untuk memprediksi dan mempersiapkan diri menghadapi puncak permintaan listrik, meningkatkan keandalan jaringan dan layanan pelanggan.
  • Optimalisasi rantai pasokan: Kumpulan data terintegrasi dapat membantu organisasi merampingkan logistik dan manajemen pemasok. Misalnya, pengecer dapat menganalisis tingkat inventaris, data pengiriman, dan metrik kinerja pemasok untuk mengoptimalkan jadwal pengisian ulang dan mengurangi biaya transportasi.

Pertimbangan kumpulan data

Menangani kumpulan data yang besar dan kompleks untuk inisiatif apa pun dapat menimbulkan beberapa tantangan dan pertimbangan. Beberapa yang paling menonjol antara lain:

  • Kualitas data: Menjaga integritas dan kualitas data dalam kumpulan data sangatlah penting. Jika tidak, data yang tidak lengkap atau tidak akurat dapat menyebabkan hasil yang menyesatkan. Misalnya, kumpulan data baru dengan format yang tidak konsisten di seluruh kolom dapat mengganggu alur kerja dan analisis miring. Teknik validasi seperti menstandarkan format dan menghapus duplikasi dapat membantu memastikan akurasi dan konsistensi seiring dengan bertambahnya skala kumpulan data.
  • Interoperabilitas dan integrasi data: Mengintegrasikan kumpulan data dari berbagai sumber atau format dapat menimbulkan tantangan, seperti menggabungkan file CSV dengan data JSON. Membuat skema terpadu atau menstandardisasikan format data dapat membantu mengatasi tantangan ini dan menyelaraskan struktur data untuk memastikan kompatibilitas sistem.
  • Manajemen kumpulan data: Volume data yang terus bertambah dan contoh penggunaan yang terus berkembang membuat manajemen kumpulan data menjadi semakin kompleks. Memprioritaskan proses yang kuat untuk pembuatan, pemeliharaan, dan tata kelola kumpulan data dapat membantu memastikan kualitas dan aksesibilitas data sekaligus menjaga kepatuhan terhadap undang-undang dan peraturan privasi data seperti General Data Protection Regulation (GDPR) dan California Consumer Privacy Act (CCPA).
Catatan kaki

Semua tautan berada di luar ibm.com

Organisasi mengembangkan model operasi D&A mereka karena teknologi AI, Gartner, 29 April 2024. 

Solusi terkait
Alat dan solusi analitik

Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.

Jelajahi solusi analitik
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
IBM Cognos Analytics

Memperkenalkan Cognos Analytics 12.0, wawasan yang didukung AI untuk pengambilan keputusan yang lebih baik.

Jelajahi Cognos Analytics
Ambil langkah selanjutnya

Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.

Jelajahi solusi analitik Temukan layanan analitik