Kumpulan data adalah gabungan data yang biasanya diatur dalam tabel, array, atau format tertentu—seperti CSV atau JSON—untuk memudahkan pengambilan dan analisis. Kumpulan data sangat penting untuk analisis data, machine learning (ML), kecerdasan buatan (AI) dan aplikasi lain yang membutuhkan data yang andal dan dapat diakses.
Organisasi saat ini mengumpulkan sejumlah besar data dari berbagai sumber, termasuk interaksi pelanggan, transaksi keuangan, perangkat IoT, dan platform media sosial.
Untuk membuka nilai bisnis dari semua data ini, data tersebut harus sering diatur ke dalam kumpulan data: kumpulan terorganisir yang membuat informasi dapat diakses untuk analisis dan aplikasi.
Berbagai jenis kumpulan data menyimpan data dalam berbagai cara. Misalnya, kumpulan data terstruktur sering kali mengatur titik data dalam tabel dengan baris dan kolom yang ditentukan. Kumpulan data tidak terstruktur dapat berisi berbagai format seperti file teks, gambar, dan audio.
Meskipun tidak selalu melibatkan data terstruktur, kumpulan data selalu memiliki beberapa struktur umum, baik itu skema yang ditentukan atau sintaks yang terorganisir secara longgar dalam format data semistruktur seperti JSON atau XML.
Contoh kumpulan data meliputi:
Organisasi sering kali menggunakan dan memelihara beberapa kumpulan data untuk mendukung berbagai inisiatif bisnis, termasuk analisis data dan intelijen bisnis (BI).
Big data, khususnya, bergantung pada kumpulan data besar dan kompleks untuk menghadirkan nilai. Ketika dikumpulkan, dikelola, dan dianalisis dengan benar menggunakan analitik big data, kumpulan data ini dapat membantu mengungkap wawasan baru dan memungkinkan pengambilan keputusan berbasis data.
Dalam beberapa tahun terakhir, kebangkitan kecerdasan buatan (AI) dan machine learning makin meningkatkan fokus pada kumpulan data. Organisasi memerlukan data pelatihan yang luas dan terorganisir dengan baik untuk mengembangkan model machine learning yang akurat dan menyempurnakan algoritma prediktif.
Menurut Gartner, 61% organisasi melaporkan harus mengembangkan atau memikirkan kembali model operasi data dan analitik mereka karena dampak teknologi AI.1
Meskipun istilah "kumpulan data" sering digunakan secara luas, kualitas tertentu menentukan apakah suatu gabungan data merupakan kumpulan data. Umumnya, kumpulan data memiliki 3 karakteristik mendasar: variabel, skema, dan metadata.
Tidak semua kumpulan data memenuhi syarat sebagai kumpulan data. Akumulasi acak dari titik data yang tidak terkait biasanya tidak membentuk kumpulan data tanpa organisasi dan struktur yang tepat untuk memungkinkan analisis yang bermakna.
Demikian pula, meskipun antarmuka pemrograman aplikasi (API), database, dan spreadsheet dapat berhubungan dengan atau berisi kumpulan data, ketiganya belum tentu merupakan kumpulan data itu sendiri.
API memungkinkan aplikasi berkomunikasi satu sama lain, yang terkadang melibatkan akses dan pertukaran kumpulan data. Basis data dan lembar kerja merupakan kontainer informasi, yang dapat mencakup kumpulan data.
Organisasi umumnya bekerja dengan 3 jenis kumpulan data utama, yang biasanya diklasifikasikan berdasarkan jenis data yang mereka tangani:
Organisasi sering menggunakan beberapa jenis kumpulan data dalam kombinasi untuk mendukung strategi analisis data yang komprehensif. Misalnya, bisnis retail dapat menganalisis data penjualan terstruktur bersama ulasan pelanggan tidak terstruktur dan analisis web semistruktur untuk mendapatkan wawasan yang lebih baik tentang perilaku dan preferensi pelanggan.
Kumpulan data terstruktur mengatur informasi dalam format yang telah ditentukan sebelumnya, biasanya berupa tabel dengan baris dan kolom yang jelas. Kumpulan data ini merupakan dasar bagi berbagai proses bisnis penting, seperti manajemen hubungan pelanggan (CRM) dan manajemen inventaris.
Karena kumpulan data terstruktur mengikuti skema yang konsisten, kumpulan data terstruktur memungkinkan kueri cepat dan analisis yang andal. Ini menjadikannya ideal untuk alat intelijen bisnis dan sistem pelaporan yang memerlukan data yang tepat dan dapat diukur.
Contoh umum dari kumpulan data terstruktur meliputi:
Kumpulan data tidak terstruktur berisi informasi yang tidak sesuai dengan model data tradisional atau skema kaku. Meskipun memerlukan alat pemrosesan yang lebih canggih, kumpulan data ini sering mengandung insight kaya yang tidak dapat ditangkap oleh format data terstruktur.
Organisasi mengandalkan kumpulan data tidak terstruktur untuk mendukung kecerdasan buatan dan model machine learning. Kumpulan data ini menyediakan beragam data dunia nyata yang diperlukan untuk melatih model AI dan mengembangkan kemampuan analitik yang lebih canggih.
Contoh umum dari kumpulan data tidak terstruktur meliputi:
Kumpulan data semiterstruktur menjembatani kesenjangan antara data terstruktur dan tidak terstruktur. Meskipun tidak mengikuti skema yang kaku, kumpulan data ini menggabungkan sintaks atau penanda yang ditentukan untuk membantu mengatur informasi dalam format yang fleksibel tetapi dapat diuraikan.
Pendekatan hybrid ini membuat kumpulan data semistruktur berharga untuk proyek integrasi data modern dan aplikasi yang perlu menangani beragam tipe data sekaligus mempertahankan beberapa struktur organisasi.
Contoh umum dari kumpulan data semi terstruktur meliputi:
Organisasi mengumpulkan data dari berbagai sumber untuk membangun kumpulan data yang mendukung berbagai inisiatif bisnis. Sumber data dapat secara langsung menentukan kualitas dan utilitas kumpulan data.
Beberapa sumber data umum meliputi:
Repositori data adalah penyimpanan data terpusat. Repositori data eksklusif sering kali menyimpan data sensitif atau penting bisnis seperti catatan pelanggan, transaksi keuangan, atau metrik operasional yang memberikan keunggulan kompetitif.
Repositori data lainnya tersedia untuk umum. Misalnya, platform seperti GitHub menyimpan kumpulan data sumber terbuka di samping kode. Para peneliti dan organisasi dapat menggunakan kumpulan data publik ini untuk berkolaborasi secara terbuka pada model machine learning dan proyek ilmu data.
Database adalah repositori data digital yang dioptimalkan untuk menyimpan data dengan aman dan mengambil data dengan mudah sesuai kebutuhan.
Database dapat berisi satu atau beberapa kumpulan data. Pengguna dapat dengan cepat mengekstrak titik data yang relevan dengan menjalankan kueri database yang menggunakan bahasa khusus seperti bahasa kueri terstruktur (SQL).
API menghubungkan aplikasi perangkat lunak sehingga mereka dapat berkomunikasi. Konsumen data dapat menggunakan API untuk mengambil data secara real time dari sumber yang terhubung, seperti layanan web dan platform digital, dan menyalurkannya ke aplikasi dan repositori lain untuk digunakan.
Ilmuwan data sering kali membangun pipeline pengumpulan data otomatis dengan menggunakan bahasa seperti Python, yang menawarkan pustaka yang kuat untuk integrasi API dan pemrosesan data. Misalnya, sistem analitik retail mungkin menggunakan pipeline otomatis ini untuk terus mengumpulkan data pembelian pelanggan dan tingkat inventaris dari retail e-commerce dan sistem manajemen inventaris.
Situs seperti Data.gov dan inisiatif data terbuka tingkat kota seperti New York City Open Data menyediakan akses gratis ke kumpulan data yang mencakup metrik kesehatan, transportasi, dan lingkungan. Para peneliti dapat menggunakan kumpulan data ini untuk mempelajari segala sesuatu mulai dari pola transportasi hingga tren kesehatan masyarakat.
Dari memperkuat kecerdasan buatan hingga memungkinkan insight berbasis data, kumpulan data merupakan dasar untuk beberapa inisiatif bisnis dan teknologi utama.
Beberapa aplikasi kumpulan data yang paling umum meliputi:
Kecerdasan buatan (AI) berpotensi menjadi pembeda penting bagi banyak organisasi.
Menurut IBM Institute for Business Value, 72% CEO dengan kinerja terbaik yakin bahwa keunggulan kompetitif mereka bergantung pada memiliki AI generatif (gen AI) yang paling canggih. Sistem AI mutakhir ini bergantung pada kumpulan data yang luas—baik berlabel maupun tidak berlabel—untuk melatih model secara efektif.
Dengan data pelatihan yang komprehensif, organisasi dapat mengembangkan sistem AI yang menjalankan tugas-tugas kompleks seperti:
Ilmuwan dan analis data menggunakan kumpulan data untuk mengekstrak insight berharga dan mendorong penemuan lintas disiplin ilmu. Seiring dengan makin banyaknya data yang dikumpulkan oleh organisasi, analisis data menjadi sangat penting untuk menguji hipotesis, mengidentifikasi tren, dan mengungkap hubungan yang menjadi dasar pengambilan keputusan strategis.
Beberapa cara umum kumpulan data membantu analisis data meliputi:
Organisasi menggunakan intelijen bisnis (BI) untuk mengungkap insight dalam kumpulan data dan mendorong pengambilan keputusan real-time.
Alat bantu BI dapat membantu menganalisis berbagai jenis data untuk mengidentifikasi tren, memantau kinerja, dan mengungkap peluang baru. Beberapa aplikasi meliputi:
Menangani kumpulan data yang besar dan kompleks untuk inisiatif apa pun dapat menimbulkan beberapa tantangan dan pertimbangan. Beberapa yang paling menonjol antara lain:
Semua tautan berada di luar ibm.com
1 Organisasi mengembangkan model operasi D&A mereka karena teknologi AI, Gartner, 29 April 2024.
Dapatkan insight unik tentang lingkungan solusi ABI yang terus berkembang, dengan menyoroti temuan utama, asumsi, dan rekomendasi bagi para pemimpin data dan analitik.
Sederhanakan akses data dan otomatiskan tata kelola data. Temukan kekuatan mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, termasuk mengoptimalkan biaya beban kerja Anda dan menskalakan AI dan analitik dengan semua data Anda, di mana saja.
Jelajahi panduan pemimpin data untuk membangun organisasi berbasis data dan mendorong keunggulan bisnis.
Pelajari bagaimana pendekatan data lakehouse terbuka dapat memberikan data yang dapat dipercaya dan analitik serta eksekusi proyek AI yang lebih cepat.
Hubungkan strategi data dan analitik Anda dengan tujuan bisnis menggunakan 4 langkah utama ini.
Lihat lebih dalam alasan tantangan intelijen bisnis tetap ada dan maknanya bagi pengguna di seluruh organisasi.
Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.
Memperkenalkan Cognos Analytics 12.0, wawasan yang didukung AI untuk pengambilan keputusan yang lebih baik.