“Terstruktur” dan “tidak terstruktur” adalah istilah yang digunakan untuk mengklasifikasikan data berdasarkan ada atau tidaknya format dan aturan skema pada data tersebut.
Data terstruktur memiliki skema tetap dan sesuai untuk baris dan kolom, misalnya nama dan nomor telepon. Data tidak terstruktur tidak memiliki skema tetap dan dapat memiliki format yang lebih kompleks, misalnya file audio dan halaman web.
Berikut adalah area utama perbedaan data terstruktur dan tidak terstruktur:
Lanjutkan membaca untuk mendapatkan ulasan ekstensif tentang definisi, contoh penggunaan, dan manfaat data terstruktur dan data tidak terstruktur.
Buletin industri
Ikuti perkembangan tren industri yang paling penting—dan menarik—di bidang AI, otomatisasi, data, dan lainnya dengan buletin Think. Lihat Pernyataan Privasi IBM.
Langganan Anda akan disediakan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.
Data terstruktur diatur dalam format yang jelas dan telah ditentukan. Sifat terstandardisasi dari data terstruktur membuatnya mudah diuraikan oleh alat analisis data, algoritma machine learning, dan pengguna manusia.
Data terstruktur dapat mencakup data kuantitatif (seperti harga atau angka pendapatan) dan data kualitatif (seperti tanggal, nama, alamat, dan nomor kartu kredit). Sebagai contoh, laporan keuangan dengan nama perusahaan, nilai pengeluaran, dan periode pelaporan yang disusun ke dalam baris dan kolom dianggap sebagai data terstruktur.
Data terstruktur biasanya disimpan dalam format tabulasi, seperti spreadsheet Excel dan basis data relasional (atau basis data SQL). Pengguna dapat memasukkan input, mencari, dan memanipulasi data terstruktur secara efisien dalam sistem manajemen basis data relasional (RDBMS) dengan menggunakan bahasa kueri terstruktur (SQL). Dikembangkan oleh IBM® pada tahun 1974, structured query language adalah bahasa pemrograman yang digunakan untuk mengelola data terstruktur.
Contoh penggunaan data terstruktur meliputi:
Manfaat data terstruktur terkait dengan kemudahan penggunaan dan aksesnya:
Tantangan data terstruktur terletak pada kekakuan data:
Data tidak terstruktur tidak memiliki format data bawaan. Kumpulan data tidak terstruktur biasanya berukuran besar (misalnya data berukuran terabyte atau petabyte) dan 90% terdiri dari semua data yang dihasilkan perusahaan. Volume yang tinggi ini disebabkan oleh munculnya big data—kumpulan data yang sangat besar dan kompleks dari internet dan teknologi terhubung lainnya.1
Data tidak terstruktur dapat terdiri dari data tekstual dan nontekstual, serta data kualitatif (komentar di media sosial) dan kuantitatif (angka yang disematkan dalam teks).
Contoh data tidak terstruktur dari sumber data tekstual meliputi:
Contoh data tidak terstruktur nontextual meliputi:
Karena data tidak terstruktur tidak memiliki model data bawaan, data tidak mudah diproses dan dianalisis dengan alat dan metode data konvensional.
Data semacam ini sebaiknya dikelola di database nonrelasional atau database NoSQL, atau di data lake, yang dirancang untuk menangani sejumlah besar data mentah dalam format apa pun.
Sering kali, machine learning, analisis tingkat lanjut, dan pemrosesan bahasa alami (natural language processing, NLP) digunakan untuk mengekstrak insight berharga dari data tidak terstruktur.
Contoh penggunaannya meliputi:
Data tidak terstruktur antara lain unggul dalam hal format, kecepatan, dan penyimpanan data:
Tantangan pusat data tidak terstruktur terletak pada keahlian dan ketersediaan sumber daya:
AI dapat dengan cepat memproses data dalam jumlah besar. Ini adalah kemampuan vital bagi organisasi yang ingin mengubah sejumlah besar data tidak terstruktur menjadi insight yang dapat ditindaklanjuti.
Dengan machine learning dan pemrosesan bahasa alami (NLP), algoritma AI dapat menyaring data tidak terstruktur untuk menemukan pola dan membuat prediksi atau rekomendasi secara real-time. Organisasi kemudian dapat mengintegrasikan model analisis ini ke dasbor yang ada atau antarmuka pemrograman aplikasi (API) untuk mengotomatiskan proses pengambilan keputusan.
Data semi-terstruktur adalah “jembatan” antara data terstruktur dan data tidak terstruktur. Jenis data ini bermanfaat untuk web scraping dan integrasi data.
Data semi-terstruktur tidak memiliki model data bawaan. Namun, jenis data ini menggunakan metadata (misalnya, tag dan penanda semantik) untuk mengidentifikasi karakteristik data tertentu dan menskalakan data menjadi kumpulan data dan bidang praset. Metadata pada akhirnya memungkinkan data semi-terstruktur untuk dikatalogkan, ditelusuri, dan dianalisis dengan lebih baik daripada data tidak terstruktur.
Contoh data semi-terstruktur mencakup file JavaScript Object Notation (JSON), comma-separated values (CSV), dan eXtensible Markup Language (XML). Email merupakan contoh yang lebih sering disebutkan, di mana beberapa bagian data memiliki format standar (seperti judul dan baris subjek), tetapi terdapat konten data tidak terstruktur di dalam bagian tersebut.
Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.
Memperkenalkan Cognos Analytics 12.0, wawasan yang didukung AI untuk pengambilan keputusan yang lebih baik.