Data tidak terstruktur adalah informasi yang tidak memiliki format yang ditentukan sebelumnya. Kumpulan data tidak terstruktur sangat besar (seringkali mencapai terabytes atau petabytes) dan mengandung 90% dari seluruh kumpulan data yang dihasilkan oleh perusahaan.1
Perkembangan data tidak terstruktur didorong oleh sumber data yang beragam dan luas, termasuk dokumen teks, media sosial, file gambar dan audio, pesan instan, dan perangkat pintar. Hampir semua data baru yang dihasilkan saat ini bersifat tidak terstruktur: setiap pesan yang dikirim, foto yang diunggah, atau sensor yang diaktifkan menambah volume data yang terus bertambah.
Tidak seperti data terstruktur (yang memiliki model data yang telah ditentukan sebelumnya), data tidak terstruktur tidak mudah menyesuaikan diri dengan skema tetap database konvensional. Sebaliknya, data tidak terstruktur sering disimpan dalam sistem file, database non-relasional (atau NoSQL) atau dalam data lake.
Kompleksitas data tidak terstruktur dan struktur data yang tidak seragam juga memerlukan metode analisis data yang lebih canggih. Teknologi seperti machine learning (ML) dan pemrosesan bahasa alami (NLP) sering digunakan untuk mengekstrak insight dari kumpulan data yang tidak terstruktur.
Sebelumnya, data tidak terstruktur dianggap sebagai data gelap. Tantangan data tidak terstruktur (yaitu, volumenya yang besar dan ketidakseragamannya) membuatnya tidak dapat digunakan untuk banyak contoh penggunaan bisnis.
Namun, saat ini, perusahaan dengan data tidak terstruktur yang melimpah memiliki aset strategis yang signifikan. Bila digabungkan, data terstruktur dan tak terstruktur memberikan tampilan data lengkap di seluruh perusahaan. Dan, terutama relevan pada saat ini, data tidak terstruktur juga dapat membantu bisnis membuka potensi penuh AI generatif (gen AI).
Sebagian besar data tidak terstruktur bersifat tekstual: pesan email, dokumen Word, PDF, blog, dan posting media sosial. Data teks tidak terstruktur juga mencakup transkrip panggilan dan file teks pesan, seperti yang berasal dari Microsoft Teams atau Slack.
Namun, data yang tidak terstruktur juga bisa nontekstual. Contoh umum data nontekstual tidak terstruktur termasuk file gambar (seperti JPEG, GIF dan PNG), file multimedia, file video, aktivitas mobile, dan data sensor dari perangkat Internet of Things (IoT).
Data sering dikategorikan sebagai terstruktur, tidak terstruktur, atau semi-terstruktur berdasarkan format dan aturanskema. Seperti namanya, data semi-terstruktur berbagi atribut data terstruktur dan tidak terstruktur. Berikut adalah ikhtisar singkat dari setiap jenis data:
Data terstruktur
Data tidak terstruktur
Data semi-terstruktur
Data tidak terstruktur mewakili bagian terbesar dari semua data yang dihasilkan dalam suatu perusahaan. Beragam, fleksibel, dan kaya akan insight, beberapa di antaranya mungkin tidak ada dalam kumpulan data terstruktur. Meskipun data terstruktur masih sangat berharga, sebagian besar perusahaan saat ini memiliki simpanan data tidak terstruktur yang sangat besar yang sebagian besarnya belum dimanfaatkan.
Data tidak terstruktur juga berperan penting bagi AI modern. Data tidak terstruktur (dalam bentuk data publik dan internal, serta data eksklusif) dapat digunakan untuk melatih model AI dan meningkatkan kinerja.
Dengan alat yang tepat, data tidak terstruktur dapat menyediakan berbagai macam contoh penggunaan, seperti:
AI generatif bergantung pada model pembelajaran mendalam yang mengidentifikasi dan mengodekan pola dan hubungan dalam sejumlah besar data. Data tidak terstruktur, biasanya dari internet, sangat cocok untuk menyediakan data bervolume sangat tinggi yang kaya dan tidak berlabel yang diperlukan untuk pelatihan.
RAG adalah arsitektur untuk mengoptimalkan kinerja model AI gen dengan memberikannya akses ke basis pengetahuan eksternal tambahan, seperti data internal organisasi yang tidak terstruktur. Proses ini membantu menyesuaikan model dengan contoh penggunaan domain sehingga dapat memberikan jawaban yang lebih baik.
Analisis sentimen menganalisis sejumlah besar teks untuk menentukan apakah teks tersebut mengekspresikan sentimen positif, negatif, atau netral. Sebagai alat untuk memahami perilaku pelanggan, analisis sentimen memanfaatkan sejumlah besar data teks tidak terstruktur yang dihasilkan oleh pelanggan melalui berbagai saluran digital.
Perusahaan menggunakan analisis prediktif untuk memprediksi hasil di masa depan dan mengidentifikasi risiko serta peluang dengan menggunakan data historis. Misalnya, sebuah organisasi kesehatan dapat menambang catatan medis (data teks tidak terstruktur) untuk memahami bagaimana suatu penyakit tertentu didiagnosis dan diobati, serta mengembangkan model prediktif berdasarkan temuan tersebut.
Chatbot kelas enterprise dapat menganalisis dan mengekstrak insight dari data teks tidak terstruktur dalam percakapannya dengan pelanggan atau karyawan. Biasanya, analisis dilakukan menggunakan teknik seperti pemrosesan bahasa alami (NLP) dan machine learning. Insight dari data teks yang dianalisis dapat membantu menginformasikan perilaku pelanggan dan meningkatkan kinerja chatbot.
Contoh penggunaan yang terkait dengan kecerdasan buatan (AI) untuk data tidak terstruktur semakin menjadi fokus utama bagi perusahaan yang mengadopsi inovasi AI. Pertimbangkan gen AI, teknologi di balik ChatGPT dan aplikasi AI viral lainnya. Dimulai dengan model dasar, umumnya model bahasa besar (LLM).
Membuat model dasar melibatkan pelatihan algoritma pembelajaran mendalam pada volume besar data tidak terstruktur, biasanya dari internet. Data tidak terstruktur ini kaya dan beragam, mengajarkan konteks dan nuansa model AI.
Namun, data pelatihan yang tidak terstruktur dapat bersifat umum, bukan spesifik untuk suatu domain atau organisasi, dan berpotensi usang. Model akhir mungkin kesulitan menanggapi prompt yang meminta jawaban khusus domain.
Untuk mengatasi tantangan tersebut, organisasi dapat menyesuaikan model yang telah dilatih sebelumnya untuk contoh penggunaan atau tugas spesifik dengan beberapa cara. Salah satu metode, fine-tuning, menyesuaikan model dasar dengan melatihnya pada kumpulan data khusus tugas yang lebih kecil. Ini membutuhkan data terstruktur berkualitas tinggi, seringkali data eksklusif atau pengetahuan khusus domain terspesialisasi.
Namun, metode yang berbeda, Generasi dengan dukungan pengambilan data (RAG), dapat menggabungkan data tidak terstruktur. Sementara LLM biasanya mendapatkan informasi dari data pelatihan mereka, RAG menambahkan komponen pengambilan informasi ke alur kerja AI, mengumpulkan data yang relevan dan memasukkannya ke model untuk meningkatkan kualitas respons. Data ini dapat mencakup kumpulan data internal yang tidak terstruktur.
Dibandingkan dengan fine-tuning, RAG memastikan hasil yang lebih tepat waktu dan akurat karena secara terus-menerus mengambil informasi terbaru selama proses penghasilan respons. Ini dapat membantu mengubah inisiatif AI dari membeku dalam waktu dan generik, menjadi kustom, relevan, dan berdampak.
Sama seperti data terstruktur, data tidak terstruktur juga memerlukan tata kelola data dan manajemen data yang tepat sebelum digunakan untuk AI. Data tersebut perlu diklasifikasikan, dinilai kualitasnya, difilter untuk PII, dan dideduplikasi.
Dengan alat yang tepat, dan bahkan bantuan AI, bisnis dapat mengubah data tidak terstruktur mereka dan membuatnya dapat digunakan. Memahami cara untuk secara efektif mengorganisir kekacauan data kini menjadi keunggulan kompetitif, dan pendorong untuk gen AI perusahaan.
Data tidak terstruktur biasanya disimpan dalam format aslinya, yang memperluas opsi penyimpanan. Beberapa lingkungan penyimpanan data umum untuk data tidak terstruktur meliputi:
Penyimpanan objek (atau penyimpanan berbasis objek) menyimpan data sebagai objek, repositori mandiri yang sederhana yang mencakup data, metadata, dan nomor identifikasi unik. Arsitektur ini ideal untuk menyimpan, mengarsipkan, mencadangkan, dan mengelola data statis tidak terstruktur dalam volume tinggi. Penyimpanan objek berbasis cloud sering digunakan untuk mengoptimalkan biaya penyimpanan dan penggunaan data beban kerja AI.
Data lake adalah penyimpanan data yang dirancang untuk menangani sejumlah besar data mentah dalam format data apa pun. Khususnya, banjir big data yang dibuat oleh aplikasi dan layanan yang terhubung ke internet. Data lake menggunakan komputasi cloud untuk membuat penyimpanan data lebih dapat diskalakan dan terjangkau. Dan secara umum, data lake menggunakan penyimpanan objek berbasis cloud, seperti Azure Blob Storage, Google Cloud Storage, atau IBM® Cloud Object Storage.
Data lake dianggap sebagai evolusi berikutnya dari manajemen data, menggabungkan bagian terbaik dari data lake dan gudang data. Mereka menawarkan penyimpanan yang cepat dan murah dengan fleksibilitas untuk mendukung analisis data dan beban kerja AI/ML. Data lakehouse juga mendukung penyerapan data real-time, yang sangat penting untuk aplikasi AI yang digunakan untuk mendukung pengambilan keputusan real-time.
Bahasa kueri terstruktur (SQL) adalah bahasa pemrograman khusus domain standar yang digunakan untuk menyimpan, memanipulasi, dan mengambil data. Database NoSQL, atau database non-SQL, dirancang untuk menyimpan data di luar struktur database SQL tradisional, tanpa skema. Database NoSQL menyediakan kecepatan dan skalabilitas yang diperlukan untuk mengelola kumpulan data yang besar dan tidak terstruktur. Contohnya termasuk MongoDB, Redis, dan HBase.
Setelah data tidak terstruktur disimpan, seringkali membutuhkan pemrosesan untuk digunakan secara efektif untuk contoh penggunaan, seperti untuk intelijen bisnis atau analisis data tidak terstruktur.
Beberapa organisasi menggunakan kerangka kerja sumber terbuka untuk memproses kumpulan data yang besar dan tidak terstruktur. Misalnya, Apache Hadoop sering diintegrasikan ke dalam arsitektur data lake untuk memungkinkan pemrosesan batch data tidak terstruktur dan semi-terstruktur (seperti streaming audio dan sentimen media sosial). Apache Spark adalah kerangka kerja sumber terbuka lain untuk pemrosesan big data. Namun, Spark menggunakan pemrosesan dalam memori dan sangat cepat, sehingga lebih cocok untuk aplikasi machine learning dan AI.
Ada juga platform integrasi data modern yang dirancang khusus untuk menangani data terstruktur dan tidak terstruktur. Alat integrasi serbaguna ini secara otomatis menyerap data mentah, mengaturnya, dan memindahkan data yang telah diproses ke database tujuan. Fitur-fitur ini secara signifikan mengurangi pekerjaan manual yang memakan waktu dari tim ilmu data yang ditugaskan menyiapkan data mentah dan tidak terstruktur untuk AI.
Ada berbagai alat dan teknologi yang dapat digunakan organisasi untuk mengungkap insight dari data tidak terstruktur mereka.
Alat AI analytics mengandalkan kemampuan kecerdasan buatan untuk memproses volume data yang besar dengan cepat, yang merupakan kunci bagi organisasi yang ingin menemukan insight berharga dalam kumpulan data besar yang tidak terstruktur. Dengan machine learning dan pemrosesan bahasa alami (NLP), algoritma AI dapat menyaring data tidak terstruktur untuk menemukan pola dan membuat prediksi atau rekomendasi secara real-time. Model analitik ini juga dapat diintegrasikan ke dasbor atau API yang ada untuk mengotomatiskan pengambilan keputusan.
Penambangan teks menggunakan Naïve Bayes, mendukung mesin vektor (SVM) dan algoritme pembelajaran mendalam lainnya untuk membantu organisasi menjelajahi dan menemukan hubungan tersembunyi dalam data yang tidak terstruktur. Berbagai teknik diterapkan untuk penambangan teks, seperti pengambilan informasi, ekstraksi informasi, penambangan data, dan pemrosesan bahasa alami.
NLP menggunakan machine learning untuk membantu komputer memahami dan berkomunikasi dengan bahasa manusia. Dalam konteks analisis data tidak terstruktur, NLP memungkinkan ekstraksi insight dari data teks tidak terstruktur, seperti ulasan pelanggan dan posting media sosial. Ini dapat digunakan untuk meningkatkan penambangan teks dengan menawarkan pemrosesan dan pemahaman bahasa tingkat lanjut, seperti analisis sentimen.
Gunakan solusi database IBM untuk memenuhi berbagai kebutuhan beban kerja di hybrid cloud.
Jelajahi IBM Db2, database relasional yang menghadirkan kinerja tinggi, skalabilitas, dan keandalan untuk menyimpan dan mengelola data terstruktur. Database ini tersedia sebagai SaaS di IBM Cloud atau untuk hosting mandiri.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.
1,2 “Untapped value: What every executive needs to know about unstructured data,” IDC, Agustus 2023.