Menaklukkan 3 tantangan inti data tidak terstruktur

1 Mei 2025

Penyusun

Dinesh Nirmal

SVP

IBM Software

Alice Gomstyn

IBM Content Contributor

Data tepercaya sangat penting untuk membantu perusahaan berhasil dalam inisiatif AI generatif mereka. Perusahaan kesulitan memanfaatkan sumber insight yang kuat, yaitu: data tidak terstruktur. Sekitar 90% data yang dihasilkan perusahaan bersifat tidak terstruktur, dengan informasi berharga tersimpan dalam email, dokumen PDF, file video, dan format lainnya.1

Kabar baiknya, solusi dan pendekatan yang terus berkembang dapat memberdayakan perusahaan untuk mengatur, mengakses, dan memperoleh intelijen dari data tidak terstruktur mereka. Think Alice Gomstyn berbincang dengan Dinesh Nirmal, wakil presiden senior IBM Software, membahas bagaimana perusahaan dapat membuka potensi harta data yang sebelumnya dianggap di luar jangkauan mereka.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Gomstyn: Tantangan apa yang dihadapi organisasi ketika harus menggunakan data tidak terstruktur mereka?

Nirmal: Ada tiga tantangan utama dalam mengelola data tidak terstruktur. Skalabilitas adalah salah satunya. Bagaimana cara anda menskalakan dan mengaturnya? Kedua, bagaimana Anda memastikan kinerja dan akurasi AI generatif yang terkait dengannya? Dan yang ketiga adalah bagaimana menghubungkan data tidak terstruktur dengan data terstruktur agar dapat memperoleh nilai dari data tersebut.

Gomstyn: Dapatkah Anda menjelaskan tantangan skalabilitas dan apa yang diperlukan untuk mengatasi skalabilitas?

Nirmal: Data tidak terstruktur lebih kompleks dalam arti bahwa ia dapat memiliki ratusan bidang dan beberapa di antaranya mungkin bidang massal atau bidang aman. Saat Anda menyerap dokumen-dokumen tersebut, menjadi penting bahwa itu adalah konsumsi yang diatur dan data disimpan di penyimpanan yang diatur seperti data lakehouse.

Anda juga membutuhkan tata kelola dalam saluran data Anda. Bagaimana Anda membawa observabilitas dan pemantauan ke dalamnya? Jika ada penyimpangan atau perubahan dalam pipeline tersebut, bagaimana Anda dapat dengan cepat mengidentifikasi dan menyelesaikannya? Pipeline ini bisa sangat rumit dan panjang, sehingga Anda perlu memastikan hasil yang tepat, waktu eksekusi yang efisien, kinerja optimal, dan akurasi secara keseluruhan. Anda memerlukan alat yang memungkinkan Anda membangun, mengelola, dan memantau pipeline tersebut secara efektif.

Untuk perusahaan, ini juga tentang keamanan. Keamanan data menjadi elemen penting untuk memastikan bahwa mereka tidak kehilangan data tersebut. Kami menyediakan alat keamanan yang mengenkripsi data. Jadi, saat anda meningkatkan skala, pastikan tata kelola dan keamanan yang ada pada data terstruktur juga diterapkan pada data tidak terstruktur.

Gomstyn: Bagaimana dengan tantangan inti kedua: mencapai kinerja model AI generatif?

Nirmal: Ada peluang besar di sana karena AI generatif hanya bisa berhasil jika kita bisa memberikan data yang diatur dan tepercaya kepada model-model ini untuk pelatihan dan petunjuk.

Alat tata kelola juga memungkinkan akses ke data. Dengan menggunakan alat tata kelola seperti katalog data , saya dapat menyediakan data tidak terstruktur bagi para ilmuwan data dan insinyur agar mereka dapat melakukan prompt tuning model mereka menggunakan data tersebut.

Tata kelola dan inovasi berjalan beriringan. Jika Anda benar-benar berinovasi untuk menyediakan layanan data mandiri, maka tata kelola harus tersedia agar Anda dapat melakukan layanan mandiri. Dari perspektif produk data, membuat layanan mandiri data tersedia adalah elemen pertama yang harus Anda prioritaskan.

Mixture of Experts | 25 April, episode 52

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Gomstyn: Bagaimana Anda menavigasi tantangan ketiga dalam menghubungkan data terstruktur dan tidak terstruktur?

Nirmal: Lingkungan saat ini adalah jika Anda memiliki data tidak terstruktur dalam bentuk dokumen, Anda harus membagi atau membagi dokumen menjadi beberapa bagian dan menyimpannya sebagai menanamkan dalam basis data vektor .

Tantangan yang terjadi adalah Anda kehilangan akurasi karena Anda tidak tahu di mana Anda memotong data. Katakanlah Anda memotong atau memotong di tengah meja. Ketika Anda membawa meja kembali, Anda membawa setengah dari meja, dan Anda telah kehilangan keakuratannya.

Apa yang bisa kita lakukan? Kami tidak hanya menyimpan data dalam basis data vektor, tetapi juga mengambil aspek transaksional dari dokumen tersebut dan memasukkannya ke dalam basis data transaksional. Dan ketika Anda memiliki kueri bahasa alami, Anda membandingkan kedua belah pihak untuk mengatakan, bagaimana cara menyatukan data untuk mendapatkan akurasi dan kinerja yang lebih baik untuk itu? Di sinilah RAG SQL atau Graph RAG berperan — Anda dapat menggunakannya untuk meningkatkan tingkat akurasi. Intinya adalah memastikan korelasi data antara basis data transaksional dan basis data vektor.

Gomstyn: Apa saja keterampilan dan kompetensi paling penting yang harus dikembangkan oleh para pemimpin TI untuk mengelola data tidak terstruktur secara efektif?

Nirmal: Rekayasa data adalah bagian terpenting dalam sisi data yang tidak terstruktur. Di sisi terstruktur, rekayasa data adalah disiplin ilmu yang tertata dengan baik, namun di sisi tidak terstruktur, hal ini belum benar-benar berkembang karena ada banyak sekali data.

Tapi sekarang, pemerintahan, keamanan, dan hal-hal terkait masuk ke ranah yang tidak terstruktur. Kami membutuhkan insinyur data untuk benar-benar merekayasa data agar tersedia sebagai saluran data. Mereka juga harus membuat produk data dari data tidak terstruktur dan menyediakan layanan mandiri bagi setiap ilmuwan data dan insinyur. Keahlian insinyur data yang digunakan pada data terstruktur dapat diterapkan pada data tidak terstruktur, hanya saja dalam skala yang jauh lebih besar.

Gomstyn: Bagaimana Anda mengukur keberhasilan proyek percontohan data tidak terstruktur?

Nirmal: Pengembalian investasi yang sesungguhnya datang ketika ada nilai bagi pengguna akhir di perusahaan. Jadi, misalnya, saya menelepon perusahaan telepon saya, dan perwakilan pelanggan ada di telepon. Ketika saya mengajukan pertanyaan, mereka harus mencari jawabannya sebelum memberikannya kepada saya.

Sekarang, dengan AI generatif, saya bisa melakukannya secara online. Saya mengajukan pertanyaan sederhana kepada asisten atau chatbot yang dapat mengakses data tidak terstruktur seperti dokumen tagihan. Dalam 15 detik, saya mendapatkan jawaban yang merangkum tagihan atau informasi tentang akun saya. Waktu yang saya hemat sangat besar. Saya tidak perlu menunggu 15 menit untuk menelepon seseorang. Semua ada di ujung jari saya. AI generatif memudahkan saya sebagai pengguna akhir.

Ini semua tentang produktivitas, penghematan waktu, dan pengoptimalan yang didorong oleh AI generatif, terutama pada sisi data yang tidak terstruktur.

Wawancara ini telah diedit dan diringkas untuk kejelasan dan panjangnya.

Solusi terkait
Perangkat lunak dan solusi database

Gunakan solusi database IBM untuk memenuhi berbagai kebutuhan beban kerja di hybrid cloud.

Jelajahi solusi database
Database cloud native dengan IBM Db2

Jelajahi IBM Db2, database relasional yang menghadirkan kinerja tinggi, skalabilitas, dan keandalan untuk menyimpan dan mengelola data terstruktur. Database ini tersedia sebagai SaaS di IBM Cloud atau untuk hosting mandiri.

Jelajahi Db2
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Gunakan solusi database IBM untuk memenuhi berbagai kebutuhan beban kerja di hybrid cloud.

Jelajahi solusi database Jelajahi IBM Db2