AI dan masa depan data tidak terstruktur

Insinyur di ruang Server

Data adalah bahan bakar yang membuat mesin AI berjalan mulus. Dan banyak perusahaan yang tidak memanfaatkan sepenuhnya harta karun berupa data tak terstruktur yang ada di ujung jari mereka karena mereka tidak tahu bagaimana cara mengisi tangki tersebut.

Itulah sebabnya bisnis yang memiliki alat untuk memproses data tidak terstruktur menarik perhatian investor. Baru bulan lalu, Salesforce melakukan akuisisi besar untuk memperkuat platform Agentforce-nya—salah satu dari sekian banyak investasi terbaru mereka dalam penyedia pengelolaan data tidak terstruktur.

Gen AI telah meningkatkan pentingnya data tidak terstruktur, yaitu dokumen, untuk RAG serta penyetelan LLM dan analitik tradisional untuk machine learning, intelijen bisnis, dan rekayasa data,” kata Edward Calvesbert, Wakil Presiden Manajemen Produk di IBM® watsonx dan salah satu pakar data residen IBM®. “Sebagian besar data yang dihasilkan setiap hari tidak terstruktur dan menghadirkan peluang baru terbesar.”

Kami ingin mempelajari lebih lanjut tentang apa yang dimiliki data tidak terstruktur untuk AI. Jadi kami duduk bersama Calvesbert dan Dave Donahue, Kepala Strategi untuk perusahaan ilmu data Unstructured, yang menutup putaran investasi senilai 40 juta USD dengan IBM®, Nvidia dan Databricks pada bulan Maret, untuk mendapatkan pandangan mereka tentang pentingnya data tidak terstruktur, dan ke mana arahnya selanjutnya.

T: Apakah data perusahaan yang tidak terstruktur lebih berharga daripada data terstruktur saat menerapkan AI?

Edward Calvesbert, IBM®: Data tidak terstruktur—bahasa, gambar, dan setera—adalah data “baru” yang diberi makan model dasar dan dapat membantu menafsirkan, jadi itulah yang menjadi fokus saat ini. Namun seperti halnya data terstruktur, data tidak terstruktur tetap perlu dikelola—harus diklasifikasikan, dicek kualitasnya, dibersihkan dari PII dan konten yang tidak layak, serta dideduplikasi—sehingga strategi yang baik akan memakai banyak kemampuan pendekatan tradisional pengelolaan data terstruktur untuk menangani data tidak terstruktur.

Dave Donahue, Tidak terstruktur: Data tidak terstruktur secara inheren tidak lebih berharga daripada data terstruktur, tetapi secara umum, organisasi besar menghasilkan data tidak terstruktur empat kali lebih banyak daripada data terstruktur. Jadi pertanyaannya adalah, apakah Anda ingin menggunakan lebih banyak data Anda, dan terutama data tidak terstruktur yang dihasilkan manusia, saat menerapkan AI? Jawabannya harus “Ya.”

T: Agar AI berhasil, jelas membutuhkan data yang “baik”. Tapi seperti apa itu dalam praktiknya?

Calvesbert: “Cukup baik” adalah target yang bergerak dan bergantung pada contoh penggunaan. Basis pengetahuan untuk RAG untuk meningkatkan pencarian semantik, Q & A dan ringkasan untuk agen dukungan pelanggan membutuhkan basis pengetahuan dokumen menjadi lengkap, akurat, dan segar. Data untuk menyempurnakan model memerlukan satu set contoh pasangan prompt/respons yang dikurasi manusia. Dokumen yang diproses menjadi tabel atau database grafik untuk mendorong contoh penggunaan analitis memerlukan ekstraksi entitas atau nilai yang efektif. Dalam hampir semua kasus, data perlu diklasifikasikan, disaring, dan diatur dalam konteks siklus hidup contoh penggunaan.

Donahue: Di tingkat perusahaan atau perusahaan, data “baik” bersih, terstruktur, dan diperkaya. Pipeline pra-pemrosesan ini harus meminimalkan kehilangan informasi antara konten asli dan versi LLM-ready. Platform Unstructured membantu perusahaan menata data tidak terstruktur menjadi format standar dan menambahkan metadata untuk meningkatkan kualitas informasinya. Solusi ini membantu organisasi mengurangi tiga tantangan besar dalam penggunaan LLM: model berhenti pada pengetahuan tertentu, sering menciptakan informasi yang tidak akurat, dan sama sekali tidak memahami konteks organisasi Anda sejak pertama kali digunakan.

T: Bisakah Anda memandu kami melalui contoh penggunaan di mana sebuah perusahaan sedang duduk di tambang emas data tidak terstruktur, tetapi belum menemukan cara memanfaatkannya dengan AI? Apa perbedaan yang dibuat oleh penerapan AI?

Calvesbert: Klien telekomunikasi utama yang bekerja dengan kami memulai dengan basis pengetahuan internal untuk agen dukungan pelanggan, yang mengurangi waktu yang diperlukan untuk mendapatkan jawaban kepada klien dan meningkatkan keakuratan jawaban itu. Hal ini menyebar secara organik, seperti api, di dalam pusat panggilan, di mana pada saat itu perusahaan harus mundur dan mulai memperbaiki tata kelola dan kinerja harga. Di dalam, kami telah menerapkan contoh penggunaan Otomatisasi di mana pedoman dan contoh merek IBM dicerna untuk menghasilkan konten pemasaran baru dan mengkurasi untuk kualitas dan nada yang konsisten.

Donahue: Kami bekerja sama dengan perusahaan barang kemasan konsumen global untuk membantu mereka mengembangkan ide-ide produk baru. Anda mungkin bertanya, "Apa hubungannya dengan data yang tidak terstruktur?" Secara historis, tim pemasaran dan produk membutuhkan waktu berbulan-bulan untuk menganalisis data penjualan yang menggunung, informasi masukan produk, dan informasi demografis untuk menghasilkan ide atau konsep baru yang dapat mereka uji dengan pengguna akhir di pasar-pasar tertentu. Bagaimana jika kita bisa membantu mengambil proses itu dari bulan ke jam? Bagaimana jika kita dapat menghasilkan ide-ide baru untuk produk yang didasarkan pada data yang dapat diuji oleh tim dengan cepat?

Itulah kekuatan memanfaatkan data tidak terstruktur Anda untuk menciptakan nilai bisnis. Sekarang, perusahaan CPG itu memanfaatkan data mereka di beberapa merek mereka untuk mengembangkan dan menguji ide-ide produk baru untuk dibawa ke pasar.

T: Jika sebuah perusahaan tidak memiliki cukup data tidak terstruktur, dapatkah mereka masih menerapkan AI? Apa yang harus dilakukan langkah selanjutnya?

Calvesbert: Setiap perusahaan memiliki dokumen—pikirkan apa yang mereka berikan kepada karyawan baru untuk mereka—dan itu cukup untuk Memulai penggunaan RAG dan pencarian semantik.

Donahue 80% data perusahaan tidak terstruktur, apakah itu email, memo, platform pesan internal (seperti Slack atau Microsoft Teams) atau presentasi bisnis. Pertanyaannya adalah, apa yang ingin Anda lakukan dengan data itu? Menciptakan efisiensi bagi para insinyur yang saat ini melakukan pekerjaan pembersihan data serupa? Mengembangkan ide produk baru berdasarkan data penjualan dan pemasaran? Ada banyak kemungkinan dan peluang untuk AI. Identifikasi tujuan. Identifikasi data yang diperlukan. Mulailah dari yang kecil.

T: Pernahkah Anda melihat tren menarik dalam manajemen data dan data selama setahun terakhir?

Calvesbert: Menurut saya, arsitektur lakehouse dan format tabel terbuka seperti Iceberg kini sudah masuk arus utama dan menjadi pendekatan manajemen data yang paling banyak dipakai untuk kebutuhan data atau workload baru. Kemampuan vektor telah dihadirkan secara native di banyak basis data operasional/analitik sehingga beban kerja gen AI dapat menanamkan ke dalam aplikasi yang sudah ada. Kami mulai melihat industri menyadari bahwa RAG saja tidak akan cukup untuk contoh penggunaan perusahaan tertentu yang memerlukan kontekstualisasi tambahan berdasarkan hubungan yang tidak jelas (GraphRAG) dan peningkatan presisi dari catatan transaksional (SQL-RAG). Klien juga menyadari bahwa menerapkan model otorisasi pengguna yang menghormati kontrol akses yang ada dengan sistem manajemen konten perusahaan merupakan tantangan penting untuk diatasi untuk menskalakan gen AI di seluruh perusahaan.

Donahue: Kami mulai melihat tim teknik ilmu data dan machine learning bekerja lebih erat dengan tim rekayasa data. Tim rekayasa data telah tumbuh di sekitar munculnya aplikasi pergudangan data dan intelijen bisnis selama dekade terakhir dan secara historis telah beroperasi di dunia SQL, basis data terstruktur, dan proses analisis bisnis yang dirancang untuk analis data dan konsumen C-suite. Ketika perusahaan telah bersandar pada LLM, selera untuk volume besar data yang telah diproses telah meledak. Namun, konsumen ini cenderung beroperasi di dunia Python, basis data vektor dan antarmuka pengguna yang cepat dan sekali pakai. Seiring waktu, kami mengharapkan tim rekayasa data yang matang untuk semakin bertanggung jawab untuk memasok tim gen AI dengan data siap perusahaan.

T: Apa prediksi Anda untuk tren data pada tahun 2025 dan seterusnya?

Calvesbert: Saya pikir klien ingin menyederhanakan lingkungan data mereka dan biaya serta risiko terkait. Untuk itu, basis data multi-model dan arsitektur rumah danau multi-mesin akan Lanjutkan bersaing untuk beban kerja dengan basis data yang tersilo karena klien ingin berkonsolidasi pada jumlah platform data yang berkurang. Model text-to-SQL menjadi semakin baik, yang secara dramatis akan mengurangi hambatan untuk bekerja dengan data untuk berbagai contoh penggunaan di luar intelijen bisnis.

Demikian pula, proliferasi agen akan menanamkan data ke dalam volume yang meledak dan berbagai alur kerja otomatis. Beberapa alur kerja agen ini akan merevolusi banyak aktivitas pekerja pengetahuan dan menciptakan peluang baru yang menarik. Bayangkan Anda memproses percakapan, baik dari tim internal maupun dari klien, lalu sistem dapat langsung menghubungkannya ke produk di katalog atau opportunity di CRM, sekaligus melakukan penilaian otomatis tentang sejauh mana peluang tersebut telah berkembang dan seberapa besar kemungkinan akan deal.

Donahue: Berbeda dengan tumpukan data modern, di mana Snowflake, BigQuery dan Databricks menetapkan “gravitasi data” di ruang pergudangan data, kami belum melakukan hal yang sama untuk data yang tidak terstruktur. Dan karena mereka empat kali lebih banyak dari data terstruktur dan tumbuh secara eksponensial setiap tahun, taruhannya tidak bisa lebih tinggi untuk solusi penyimpanan generasi berikutnya untuk LLM. Juri masih belum mengetahui kombinasi vektor, grafik, objek atau jenis penyimpanan lainnya yang akan menjadi dominan, dan vendor mana di setiap kategori yang akan menang, tetapi pemenang kemungkinan akan jelas dalam 18 hingga 24 bulan ke depan.

Penulis

Antonia Davison

Staff Writer

Pemandangan dari atas seorang pengusaha yang menggunakan ponsel di halaman kantor

Insight bermanfaat yang sayang untuk dilewatkan. Berlangganan buletin kami.

Melampaui hype dengan berita pakar tentang AI, komputasi quantum, cloud, keamanan, dan banyak lagi.

Berlangganan hari ini