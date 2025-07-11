11 Juli 2025
Pada tanggal 11 Juni 2025, IBM meluncurkan ketersediaan pendekatan barunya untuk integrasi data: watsonx.data integration. Solusi ini menawarkan bidang kontrol tunggal untuk membuat batch, streaming real-time, dan pipeline replikasi data, yang didukung oleh observabilitas bawaan.
Dalam solusi yang sama, tim dapat membangun pipeline data tidak terstruktur yang dapat digunakan kembali bersama data yang terstruktur, membuka tambang emas data yang sebelumnya tidak dapat diakses untuk mendukung contoh penggunaan baru dan memenuhi tuntutan lingkungan data modern yang berkembang. Dengan kemampuan integrasi data tak terstruktur (UDI) dari watsonx.data integration, pengguna dapat secara intuitif membangun pipeline yang menyerap, mengubah, dan memproses volume besar data tidak terstruktur—termasuk dokumen, PDF, PPT, dan banyak lagi—hanya dalam hitungan menit.
Produk ini menggabungkan terobosan sumber terbuka dan inovasi langsung dari IBM Research. Beberapa fitur produk terbaik di kelasnya meliputi:
Dirancang untuk menangani data perusahaan yang secara tradisional kurang dimanfaatkan, watsonx.data integration menandai langkah maju yang besar dalam mengoptimalkan data tidak terstruktur untuk AI dan analitik.
Sebagian besar data publik sudah terwakili dengan baik dalam model dasar saat ini—sehingga keunggulan kompetitif nyata berasal dari memanfaatkan data perusahaan Anda. Namun 90% data perusahaan tidak terstruktur, volume informasi yang luar biasa masih belum dimanfaatkan, dari dokumen dan PDF hingga email, gambar, dan log—sebagian besar tetap berada di luar jangkauan analitik tradisional dan alur kerja AI. Dan karena kompleksitas akses dan manajemen, hanya 1% saat ini digunakan dalam AI generatif.
Pelajari lebih lanjut tentang tantangan pendekatan data tidak terstruktur tradisional. IBM watsonx.data integration dan ekosistem alatnya yang lebih luas dirancang untuk mengatasi tantangan ini secara langsung. Di bawah ini adalah fitur utama dari kemampuan UDI yang membantu organisasi menghadapi lingkungan data yang berkembang pesat saat ini.
Solusi ini mencakup konektor bawaan yang memungkinkan pengguna untuk menyerap berbagai sumber data dan format yang umum digunakan—bersama dengan metadata dan kontrol akses terkait—dalam skala besar dan seiring perkembangannya. Meskipun beberapa konektor tidak terstruktur ada di pasaran, hanya sedikit yang dapat beradaptasi secara dinamis karena dokumen atau izin berubah seiring waktu.
Dikembangkan bekerja sama dengan IBM, watsonx.data integration menggabungkan inovasi dengan teknologi sumber terbuka terkemuka untuk membawa pemrosesan data tidak terstruktur ke dalam pipeline data modern. Kanvas visualnya mencakup operator yang dibuat khusus untuk teks dan modalitas lainnya—mencakup penyembunyian informasi identifikasi pribadi (PII), deteksi, penyaringan kualitas, deteksi bahasa, dan penilaian kepercayaan diri. Pengembang dapat merancang pipeline tunggal untuk memproses beragam jenis file dalam skala besar—tanpa menulis atau menyimpan kode khusus. Sama seperti seret dan lepas ELT untuk data terstruktur, watsonx.data integration menghadirkan pengalaman yang sama, no-code ke data yang tidak terstruktur dan juga mengandalkan SDK Python yang berfungsi penuh bagi mereka yang lebih suka bekerja lebih terprogram.
Selain itu, operator bawaan untuk penyematan, chunking, dan vektorisasi memungkinkan pengguna untuk mengubah dokumen mentah menjadi representasi terstruktur yang dioptimalkan untuk AI hilir. Operator ini secara otomatis mengubah konten tidak terstruktur menjadi vektor yang bermakna secara semantik, memungkinkan contoh penggunaan seperti RAG, klasifikasi dokumen, dan pencarian cerdas—semuanya tanpa memerlukan keahlian machine learning (ML) yang mendalam.
Dukungan untuk integrasi data yang tidak terstruktur ini dirancang untuk memproses konten berukuran petabyte yang kompleks dan tidak terstruktur secara efisien. Dokumen sebesar 10MB atau lebih—di ribuan file—dikompresi ke dalam format terpadu dengan kinerja tinggi, memungkinkan pemrosesan dan pemrosesan ulang yang cepat. Arsitektur ini dibuat khusus untuk memenuhi tuntutan data tidak terstruktur skala perusahaan.
Pipeline mendukung struktur data yang memperbarui diri secara mandiri. Ketika dokumen sumber—katakanlah, “Dokumen A”—diperbarui ke versi baru, hanya delta yang direkam dan disebarkan dengan lancar ke hilir, termasuk ke basis data vektor. Tindakan ini memastikan bahwa ribuan pipeline dalam skala besar tetap terkini tanpa perlu pemrosesan ulang penuh.
Dukungan native untuk ACL memastikan bahwa izin tingkat dokumen dipertahankan di seluruh pipeline data. Ini berarti pengguna hanya mengakses data yang diizinkan untuk dilihat—penting untuk menjaga keamanan, kepatuhan, dan kepercayaan karena data tidak terstruktur mengalir di seluruh tim dan aplikasi.
Pada akhirnya, tidak ada organisasi tunggal yang dapat memperbaiki masalah yang disebutkan di atas tanpa konteks. Dukungan watsonx.data integration untuk UDI dibangun sesuai dengan infrastruktur fleksibel yang didasarkan pada alat sumber terbuka modern. Di bawah ini adalah komponen teknis inti yang membentuk fondasi ini.
Dukungan watsonx.data integration untuk UDI dikembangkan sebagai tanggapan atas pengalaman IBM membangun keluarga model dasar Granite. Pengolahan dan persiapan 12 triliun token yang digunakan untuk melatih Granite mengungkap celah penting dalam alat data tidak terstruktur yang ada. Sebagai tanggapan, IBM Research menciptakan Data Prep Kit (DPK) dan Data and Model Factory (DMF)—kerangka kerja modular yang menawarkan operator pembersihan yang kuat di seluruh modalitas seperti teks, kode, bahasa, dan gambar. Komponen yang telah diuji ini sekarang dikemas ke dalam watsonx.data integration, dirancang untuk contoh penggunaan dengan throughput tinggi. Hari ini, DPK telah bersumber terbuka melalui Linux Foundation, melanjutkan misi IBM untuk mendemokratisasikan akses ke alat data tak terstruktur canggih.
Dukungan integrasi watsonx.data untuk UDI juga menggabungkan Watson Document Understanding dan Docling, sebuah inisiatif sumber terbuka IBM dengan lebih dari 30K bintang GitHub, untuk memberikan penguraian dokumen dan ekstraksi entitas yang canggih. Teknologi ini unggul dalam tugas ekstraksi yang kompleks—termasuk ekstraksi tabel—dengan kecepatan dan akurasi yang terdepan di industri.
Apakah Anda lebih suka opsi sumber terbuka seperti Milvus dan atau basis data vektor terkelola, UDI watsonx.data integration menawarkan opsi dukungan. Pipeline vektorisasi tertanam secara native di platform, memungkinkan penerapan cepat ke solusi penyimpanan pilihan Anda untuk beban kerja RAG dan pencarian semantik.
Integrasi IBM watsonx.data secara aktif menguji coba integrasi dengan Langchain dan kerangka kerja orkestrasi sumber terbuka populer lainnya—membawa peningkatan nyata inovasi berbasis komunitas ke dalam platform. Integrasi ini memungkinkan orkestrasi keseluruhan lapisan dari fungsi yang dibangun atau dimanfaatkan melalui Langchain langsung dalam pipeline native watsonx.data integration, sambil mempertahankan tata kelola, keamanan, dan skalabilitas berstandar perusahaan yang diperlukan untuk penggunaan produksi.
Dengan IBM watsonx.data integration, klien dapat mengoptimalkan potensi penuh data tidak terstruktur melalui kombinasi kuat antara inovasi sumber terbuka dan teknologi perusahaan. Dari pembuatan konten yang dipersonalisasi hingga agregasi faktur dan pengambilan keputusan, UDI mengubah konten mentah menjadi insight siap AI—sekarang tersedia sebagai bagian dari IBM watsonx.data integration.
Yang membedakan penawaran ini adalah kemampuannya untuk menyatukan data terstruktur dan tidak terstruktur dalam satu platform—yang menyederhanakan pembuatan pipeline dan penyebaran alat, sehingga mempercepat hasil. Tidak peduli contoh penggunaannya, watsonx.data integration adalah dasar untuk mendapatkan nilai bisnis dari semua data Anda.