Apa itu pengambilan data?

Pengambilan data, definisi

Data retrieval adalah proses mengakses informasi siap pakai dari sumber data.

 

Secara tradisional, istilah pengambilan data mengacu pada penggunaan bahasa kueri untuk mengambil data terstruktur dari basis data. Namun, seiring dengan meningkatnya volume data dan kemajuan teknologi, istilah ini telah dikaitkan dengan pengambilan berbagai jenis data, baik terstruktur maupun tidak terstruktur.

Pengambilan data digunakan oleh organisasi untuk memanfaatkan koleksi data yang semakin kaya, baik dalam sistem mereka sendiri maupun dari repositori pihak ketiga. Melalui alat pengambilan data, pengguna perusahaan, peneliti, dan pihak lainnya dapat menemukan jawaban atas pertanyaan dan menemukan titik data kunci dari sumber yang sulit, atau bahkan menghalangi, untuk diakses melalui pendekatan manual.

Setelah sebelumnya terbatas pada pencarian basis data yang masih sederhana, sistem pengambilan data saat ini sering ditingkatkan dengan teknologi otomatisasi dan kecerdasan buatan (AI) yang dapat mengelola permintaan data yang kompleks, terhubung ke lebih banyak basis pengetahuan, dan secara dinamis mengoptimalkan eksekusi kueri. Machine learning, pemrosesan bahasa alami, dan Retrieval-Augmented Generation (RAG) (RAG) membantu meningkatkan akurasi dan relevansi data yang diberikan sebagai tanggapan atas pertanyaan.

Mengapa pengambilan data penting?

Pengambilan keputusan cerdas terjadi ketika organisasi dapat mengambil insight dari data berkualitas tinggi.

Namun, sebelum analisis dapat dilakukan, organisasi harus terlebih dahulu mengakses data tersebut. Tugas ini bisa sangat menantang ketika data berada dalam kumpulan data besar atau data estate, seperti basis data riset yang luas atau penyimpanan multicloud hybrid.

Pertumbuhan data yang eksplosif semakin mengintensifkan tantangan ini: lebih dari 400 juta terabyte data dibuat setiap hari, menurut beberapa perkiraan, sementara perusahaan sendiri sering mengelola satu petabyte data atau lebih.1

Kemajuan dalam kecerdasan buatan juga telah mengubah kebutuhan data perusahaan. Alur kerja AI memerlukan akses data yang cepat, termasuk akses ke data tidak terstruktur dalam volume besar.

Secara historis, proses pengambilan data berfokus pada kueri dari sumber terstruktur seperti sistem manajemen basis data relasional. Namun, alih-alih menggunakan pendekatan manual yang memakan waktu untuk menyisir sumber data internal dan eksternal yang masif saat ini, organisasi beralih ke pengambilan data modern. Pendekatan ini menggunakan teknologi seperti basis data vektor dan generasi dengan dukungan pengambilan data untuk memenuhi permintaan data yang berada di luar basis data relasional internal.

RAG agen, khususnya, telah terbukti sangat kuat dalam memenuhi permintaan ini. David Levy, Insinyur Teknologi Penasihat untuk Client Engineering di IBM®, menjelaskan kemampuan RAG agen dalam presentasi untuk IBM® Technology.

“RAG agen adalah evolusi dalam cara kami meningkatkan pipeline RAG, dengan bergerak melampaui pembuatan respons sederhana menuju pengambilan keputusan yang lebih cerdas. Dengan mengizinkan agen untuk memilih sumber data terbaik dan bahkan berpotensi memasukkan informasi eksternal, seperti data real-time atau layanan pihak ketiga, kami dapat membuat pipeline yang lebih responsif, lebih akurat, dan lebih mudah beradaptasi,” kata Levy.

Hasilnya? Perusahaan dan organisasi lain dapat memperoleh manfaat yang lebih besar dari data perusahaan mereka sendiri, baik yang terstruktur maupun tidak terstruktur, serta dari volume data yang terus bertambah yang dihasilkan di luar ekosistem mereka. Mereka diberdayakan untuk mengakses data tepat yang mereka butuhkan pada saat mereka membutuhkannya, sehingga memungkinkan analisis dan insight berbasis data yang mendorong hasil bisnis yang lebih baik.

Pengambilan data vs. pengambilan informasi vs. penambangan data

Istilah pengambilan data dan pengam bilan informasi (IR) sering digunakan secara berganti-ganti—dan untuk alasan yang baik.

Meskipun keduanya secara tradisional dikaitkan dengan berbagai jenis data (data terstruktur untuk pengambilan data; data tidak terstruktur untuk IR), perkembangan dalam ilmu data telah mengaburkan perbedaan tersebut. Pengambilan data kini tidak hanya mencakup data yang tidak terstruktur, tetapi beberapa sistem IR juga memungkinkan “pengambilan dokumen terstruktur” (melalui penggunaan XML untuk mengindeks dokumen teks).

Bisa dibilang, perbedaan yang lebih menonjol antara keduanya terlihat dalam jenis hasil yang dihasilkan oleh masing-masing. Pengambilan data berfokus pada pengembalian kecocokan yang tepat terhadap kueri pengguna, sementara sistem IR, yang membentuk tulang punggung mesin pencari web, memberikan beberapa hasil (seperti halaman web) yang diberi peringkat berdasarkan relevansi informasinya.

Baik pengambilan data maupun pengambilan informasi juga terkadang digabungkan dengan penambangan data. Namun, di sini perbedaannya jelas: sementara pengambilan data dan IR berfokus pada mengakses dan mengirimkan data, penambangan data memerlukan pengungkapan pola dan insight dari data. Dengan kata lain, penambangan data mencakup analisis, bukan hanya pengambilan. Selain itu, penambangan data diterapkan pada kumpulan data besar, sementara pengambilan data dan IR dapat digunakan untuk kumpulan data dalam berbagai ukuran.

Pendekatan pengambilan data tradisional

Metode pengambilan data dapat dibagi menjadi dua kategori: teknik tradisional dan teknik AI.2 Teknik tradisional meliputi:

  • Menggunakan bahasa query
  • Pengindeksan
  • Pengoptimalan kueri

Menggunakan bahasa kueri

Data diambil dari sistem manajemen basis data klasik (DBMS) melalui bahasa kueri. Bahasa kueri yang paling menonjol adalah bahasa kueri terstruktur, atau SQL, yang digunakan untuk basis data relasional. Pengguna menerapkan perintah SQL untuk mengambil data dan menyelesaikan tugas lain, termasuk penambahan, pembaruan, dan penghapusan.

Pengindeksan

Pengindeksan adalah pembuatan struktur data yang dapat dicari yang mengarah ke catatan data dalam tabel yang lebih besar. Operasi pencarian dapat memindai indeks alih-alih seluruh tabel, sehingga menghasilkan pemrosesan kueri yang lebih cepat dan lebih efisien.

Pengoptimalan kueri

Dalam sistem manajemen basis data, alat optimasi kueri meningkatkan kinerja kueri dengan memilih opsi yang paling efisien di antara berbagai rencana kueri, atau berbagai cara untuk menjalankan kueri. Pengoptimal memutuskan, misalnya, apakah indeks harus digunakan, cara untuk membaca tabel, dan, ketika penggabungan diminta, urutan tabel yang akan digabungkan.

Teknik-teknik mapan ini telah terbukti efektif untuk mengambil data terstruktur dan mendukung operasi pencarian dasar, tetapi teknik-teknik tersebut juga diketahui gagal di berbagai bidang, termasuk mengambil data yang tidak terstruktur, menjalankan kueri kompleks, menangkap makna semantik, mendukung skalabilitas, dan memberikan hasil secara real-time.3

Teknik AI untuk pengambilan data

Teknik berbasis AI untuk pengambilan data membantu mengompensasi kekurangan teknik pengambilan data tradisional, meningkatkan kinerja kueri, dan memperbaiki pengalaman pengguna.4

Teknologi pengambilan data AI utama meliputi:

  • Pencarian vektor
  • Machine learning dan pembelajaran mendalam
  • Pemrosesan bahasa alami
  • Generasi dengan dukungan pengambilan data dan RAG agen

Pencarian vektor

Dalam basis data vektor, berbagai jenis data, termasuk teks dan gambar, disimpan sebagai representasi numerik yang dikenal sebagai penyematan vektor. Vektor penyematan yang memiliki dimensi serupa dikelompokkan bersama. Selama pencarian vektor, sistem mengambil data dan dokumen yang relevan berdasarkan penyematan vektor yang mirip dengan istilah pencarian. Pencarian semacam itu biasanya bergantung pada algoritma tetangga terdekat yang menyimpulkan koneksi antara titik data berdasarkan kedekatannya.

Machine learning (ML) dan pembelajaran mendalam

Algoritma machine learning yang dilatih pada data historis dan perilaku pengguna dapat memberikan rekomendasi kueri kepada pengguna berdasarkan pola kueri umum, lalu menampilkan data yang relevan. Selain itu, subset machine learning yang dikenal sebagai pembelajaran mendalam dapat membantu mengambil data yang tidak terstruktur. Misalnya, Neural Networks (CNNs) Power mendukung computer vision, yang dapat digunakan untuk mencari file gambar dan video.5

Pemrosesan bahasa alami

Pemrosesan bahasa alami, atau NLP, memungkinkan kueri penelusuran yang mudah digunakan dengan memungkinkan pengguna membuat kueri secara percakapan, daripada menyusunnya sebagai perintah bahasa penelusuran. Kemudian, alih-alih hanya mengandalkan pencocokan kata kunci, mesin pencari bertenaga NLP dapat terlibat dalam pencarian semantik: mesin pencari tersebut mengidentifikasi hasil yang relevan yang mencerminkan maksud kueri, bahkan jika istilah pencarian yang tepat tidak ada dalam dokumen.

Generasi dengan dukungan pengambilan data dan RAG agen

Generasi dengan dukungan pengambilan data menghubungkan model bahasa besar ke basis pengetahuan eksternal menggunakan antarmuka pemrograman aplikasi, atau API. Hal ini memungkinkan sistem untuk mengambil informasi yang spesifik domain dan tepat waktu.

Sistem RAG agen menambahkan kemampuan canggih ke RAG tradisional, dengan penalaran agen yang secara dinamis mengoptimalkan kueri dan meningkatkan kinerja pengambilan data. Komponen utama sistem agentic RAG meliputi:

  • Kemampuan pencarian inti: Pengambilan data didukung oleh pendekatan pengambilan data tradisional dan berbasis AI, termasuk pengindeksan serta kombinasi pencarian kata kunci dan pencarian vektor (dikenal sebagai pencarian hybrid).
  • Caching semantik: Sistem RAG agen dapat menyimpan dan merujuk pada kumpulan kueri, konteks, dan hasil sebelumnya. Memori ini dapat memberikan informasi bagi pencarian baru, sehingga menghasilkan hasil yang lebih relevan dan dipersonalisasi.
  • Pemotongan cerdas berbasis agen: Pemotongan cerdas berbasis agen membagi input teks berukuran besar menjadi blok-blok (potongan kecil) yang tetap memiliki keterkaitan makna, lalu menyimpannya dalam basis data vektor. Koherensi semantiknya memungkinkan sistem untuk mengambil jawaban yang lebih lengkap dan berkualitas lebih tinggi untuk pertanyaan.
  • Agen perutean: Agen perutean menentukan sumber dan alat pengetahuan eksternal mana yang paling tepat untuk menangani permintaan pengguna.
  • Agen perencanaan kueri: Agen perencanaan kueri memecah kueri pengguna yang kompleks menjadi proses langkah demi langkah dan mengirimkan subkueri yang dihasilkan ke agen lain dalam sistem RAG. Setelah agen tersebut memberikan jawaban masing-masing, agen perencanaan kueri menggabungkannya menjadi respons yang kohesif.
AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Contoh penggunaan pengambilan data

Teknik dan solusi pengambilan data dapat meningkatkan akses data dan manajemen data di berbagai industri dan disiplin ilmu.

Pelayanan Kesehatan

Sebuah penyedia layanan untuk fasilitas kesehatan menggunakan pemrosesan bahasa alami dan generasi dengan dukungan pengambilan data untuk mempercepat pengambilan data bisnis penting hingga 90%.

Layanan keuangan

Sebuah perusahaan fintech menggunakan chatbot layanan pelanggan bertenaga RAG yang mengambil informasi real-time, , sehingga mengurangi waktu interaksi rata-rata hingga 80% dibandingkan dengan pusat panggilan tradisional.

E-commerce

Perusahaan e-commerce memungkinkan pembeli untuk mengunggah foto-foto yang ingin mereka beli, dan solusi pencarian yang didukung oleh visi komputer mengambil informasi tentang produk yang mirip dengan yang digambarkan.

Tantangan pengambilan data

Ketika perusahaan mengeksplorasi solusi pengambilan data, penting untuk mempertimbangkan tantangan potensial.

Kualitas data

Ketika perusahaan semakin berhasil dalam mengambil data, mereka mungkin menemukan bahwa sebagian data tersebut penuh dengan celah dan kesalahan. Praktik manajemen kualitas data, seperti pembuatan profil data dan pembersihan data, dapat membantu organisasi mengoptimalkan kumpulan data untuk akurasi, kelengkapan, konsistensi, dan dimensi kualitas lainnya.

Keamanan

Menerapkan kemampuan pengambilan data yang ditingkatkan dapat berisiko tanpa langkah-langkah keamananyang tepat untuk memastikan data sensitif tidak dapat diambil oleh pihak yang salah. Platform data yang diatur dapat menyertakan kontrol keamanan, identitas, dan akses bawaan untuk mencegah akses yang tidak sah dan mendukung kepatuhan terhadap peraturan.

Vendor lock-in

Solusi data eksklusif sering menggabungkan pengambilan data, orkestrasi, dan model AI ke dalam sistem tertutup, sehingga membatasi organisasi pada tumpukan teknologi yang dikendalikan vendor. Solusi data sumber terbuka yang menampilkan fitur RAG agen dan teknologi lainnya memberikan alternatif, yang memungkinkan perusahaan memiliki lebih banyak kontrol atas tumpukan teknologi mereka dan fungsi manajemen data.

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Solusi terkait
IBM® watsonx.data Pencarian AI Perusahaan

Dapatkan jawaban yang dapat Anda percayai dengan agen AI sadar konteks yang didukung oleh data yang diatur dan terhubung—tanpa replatform atau penguncian.

Temukan watsonx.data AI Enterprise Search
Perangkat lunak dan solusi manajemen data

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Temukan solusi manajemen data
Layanan konsultasi data dan AI

Skalakan AI dengan sukses dengan menyiapkan strategi, data, keamanan, dan tata kelola yang tepat.

Jelajahi layanan konsultasi data dan AI
Ambil langkah selanjutnya

Berikan jawaban tepercaya dan sesuai konteks dari seluruh organisasi Anda dengan AI agen yang didukung oleh data bisnis yang terkoneksi dan terkendali.

  1. Temukan watsonx.data AI Enterprise Search
  2. Jelajahi solusi manajemen data
Catatan kaki

1 “AI & Laporan Manajemen Informasi. AvePoint. Tahun 2024.

2, 3, 4, 5 “AI untuk Pengambilan Data yang Cerdas. Kemajuan dalam Komputasi Cerdas dan Aplikasi. 15 Agustus 2025.