Apa itu basis data vektor RAG?

Basis data vektor RAG, didefinisikan

Database basis data vektor Retrieval-Augmented Generation (RAG) menggabungkan AI dengan pencarian lanjutan, memungkinkan large language models (LLM) untuk mengambil informasi yang relevan secara real time dan menghasilkan respons yang lebih akurat dan sadar konteks.

Basis data vektor RAG terdiri dari dua komponen utama: arsitektur pengambilan (RAG) dan lapisan data (basis data vektor).

Apa itu RAG?

RAG adalah arsitektur yang menghubungkan model bahasa ke sumber pengetahuan eksternal, memungkinkannya untuk mengambil informasi yang relevan dan memasukkan konteks itu ke dalam tanggapannya pada waktu kueri. Pendekatan ini membahas keterbatasan umum LLM, termasuk batas pengetahuan, halusinasi, dan kurangnya spesifisitas domain.

Apa itu basis data vektor?

Basis data vektor (atau DB vektor) menyimpan dan mengambil data sebagai representasi numerik yang disebut penyematan vektor, yang memungkinkan pencarian berdasarkan kemiripan semantik, bukan pencocokan kata kunci yang tepat. Proses ini memungkinkan sistem untuk mengambil informasi berdasarkan makna, bahkan ketika frasa berbeda.

Keuntungan kinerja teknologi ini dapat diukur. Ketika Wikimedia Deutschland perlu membuat grafik pengetahuan 120 juta entri Wikidata dapat diakses oleh LLM, mereka memilih DataStax Astra DB di IBM watsonx.data sebagai basis data vektor mereka. Hasilnya: kecepatan kueri 30 kali lebih cepat dibandingkan dengan komputasi vektor lokal dan pengurangan 90% dalam waktu pengembangan, membebaskan tim untuk fokus pada pembangunan daripada memelihara infrastruktur.

Dalam sebagian besar implementasi RAG, sistem RAG bergantung pada basis data vektor atau teknik pengindeksan vektor untuk memungkinkan pencarian semantik. Namun demikian, pencarian vektor tidak sepenuhnya diperlukan. Arsitektur RAG juga dapat menggabungkan pencarian kata kunci, kueri terstruktur atau pendekatan hibrida tergantung pada contoh penggunaan.

Mengapa basis data vektor RAG penting

Basis data vektor RAG mendefinisikan kembali bagaimana pembelajaran mesin dan sistem AI generatif (gen AI) mengakses dan menerapkan informasi. Alih-alih memperlakukan pengetahuan sebagai sesuatu yang tetap di dalam model, mereka memperlakukannya sebagai sesuatu yang dapat diambil secara dinamis, dievaluasi, dan digunakan dalam konteks.

Pergeseran ini memiliki implikasi di empat bidang utama: pengetahuan, pengambilan informasi, penguatan informasi, dan Operasi.

Pengetahuan

Bahkan model yang paling canggih pun dibatasi oleh data pelatihan. Seiring bertambahnya usia data atau ketika contoh penggunaan menjadi lebih terspesialisasi, kesenjangan mulai muncul.

RAG mengatasi hal ini dengan memperkenalkan apa yang sering digambarkan oleh peneliti sebagai “memori non-parametrik” —pengetahuan eksternal yang dapat ditanyakan saat runtime daripada disimpan dalam parameter model.1

Pengambilan

Sistem pencarian tradisional biasanya bergantung pada pencocokan kata kunci, yang mengasumsikan bahwa pengguna dan data menggunakan bahasa yang sama. Dalam praktiknya, mereka sering kali tidak melakukannya. Basis data vektor menggeser pencarian dari pencocokan kata menjadi pencocokan makna, menggunakan kemiripan vektor untuk membandingkan seberapa dekat representasi yang ada.

Pendekatan pengambilan hibrida yang digunakan dalam sistem RAG menggabungkan pengambilan semantik dengan metode pencarian tradisional untuk meningkatkan daya ingat dan presisi, terutama di lingkungan perusahaan di mana data heterogen dan kompleks.2

Landasan

Model generatif bersifat probabilistik, artinya mereka menghasilkan tanggapan yang masuk akal, bukan fakta yang terverifikasi. Ini menciptakan risiko halusinasi.

RAG memitigasi hal ini dengan mendasarkan respons pada data yang diambil. Studi di seluruh domain seperti perawatan kesehatan dan pendidikan menunjukkan bahwa menggabungkan pengambilan dengan generasi meningkatkan akurasi faktual dan keandalan dalam sistem penjawab pertanyaan.3

Operasi

RAG mengubah cara sistem AI dipertahankan dan diskalakan. Alih-alih melatih ulang model untuk memasukkan pengetahuan baru, organisasi dapat memperbarui data yang mendasarinya atau logika pengambilan, memungkinkan iterasi yang lebih cepat dan kemampuan beradaptasi yang lebih besar di seluruh kasus penggunaan.

Akibatnya, RAG telah menjadi pola arsitektur yang dominan dalam sistem AI modern, terutama di lingkungan perusahaan dan aplikasi yang menghadap konsumen di mana model harus mengakses data terkini atau eksternal untuk menghasilkan respons yang akurat.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Bagaimana cara kerja basis data vektor RAG

Pada tingkat tinggi, basis data vektor RAG mengikuti urutan terstruktur:

  1. Pengguna mengirim prompt
  2. Token dikonversi menjadi penyematan
  3. Basis data vektor mengambil penyematan yang serupa
  4. Data yang diambil diberi peringkat berdasarkan relevansi dengan kueri asli
  5. Konteks model ditambah dengan data yang diambil
  6. Model tersebut menghasilkan respons.
Generasi dengan dukungan pengambilan data

1. Pengguna mengirim prompt

Setiap interaksi dimulai dengan permintaan pengguna yang dinyatakan dalam bahasa alami. Pada tahap ini, input ada sebagai token — unit teks yang diproses oleh model bahasa. Token mewakili bagaimana bahasa ditulis dan terstruktur, tetapi mereka belum menangkap makna dengan cara yang dapat dicari.

2. Token dikonversi menjadi penyematan

Untuk membuat kueri dapat dicari, kueri diubah menjadi penyematan yang memberikan representasi numerik makna. Salah satu cara untuk memahami hal ini adalah melalui geografi.

  • Token seperti nama tempat: “New York City,” “NYC,” “Manhattan.”
  • Penyematan itu seperti koordinat: lintang dan bujur.

Dengan mengubah token menjadi penyematan, sistem pindah dari bahasa ke ruang di mana makna dapat dibandingkan secara matematis (ruang vektor dimensi tinggi).

3. Basis data vektor mengambil penyematan yang serupa.

Setelah kueri direpresentasikan sebagai penyematan (atau vektor kueri), basis data vektor akan mencari vektor yang serupa. Proses ini bergantung pada metrik kesamaan seperti kesamaan kosinus, yang mengukur seberapa dekat vektor sejajar dalam ruang dimensi tinggi. Banyak sistem juga menyertakan lapisan peringkat yang memprioritaskan hasil yang paling relevan, meningkatkan akurasi dan koherensi.

4. Data yang diambil diberi peringkat berdasarkan relevansi dengan kueri asli

Sistem mengambil segmen yang lebih kecil atau “potongan” data yang terkait dengan penyematan yang paling mirip. Proses ini—secara fasih dikenal sebagai “chunking” (pemotongan) —menentukan kualitas pengambilan berdasarkan bagaimana potongan didefinisikan. Jika terlalu besar, pengambilan mungkin kurang presisi. Jika terlalu kecil, mereka mungkin kehilangan konteks.

5. Konteks model ditambah dengan data yang diambil

Informasi yang diambil dimasukkan ke dalam input model, yang disebut sebagai augmentasi cepat. Kueri asli dan konteks yang diambil membentuk satu urutan token. Model tidak membedakan di antara mereka. Ini hanya memproses input gabungan dan menghasilkan respons, membuat struktur prompt menjadi penting.

6. Model menghasilkan respons

Dengan penambahan prompt di tempatnya, model kemudian menghasilkan respons. Tahap ini menyoroti bagaimana RAG berbeda dari proses seperti fine tuning (penyesuaian), yang memodifikasi parameter internal model, menyematkan pengetahuan langsung ke dalam model. RAG mengambil pengetahuan saat runtime, membiarkan model tidak berubah. Dengan kata lain, fine tuning meningkatkan apa yang diketahui model, sedangkan RAG meningkatkan apa yang dapat diakses model.

Komponen inti dari sistem basis data vektor RAG

Sistem basis data vektor RAG bukanlah alat tunggal, tetapi sekumpulan komponen yang bekerja sama untuk menyusun dan menghasilkan respons. Komponen inti dalam proses ini meliputi:

  • Basis pengetahuan
  • Model penyematan
  • Basis data vektor
  • Retriever
  • Lapisan integrasi
  • Generator

Basis pengetahuan

Basis pengetahuan adalah sumber kebenaran eksternal sistem. Ini berisi data yang akan diambil model, yang mungkin termasuk dokumen, PDF, catatan terstruktur, tiket dukungan, atau konten tidak terstruktur lainnya.

Dalam lingkungan perusahaan, data ini sering ter fragmentasi di seluruh sistem dan format. Akibatnya, kualitas basis pengetahuan secara langsung berdampak pada kualitas output sistem.

Model penyematan

Model penyematan menerjemahkan bahasa alami ke dalam representasi vektor yang menangkap makna.

Komponen ini menentukan bagaimana informasi diposisikan dalam ruang semantik, membentuk bagaimana kueri dan dokumen dibandingkan selama pengambilan. Jika model penyematan gagal menangkap nuansa spesifik domain seperti terminologi teknis atau hubungan kontekstual, kualitas pengambilan akan menurun.

Basis data vektor

Basis data vektor menyimpan dan mengindeks penyematan, memungkinkan pencarian kemiripan yang cepat di seluruh kumpulan data yang besar. Perannya bukan hanya penyimpanan, tetapi kinerja pengambilan. Teknik pengindeksan seperti pencarian perkiraan tetangga terdekat (ANN) memungkinkan sistem menemukan vektor yang relevan dengan cepat, bahkan dalam skala besar. Riset IBM baru-baru ini menunjukkan sistem yang mampu menangani puluhan hingga ratusan miliar vektor.

Pada saat yang sama, database vektor sering mendukung pemfilteran metadata dan pencarian hibrida, memungkinkan sistem untuk menyempurnakan hasil berdasarkan batasan tambahan seperti tanggal, kategori atau sumber.

Retriever

Retriever bertindak sebagai antarmuka antara kueri pengguna dan basis data vektor. Ini menggunakan model penyematan untuk mengubah kueri menjadi representasi vektor, mengeksekusi pencarian menggunakan antarmuka pemrograman aplikasi (API) atau perangkat pengembangan perangkat lunak (SDK), dan mengembalikan Hasil yang paling relevan.

Proses ini membentuk dasar untuk pencarian AI modern. Dalam sistem yang lebih maju, pengambil juga dapat mencakup logika peringkat, mekanisme penyaringan atau strategi pengambilan multi-langkah untuk meningkatkan akurasi.

Lapisan integrasi

Lapisan integrasi mengatur sistem, mengelola bagaimana data mengalir antara komponen dan bagaimana prompt dibangun. Lapisan ini mengambil hasil yang diambil, mengaturnya dan memasukkannya ke dalam input model dengan cara yang terstruktur.

Integrasi adalah tempat kerangka kerja rekayasa dan orkestrasi yang cepat berperan, memastikan bahwa model menerima konteks yang jelas dan relevan. Seringkali, sistem dibangun menggunakan kombinasi alat bantu sumber terbuka, pustaka Python, dan platform basis data vektor seperti Pinecone atau Milvus. Koordinasi inilah yang pada akhirnya memungkinkan pencarian AI yang dapat diskalakan di seluruh aplikasi dan kumpulan data skala besar.

Generator

Generator adalah model bahasa yang bertanggung jawab untuk menghasilkan respons akhir. Itu tidak mengambil informasi itu sendiri. Sebaliknya, ia menafsirkan prompt yang diperbesar dan menghasilkan respons berdasarkan konteks yang telah diberikan. Perbedaan ini penting. Peran generator bukan untuk “mengetahui” segalanya, melainkan untuk mensintesis dan mengekspresikan informasi yang diberikan oleh sistem.

Pertimbangan basis data vektor RAG

Merancang dan menerapkan basis data vektor RAG melibatkan pertukaran antara akurasi, kinerja, dan kompleksitas sistem. Sementara arsitekturnya secara konseptual mudah, efektivitasnya tergantung pada seberapa baik setiap komponen disesuaikan dengan tugas yang ada. Pertimbangan yang sering muncul meliputi:

  • Kualitas pengambilan
  • Strategi pemotongan
  • Batas ukuran jendela konteks
  • Latensi dan kompleksitas
  • Keamanan dan tata kelola

Kualitas pengambilan

Sistem RAG bergantung pada pengambilan sebagai sumber kebenaran utama mereka. Jika sistem mengambil informasi yang tidak lengkap atau tidak relevan, model akan menghasilkan respons yang cacat. Tantangan ini sering berasal dari penyematan kualitas dan logika peringkat. Penyematan mungkin kehilangan nuansa khusus domain, sementara pencarian kesamaan dapat menampilkan hasil yang secara teknis dekat tetapi secara kontekstual salah.

Untuk alamat hal ini, sistem modern menggabungkan lapisan rangking ulang, model penyematan khusus domain, dan teknik pengambilan hibrida yang menggabungkan kesamaan semantik dengan penyaringan terstruktur.

Strategi pemotongan

Kinerja pengambilan juga dibentuk oleh bagaimana data tersegmentasi. Karena dokumen dipecah menjadi potongan-potongan yang lebih kecil sebelum pengambilan, strategi pemotongan yang tidak didefinisikan dengan baik dapat memecah makna atau mengurangi presisi. Seringkali, tim memperlakukan pemotongan sebagai pertimbangan desain, menyeimbangkan kekhususan dengan konteks.

Batasan ukuran jendela konteks

Bahkan ketika pengambilannya efektif, model hanya dapat memproses sejumlah informasi dalam satu waktu ( jendela konteksnya). Dalam kueri kompleks, terutama yang membutuhkan sintesis di berbagai sumber, batasan ini dapat membatasi penalaran dengan memaksa sistem untuk memprioritaskan apa yang paling relevan. Sistem hemat biaya memperlakukan konteks sebagai sumber daya yang langka, menggunakan teknik seperti ringkasan dan pengambilan selektif untuk memaksimalkan nilainya.

Latensi dan kompleksitas

RAG memperkenalkan langkah-langkah tambahan ke dalam rangkaian proses inferensi, termasuk penyematan, pencarian vektor, dan prompt. Sementara setiap langkah menambah nilai, itu juga menambah latensi.

Dalam aplikasi AI real-time, bahkan penundaan kecil dapat memengaruhi pengalaman pengguna. Dalam penerapan skala besar, mereka dapat menciptakan tantangan seputar throughput dan daya tanggap. Itulah sebabnya sistem produksi sering mengandalkan teknik pengindeksan yang dioptimalkan seperti pencarian ANN, caching, dan pemrosesan paralel untuk menyeimbangkan akurasi dengan kompleksitas.

Keamanan dan tata kelola

Karena sistem RAG menghubungkan model ke sumber data eksternal, mereka memperkenalkan pertimbangan keamanan baru seputar akses data, privasi, dan kepatuhan.

Tidak seperti model tradisional, yang pengetahuan tertanam dalam parameter, aplikasi RAG beroperasi pada data langsung. Hal ini memungkinkan pembaruan waktu nyata dan kontrol akses, tetapi juga memerlukan pengamanan, seperti pembatas keamanan, untuk memastikan informasi sensitif terlindungi di seluruh rangkaian proses.

Basis data vektor, khususnya, menyimpan penyematan yang berasal dari data sumber. Meskipun bukan salinan langsung, representasi ini dapat direkayasa untuk menyimpulkan informasi yang mendasarinya. Akibatnya, sistem RAG perusahaan memerlukan kerangka kerja tata kelola yang kuat, termasuk enkripsi, kontrol akses, dan auditabilitas.

Contoh penggunaan basis data vektor RAG

Basis data vektor RAG paling berharga dalam skenario yang informasinya sangat luas, dinamis dan sulit dinavigasi menggunakan antarmuka tradisional. Contohnya antara lain:

Chatbot perusahaan dan asisten pengetahuan

Database vektor RAG mendukung chatbot perusahaan dan asisten pengetahuan internal dengan mengambil dan mensintesis informasi dari sumber data besar dan terdistribusi secara real time. Hal ini memungkinkan chatbot untuk memberikan tanggapan dukungan terkini, sekaligus membantu karyawan menanyakan dokumen internal dan alur kerja menggunakan bahasa alami tanpa perlu mencari di berbagai sistem.

Alur kerja riset dan analitik

Dalam domain seperti keuangan, perawatan kesehatan, dan analisis hukum, sistem RAG menyajikan informasi yang relevan dari berbagai sumber dalam konteks, memungkinkan pengguna untuk mengajukan pertanyaan kompleks, multi-bagian dan menerima tanggapan yang disintesis. Hasilnya adalah peningkatan kecepatan dan akurasi dalam pengambilan keputusan.

Sistem rekomendasi

Basis data vektor RAG meningkatkan mesin rekomendasi dengan memungkinkan kesamaan semantik di seluruh preferensi dan konten pengguna. Sistem ini dapat menghasilkan penjelasan di samping rekomendasi, menampilkan hasil tidak hanya berdasarkan perilaku masa lalu tetapi juga pada fitur bersama, ulasan atau pola penggunaan yang diambil dari data yang mendasarinya.

Masa depan basis data vektor RAG

Database vektor RAG berkembang pesat karena organisasi berpindah dari implementasi eksperimental ke sistem skala produksi. Penelitian dan pengembangan industri menunjukkan beberapa tren yang muncul, termasuk:

  • Pengambilan agen
  • Arsitektur pengambilan hibrida
  • Sistem pengetahuan waktu nyata
  • RAG multimodal dan berbasis penalaran

Pengambilan agen 

Sistem RAG awal mengikuti jalur rangkaian proses yang tetap: mengambil, menambah, menghasilkan. Sistem yang muncul memperkenalkan perilaku yang lebih dinamis.

Pengambilan agen memungkinkan model untuk memutuskan apa, kapan dan bagaimana mengambil informasi. Alih-alih satu langkah pengambilan, sistem dapat melakukan beberapa tindakan pengambilan, menyempurnakan kueri, atau meminta konteks tambahan selama pembuatan.

Riset terbaru tentang agen AI menunjukkan bahwa pendekatan ini dapat meningkatkan kinerja pada tugas-tugas multi-langkah yang kompleks, terutama yang membutuhkan penalaran atau eksplorasi berulang.

Arsitektur pengambilan hibrida

Sementara pencarian vektor tetap mendasar, ini semakin dikombinasikan dengan pencarian kata kunci, pemfilteran metadata dan, dalam beberapa kasus, pengambilan berbasis grafik (GraphRAG). Koordinasi ini memungkinkan sistem untuk menangkap makna semantik dan hubungan terstruktur, meningkatkan presisi dan ingatan di lingkungan yang kompleks.

Sistem pengetahuan waktu nyata

Sistem RAG berkembang menuju rangkaian proses real-time yang terus menyerap dan memperbarui informasi. Ini mengurangi kesenjangan antara pembuatan dan ketersediaan data, memungkinkan sistem untuk merespons perubahan saat terjadi.

Dalam lingkungan seperti pasar keuangan atau pemantauan operasional, kemampuan ini menjadi penting. Kemajuan dalam streaming data dan pengindeksan inkremental memungkinkan database vektor untuk memperbarui penyematan tanpa pemrosesan ulang penuh.

RAG multimodal dan berbasis penalaran

RAG berkembang melampaui teks untuk menggabungkan gambar, audio, dan data terstruktur, memungkinkan model untuk mengambil dan bernalar di berbagai modalitas.

Pada saat yang sama, penelitian tentang RAG yang digerakkan oleh penalaran meningkatkan bagaimana model mensintesis informasi yang diambil, beralih dari pengambilan sederhana menuju alur kerja penalaran multi-langkah yang lebih terstruktur.

Penyusun

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Solusi terkait
Perangkat lunak dan solusi manajemen data

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data
IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

Temukan watsonx.data
Layanan konsultasi data dan analitik

Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

  1. Jelajahi solusi manajemen data
  2. Temukan watsonx.data