Tren AI terbaru, dipersembahkan oleh para pakar
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Retrieval Augmented Generation, atau RAG, adalah arsitektur untuk mengoptimalkan kinerja model kecerdasan buatan (AI) dengan menghubungkannya dengan basis pengetahuan eksternal. RAG membantu model bahasa besar (LLM) memberikan tanggapan yang lebih relevan dengan kualitas yang lebih tinggi.
Model AI generatif (gen AI) dilatih dengan kumpulan data besar dan merujuk pada informasi ini untuk menghasilkan output. Namun, kumpulan data pelatihan terbatas dan hanya mencakup informasi yang dapat diakses pengembang AI—karya domain publik, artikel internet, konten media sosial, dan data lain yang dapat diakses publik.
RAG memungkinkan model AI generatif untuk mengakses basis pengetahuan eksternal tambahan, seperti data organisasi internal, jurnal ilmiah, dan kumpulan data khusus. Dengan mengintegrasikan informasi yang relevan ke dalam proses pembuatan, chatbot dan alat pemrosesan bahasa alami (NLP) lainnya dapat membuat konten spesifik untuk masing-masing domain yang lebih akurat tanpa memerlukan pelatihan lebih lanjut.
RAG memberdayakan organisasi untuk menghindari biaya pelatihan ulang yang tinggi saat mengadaptasi model AI generatif untuk contoh penggunaan spesifik di setiap domain. Perusahaan dapat menggunakan RAG untuk melengkapi kekurangan dalam basis pengetahuan model machine learning sehingga dapat memberikan jawaban yang lebih baik.
Manfaat utama RAG meliputi:
Saat menerapkan AI, sebagian besar organisasi pertama-tama memilih model dasar: model pembelajaran mendalam yang berfungsi sebagai dasar untuk pengembangan versi yang lebih canggih. Model dasar biasanya memiliki basis pengetahuan umum yang diisi dengan data pelatihan yang tersedia untuk umum, seperti konten internet yang tersedia pada saat pelatihan.
Melatih ulang model dasar atau menyempurnakannya—di mana model dasar dilatih lebih lanjut menggunakan data baru dalam kumpulan data spesifik di masing-masing domain yang lebih kecil—secara komputasi mahal dan memerlukan banyak sumber daya. Model menyesuaikan beberapa atau semua parameternya untuk menyesuaikan kinerjanya dengan data khusus baru.
Dengan RAG, perusahaan dapat menggunakan sumber data internal yang otoritatif dan mendapatkan peningkatan kinerja model yang serupa tanpa pelatihan ulang. Perusahaan dapat meningkatkan implementasi aplikasi AI mereka sesuai kebutuhan sambil mengurangi peningkatan biaya dan kebutuhan sumber daya.
Model AI generatif memiliki batas pengetahuan, titik di mana data pelatihan mereka terakhir diperbarui. Seiring bertambahnya usia model melewati batas pengetahuannya, data tersebut kehilangan relevansi dari waktu ke waktu. Sistem RAG menghubungkan model dengan data eksternal tambahan secara real-time dan menggabungkan informasi terkini ke dalam respons yang dihasilkan.
Perusahaan menggunakan RAG untuk melengkapi model dengan informasi spesifik seperti data pelanggan yang dimiliki, penelitian otoritatif, dan dokumen terkait lainnya.
Model RAG juga dapat terhubung ke internet dengan antarmuka pemrograman aplikasi (API) dan mendapatkan akses ke feed media sosial real-time dan ulasan konsumen untuk pemahaman yang lebih baik tentang sentimen pasar. Sementara itu, akses ke berita terkini dan mesin pencari dapat menghasilkan respons yang lebih akurat karena model memasukkan informasi yang diambil ke dalam proses pembuatan teks.
Model AI generatif seperti GPT OpenAI bekerja dengan mendeteksi pola dalam data mereka, kemudian menggunakan pola-pola tersebut untuk memprediksi hasil yang paling mungkin untuk input pengguna. Terkadang model mendeteksi pola yang tidak ada. Halusinasi atau konfabulasi terjadi ketika model menyajikan informasi yang salah atau dibuat-buat seolah-olah informasi itu faktual.
RAG menghubungkan LLM dalam pengetahuan khusus yang didukung oleh data faktual, otoritatif, dan terkini. Dibandingkan dengan model generatif yang hanya beroperasi menggunakan data pelatihannya, model RAG cenderung memberikan jawaban yang lebih akurat dalam konteks data eksternalnya. Meskipun RAG dapat mengurangi risiko halusinasi, RAG tidak dapat membuat model bebas dari kesalahan.
Chatbot, implementasi AI generatif umum, menjawab pertanyaan yang diajukan oleh pengguna manusia. Chatbot seperti ChatGPT disebut berhasil jika pengguna merasa outputnya dapat dipercaya. Model RAG dapat memasukkan kutipan ke sumber pengetahuan dalam data eksternal sebagai bagian dari tanggapan model tersebut.
Ketika model RAG mengutip sumbernya, pengguna manusia dapat memverifikasi output tersebut untuk mengonfirmasi akurasinya sambil memeriksa sumber yang dikutip untuk klarifikasi lanjutan dan mendapatkan informasi tambahan. Penyimpanan data perusahaan seringkali merupakan labirin yang kompleks dan terpisah-pisah. Respons RAG dengan kutipan mengarahkan pengguna langsung ke materi yang mereka butuhkan.
Dengan akses ke lebih banyak data, satu model dapat menangani berbagai prompt yang lebih luas. Perusahaan dapat mengoptimalkan model dan mendapatkan nilai lebih dari model tersebut dengan memperluas basis pengetahuannya, yang pada gilirannya akan memperluas konteks di mana model tersebut memberikan hasil yang dapat andal.
Dengan menggabungkan AI generatif dengan sistem pengambilan, model RAG dapat mengambil dan mengintegrasikan informasi dari berbagai sumber data sebagai respons terhadap kueri yang kompleks.
Organisasi modern secara konstan memproses data dalam jumlah besar, mulai dari input pesanan, proyeksi pasar, pergantian karyawan, dan banyak lagi. Konstruksi pipeline data yang efektif dan penyimpanan data sangat penting untuk implementasi RAG yang kuat.
Pada saat yang sama, pengembang dan ilmuwan data dapat mengubah sumber data yang dapat diakses oleh model kapan saja. Memosisikan ulang model dari satu tugas ke tugas lainnya memerlukan penyesuaian sumber pengetahuan eksternalnya, tidak seperti penyempurnaan atau pelatihan ulang. Jika penyempurnaan diperlukan, pengembang dapat memprioritaskan pekerjaan itu alih-alih mengelola sumber data model.
Karena RAG menghubungkan model ke sumber pengetahuan eksternal dan bukan memasukkan pengetahuan tersebut ke dalam data pelatihan model, RAG mempertahankan pemisahan antara model dan pengetahuan eksternal tersebut. Perusahaan dapat menggunakan RAG untuk menyimpan data pihak pertama sekaligus memberikan akses ke model ke data tersebut—akses yang dapat dicabut kapan saja.
Namun, perusahaan harus waspada untuk menjaga keamanan database eksternal itu sendiri. RAG menggunakan basis data vektor, yang menggunakan penanaman untuk mengonversi titik data ke representasi numerik. Jika basis data ini dilanggar, penyerang dapat membalikkan proses penanaman vektor dan mengakses data asli, terutama jika basis data vektor tidak dienkripsi.
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Sistem RAG pada dasarnya memungkinkan pengguna untuk bertanya ke database dengan bahasa percakapan. Kemampuan menjawab pertanyaan berbasis data dari sistem RAG telah diterapkan di berbagai contoh penggunaan, termasuk:
Chatbot khusus dan asisten virtual
Penelitian
Pembuatan konten
Analisis pasar dan pengembangan produk
Mesin pengetahuan
Layanan rekomendasi
Perusahaan yang ingin mengotomatiskan dukungan pelanggan mungkin menemukan bahwa model AI mereka tidak memiliki pengetahuan khusus yang diperlukan untuk membantu pelanggan secara memadai. Sistem AI RAG menghubungkan model ke data internal untuk melengkapi chatbot dukungan pelanggan dengan pengetahuan terbaru tentang produk, layanan, dan kebijakan perusahaan.
Prinsip yang sama berlaku untuk avatar AI dan asisten pribadi. Menghubungkan model yang mendasarinya dengan data pribadi pengguna dan mengacu pada interaksi sebelumnya memberikan pengalaman pengguna yang lebih disesuaikan.
Mampu membaca dokumen internal dan antarmuka dengan mesin pencari, model RAG unggul dalam penelitian. Analis keuangan dapat membuat laporan khusus untuk masing-masing klien dengan informasi pasar terkini dan aktivitas investasi sebelumnya, sementara profesional medis dapat mengelola catatan pasien dan institusi.
Kemampuan model RAG untuk mengutip sumber otoritatif dapat mendukung pembuatan konten yang lebih andal. Sementara semua model AI generatif dapat berhalusinasi, RAG membuat pengguna lebih mudah untuk memverifikasi akurasi output.
Para pemimpin bisnis dapat melihat tren media sosial, aktivitas pesaing, berita terbaru yang relevan dengan sektor ini, dan sumber online lainnya untuk memberikan dasar yang lebih baik untuk keputusan bisnis. Sementara itu, Product Manager dapat merujuk pada masukan pelanggan dan perilaku pengguna ketika mempertimbangkan pilihan pengembangan di masa depan.
Sistem RAG dapat memberdayakan karyawan dengan informasi internal perusahaan. Proses orientasi yang disederhanakan, dukungan SDM yang lebih cepat, dan panduan sesuai permintaan untuk karyawan di lapangan hanyalah beberapa cara penggunaan RAG oleh bisnis untuk meningkatkan kinerja pekerjaan.
Dengan menganalisis perilaku pengguna sebelumnya dan membandingkannya dengan penawaran yang ada saat ini, sistem RAG memberikan layanan rekomendasi yang lebih akurat. Platform e-commerce dan layanan pengiriman konten dapat menggunakan RAG untuk menjaga agar pelanggan tetap berinteraksi dan melakukan pembelanjaan.
RAG bekerja dengan menggabungkan model pengambilan informasi dengan model AI generatif untuk menghasilkan konten yang lebih otoritatif. Sistem RAG mengirim kueri ke basis pengetahuan dan menambahkan lebih banyak konteks ke prompt pengguna sebelum menghasilkan respons.
LLM Standard mendapatkan informasi dari kumpulan data pelatihannya. RAG menambahkan komponen pengambilan informasi ke alur kerja AI, mengumpulkan informasi yang relevan dan memasukkannya ke model AI generatif untuk meningkatkan kualitas dan utilitas respons.
Sistem RAG mengikuti proses lima tahap:
Pengguna mengirim prompt.
Model pengambilan informasi mengirim kueri ke basis pengetahuan untuk data yang relevan.
Informasi yang relevan diberikan dari basis pengetahuan ke lapisan integrasi.
Sistem RAG merekayasa prompt yang dilengkapi ke LLM dengan konteks yang disempurnakan dari data yang diambil.
LLM menghasilkan output dan menampilkan output kepada pengguna.
Proses ini menunjukkan bagaimana asal nama RAG. Sistem RAG mengambil data dari basis pengetahuan, melengkapi prompt dengan konteks tambahan, dan menghasilkan respons.
Sistem RAG berisi empat komponen utama:
Komponen lain mungkin termasuk ranker, yang memberi peringkat pada data yang diambil berdasarkan relevansi, dan handler output, yang memformat respons yang dihasilkan untuk pengguna.
Tahap pertama dalam membangun sistem RAG adalah menciptakan basis pengetahuan yang dapat dikueri. Repositori data eksternal dapat berisi data dari sumber yang tak terhitung jumlahnya: PDF, dokumen, panduan, situs web, file audio, dan lainnya. Sebagian besar dari sumber ini adalah data tidak terstruktur, yang berarti belum diberi label.
Sistem RAG menggunakan proses yang disebut penyematan untuk mengubah data menjadi representasi numerik yang disebut vektor. Model yang melakukan penyematan akan melakukan vektorisasi data dalam ruang matematika multidimensi, mengatur titik-titik data berdasarkan kemiripan. Titik data yang dinilai lebih dekat dalam relevansi satu sama lain ditempatkan berdekatan.
Basis pengetahuan harus terus diperbarui untuk menjaga kualitas dan relevansi sistem RAG.
Input LLM terbatas pada jendela konteks model: jumlah data yang dapat diproses tanpa kehilangan konteks. Memotong dokumen menjadi ukuran yang lebih kecil membantu memastikan bahwa penyematan yang dihasilkan tidak akan membebani jendela konteks LLM di sistem RAG.
Ukuran potongan adalah hyperparameter penting untuk sistem RAG. Ketika potongan terlalu besar, titik data dapat menjadi terlalu umum dan tidak dapat berhubungan langsung dengan kueri pengguna potensial. Tetapi jika potongan terlalu kecil, titik data dapat kehilangan koherensi semantik.
Vektorisasi data mempersiapkan basis pengetahuan untuk pencarian vektor semantik, teknik yang mengidentifikasi titik-titik dalam basis data yang mirip dengan kueri pengguna. Algoritma machine learning pencarian semantik dapat mengirim kueri ke basis data besar dan dengan cepat mengidentifikasi informasi yang relevan, mengurangi latensi dibandingkan dengan pencarian kata kunci tradisional.
Model pengambilan informasi mengubah kueri pengguna menjadi penyematan dan kemudian mencari basis pengetahuan untuk penyematan yang serupa. Kemudian, temuannya diberikan dari basis pengetahuan.
Lapisan integrasi adalah pusat dari arsitektur RAG, yang mengoordinasikan proses dan meneruskan data di seluruh jaringan. Dengan data tambahan dari basis pengetahuan, sistem RAG membuat prompt baru untuk komponen LLM. Prompt ini terdiri dari kueri pengguna asli ditambah konteks yang disempurnakan yang diberikan oleh model pengambilan.
Sistem RAG menggunakan berbagai teknik rekayasa prompt untuk mengotomatiskan pembuatan prompt yang efektif dan membantu LLM memberikan respons terbaik. Sementara itu, kerangka kerja orkestrasi LLM seperti LangChain sumber terbuka dan LlamaIndex atau IBM watsonx Orchestrate mengatur keseluruhan fungsi sistem AI.
Generator membuat output berdasarkan prompt tambahan yang disediakan ke dalamnya oleh lapisan integrasi. Prompt menyintesis input pengguna dengan data yang diambil dan menginstruksikan generator untuk mempertimbangkan data ini dalam responsnya. Generator biasanya merupakan model bahasa yang telah dilatih sebelumnya, seperti GPT, Claude, atau Llama.
Perbedaan antara RAG dan penyempurnaan adalah bahwa RAG memungkinkan LLM mengirim kueri ke sumber data eksternal, sementara penyempurnaan melatih LLM dengan data spesifik untuk masing-masing domain. Keduanya memiliki tujuan umum yang sama: untuk membuat LLM berkinerja lebih baik dalam domain tertentu.
RAG dan fine tuning sering dibandingkan perbedaannya, tetapi keduanya dapat digunakan bersama-sama. Penyempurnaan meningkatkan pengenalan model terhadap domain yang diinginkan dan persyaratan output, sementara RAG membantu model dalam menghasilkan output yang relevan dan berkualitas tinggi.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.