Apa yang dimaksud dengan retrieval augmented generation (RAG)?

Apa yang dimaksud dengan Retrieval Augmented Generation (RAG)?

Retrieval Augmented Generation, atau RAG, adalah arsitektur untuk mengoptimalkan kinerja model kecerdasan buatan (AI) dengan menghubungkannya dengan basis pengetahuan eksternal. RAG membantu model bahasa besar (LLM) memberikan tanggapan yang lebih relevan dengan kualitas yang lebih tinggi.

Model AI generatif (gen AI) dilatih dengan kumpulan data besar dan merujuk pada informasi ini untuk menghasilkan output. Namun, kumpulan data pelatihan terbatas dan hanya mencakup informasi yang dapat diakses pengembang AI—karya domain publik, artikel internet, konten media sosial, dan data lain yang dapat diakses publik.

RAG memungkinkan model AI generatif untuk mengakses basis pengetahuan eksternal tambahan, seperti data organisasi internal, jurnal ilmiah, dan kumpulan data khusus. Dengan mengintegrasikan informasi yang relevan ke dalam proses pembuatan, chatbot dan alat pemrosesan bahasa alami (NLP) lainnya dapat membuat konten spesifik untuk masing-masing domain yang lebih akurat tanpa memerlukan pelatihan lebih lanjut.

Apa manfaat RAG?

RAG memberdayakan organisasi untuk menghindari biaya pelatihan ulang yang tinggi saat mengadaptasi model AI generatif untuk contoh penggunaan spesifik di setiap domain. Perusahaan dapat menggunakan RAG untuk melengkapi kekurangan dalam basis pengetahuan model machine learning sehingga dapat memberikan jawaban yang lebih baik.

Manfaat utama RAG meliputi:

ImplementasiAI yang hemat biaya dan penskalaan AI

Akses ke data spesifik di setiap domain saat ini

Risiko halusinasi AI yang lebih rendah

Meningkatkan kepercayaan pengguna

Contoh penggunaan yang diperluas

Peningkatan kontrol pengembang dan pemeliharaan model

Keamanan data yang lebih baik

Implementasi AI yang hemat biaya dan penskalaan AI

Saat menerapkan AI, sebagian besar organisasi pertama-tama memilih model dasar: model pembelajaran mendalam yang berfungsi sebagai dasar untuk pengembangan versi yang lebih canggih. Model dasar biasanya memiliki basis pengetahuan umum yang diisi dengan data pelatihan yang tersedia untuk umum, seperti konten internet yang tersedia pada saat pelatihan.

Melatih ulang model dasar atau menyempurnakannya—di mana model dasar dilatih lebih lanjut menggunakan data baru dalam kumpulan data spesifik di masing-masing domain yang lebih kecil—secara komputasi mahal dan memerlukan banyak sumber daya. Model menyesuaikan beberapa atau semua parameternya untuk menyesuaikan kinerjanya dengan data khusus baru.

Dengan RAG, perusahaan dapat menggunakan sumber data internal yang otoritatif dan mendapatkan peningkatan kinerja model yang serupa tanpa pelatihan ulang. Perusahaan dapat meningkatkan implementasi aplikasi AI mereka sesuai kebutuhan sambil mengurangi peningkatan biaya dan kebutuhan sumber daya.

Akses ke data saat ini dan data spesifik di masing-masing domain

Model AI generatif memiliki batas pengetahuan, titik di mana data pelatihan mereka terakhir diperbarui. Seiring bertambahnya usia model melewati batas pengetahuannya, data tersebut kehilangan relevansi dari waktu ke waktu. Sistem RAG menghubungkan model dengan data eksternal tambahan secara real-time dan menggabungkan informasi terkini ke dalam respons yang dihasilkan.

Perusahaan menggunakan RAG untuk melengkapi model dengan informasi spesifik seperti data pelanggan yang dimiliki, penelitian otoritatif, dan dokumen terkait lainnya.

Model RAG juga dapat terhubung ke internet dengan antarmuka pemrograman aplikasi (API) dan mendapatkan akses ke feed media sosial real-time dan ulasan konsumen untuk pemahaman yang lebih baik tentang sentimen pasar. Sementara itu, akses ke berita terkini dan mesin pencari dapat menghasilkan respons yang lebih akurat karena model memasukkan informasi yang diambil ke dalam proses pembuatan teks.

Risiko halusinasi AI yang lebih rendah

Model AI generatif seperti GPT OpenAI bekerja dengan mendeteksi pola dalam data mereka, kemudian menggunakan pola-pola tersebut untuk memprediksi hasil yang paling mungkin untuk input pengguna. Terkadang model mendeteksi pola yang tidak ada. Halusinasi atau konfabulasi terjadi ketika model menyajikan informasi yang salah atau dibuat-buat seolah-olah informasi itu faktual.

RAG menghubungkan LLM dalam pengetahuan khusus yang didukung oleh data faktual, otoritatif, dan terkini. Dibandingkan dengan model generatif yang hanya beroperasi menggunakan data pelatihannya, model RAG cenderung memberikan jawaban yang lebih akurat dalam konteks data eksternalnya. Meskipun RAG dapat mengurangi risiko halusinasi, RAG tidak dapat membuat model bebas dari kesalahan.

Peningkatan kepercayaan pengguna

Chatbot, implementasi AI generatif umum, menjawab pertanyaan yang diajukan oleh pengguna manusia. Chatbot seperti ChatGPT disebut berhasil jika pengguna merasa outputnya dapat dipercaya. Model RAG dapat memasukkan kutipan ke sumber pengetahuan dalam data eksternal sebagai bagian dari tanggapan model tersebut.

Ketika model RAG mengutip sumbernya, pengguna manusia dapat memverifikasi output tersebut untuk mengonfirmasi akurasinya sambil memeriksa sumber yang dikutip untuk klarifikasi lanjutan dan mendapatkan informasi tambahan. Penyimpanan data perusahaan seringkali merupakan labirin yang kompleks dan terpisah-pisah. Respons RAG dengan kutipan mengarahkan pengguna langsung ke materi yang mereka butuhkan.

Contoh penggunaan yang diperluas

Dengan akses ke lebih banyak data, satu model dapat menangani berbagai prompt yang lebih luas. Perusahaan dapat mengoptimalkan model dan mendapatkan nilai lebih dari model tersebut dengan memperluas basis pengetahuannya, yang pada gilirannya akan memperluas konteks di mana model tersebut memberikan hasil yang dapat andal.

Dengan menggabungkan AI generatif dengan sistem pengambilan, model RAG dapat mengambil dan mengintegrasikan informasi dari berbagai sumber data sebagai respons terhadap kueri yang kompleks.

Peningkatan kontrol pengembang dan pemeliharaan model

Organisasi modern secara konstan memproses data dalam jumlah besar, mulai dari input pesanan, proyeksi pasar, pergantian karyawan, dan banyak lagi. Konstruksi pipeline data yang efektif dan penyimpanan data sangat penting untuk implementasi RAG yang kuat.

Pada saat yang sama, pengembang dan ilmuwan data dapat mengubah sumber data yang dapat diakses oleh model kapan saja. Memosisikan ulang model dari satu tugas ke tugas lainnya memerlukan penyesuaian sumber pengetahuan eksternalnya, tidak seperti penyempurnaan atau pelatihan ulang. Jika penyempurnaan diperlukan, pengembang dapat memprioritaskan pekerjaan itu alih-alih mengelola sumber data model.

Keamanan data yang lebih baik

Karena RAG menghubungkan model ke sumber pengetahuan eksternal dan bukan memasukkan pengetahuan tersebut ke dalam data pelatihan model, RAG mempertahankan pemisahan antara model dan pengetahuan eksternal tersebut. Perusahaan dapat menggunakan RAG untuk menyimpan data pihak pertama sekaligus memberikan akses ke model ke data tersebut—akses yang dapat dicabut kapan saja.

Namun, perusahaan harus waspada untuk menjaga keamanan database eksternal itu sendiri. RAG menggunakan basis data vektor, yang menggunakan penanaman untuk mengonversi titik data ke representasi numerik. Jika basis data ini dilanggar, penyerang dapat membalikkan proses penanaman vektor dan mengakses data asli, terutama jika basis data vektor tidak dienkripsi.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Contoh penggunaan RAG

Sistem RAG pada dasarnya memungkinkan pengguna untuk bertanya ke database dengan bahasa percakapan. Kemampuan menjawab pertanyaan berbasis data dari sistem RAG telah diterapkan di berbagai contoh penggunaan, termasuk:

Chatbot khusus dan asisten virtual
Penelitian
Pembuatan konten
Analisis pasar dan pengembangan produk
Mesin pengetahuan
Layanan rekomendasi

Chatbot khusus dan asisten virtual

Perusahaan yang ingin mengotomatiskan dukungan pelanggan mungkin menemukan bahwa model AI mereka tidak memiliki pengetahuan khusus yang diperlukan untuk membantu pelanggan secara memadai. Sistem AI RAG menghubungkan model ke data internal untuk melengkapi chatbot dukungan pelanggan dengan pengetahuan terbaru tentang produk, layanan, dan kebijakan perusahaan.

Prinsip yang sama berlaku untuk avatar AI dan asisten pribadi. Menghubungkan model yang mendasarinya dengan data pribadi pengguna dan mengacu pada interaksi sebelumnya memberikan pengalaman pengguna yang lebih disesuaikan.

Penelitian

Mampu membaca dokumen internal dan antarmuka dengan mesin pencari, model RAG unggul dalam penelitian. Analis keuangan dapat membuat laporan khusus untuk masing-masing klien dengan informasi pasar terkini dan aktivitas investasi sebelumnya, sementara profesional medis dapat mengelola catatan pasien dan institusi.

Pembuatan Konten

Kemampuan model RAG untuk mengutip sumber otoritatif dapat mendukung pembuatan konten yang lebih andal. Sementara semua model AI generatif dapat berhalusinasi, RAG membuat pengguna lebih mudah untuk memverifikasi akurasi output.

Analisis pasar dan pengembangan produk

Para pemimpin bisnis dapat melihat tren media sosial, aktivitas pesaing, berita terbaru yang relevan dengan sektor ini, dan sumber online lainnya untuk memberikan dasar yang lebih baik untuk keputusan bisnis. Sementara itu, Product Manager dapat merujuk pada masukan pelanggan dan perilaku pengguna ketika mempertimbangkan pilihan pengembangan di masa depan.

Mesin pengetahuan

Sistem RAG dapat memberdayakan karyawan dengan informasi internal perusahaan. Proses orientasi yang disederhanakan, dukungan SDM yang lebih cepat, dan panduan sesuai permintaan untuk karyawan di lapangan hanyalah beberapa cara penggunaan RAG oleh bisnis untuk meningkatkan kinerja pekerjaan.

Layanan rekomendasi

Dengan menganalisis perilaku pengguna sebelumnya dan membandingkannya dengan penawaran yang ada saat ini, sistem RAG memberikan layanan rekomendasi yang lebih akurat. Platform e-commerce dan layanan pengiriman konten dapat menggunakan RAG untuk menjaga agar pelanggan tetap berinteraksi dan melakukan pembelanjaan.

Akademi AI

Bangkitnya AI generatif untuk bisnis

Pelajari tentang sejarah kebangkitan AI generatif dan apa pengaruhnya bagi bisnis.

Buka episode

Bagaimana cara kerja RAG?

RAG bekerja dengan menggabungkan model pengambilan informasi dengan model AI generatif untuk menghasilkan konten yang lebih otoritatif. Sistem RAG mengirim kueri ke basis pengetahuan dan menambahkan lebih banyak konteks ke prompt pengguna sebelum menghasilkan respons.

LLM Standard mendapatkan informasi dari kumpulan data pelatihannya. RAG menambahkan komponen pengambilan informasi ke alur kerja AI, mengumpulkan informasi yang relevan dan memasukkannya ke model AI generatif untuk meningkatkan kualitas dan utilitas respons.

Sistem RAG mengikuti proses lima tahap:

Diagram yang menunjukkan proses RAG (Retrieval Augmented Generation)

Pengguna mengirim prompt.
Model pengambilan informasi mengirim kueri ke basis pengetahuan untuk data yang relevan.
Informasi yang relevan diberikan dari basis pengetahuan ke lapisan integrasi.
Sistem RAG merekayasa prompt yang dilengkapi ke LLM dengan konteks yang disempurnakan dari data yang diambil.
LLM menghasilkan output dan menampilkan output kepada pengguna.

Proses ini menunjukkan bagaimana asal nama RAG. Sistem RAG mengambil data dari basis pengetahuan, melengkapi prompt dengan konteks tambahan, dan menghasilkan respons.

Komponen sistem RAG

Sistem RAG berisi empat komponen utama:

Basis pengetahuan: Tempat penyimpanan data eksternal untuk sistem.

Pengambil: Model AI yang melakukan pencarian data yang relevan dalam basis pengetahuan.

Lapisan integrasi: Bagian dari arsitektur RAG yang mengoordinasikan keseluruhan fungsinya.

Generator: Model AI generatif yang menciptakan output berdasarkan kueri pengguna dan data yang diambil.

Komponen lain mungkin termasuk ranker, yang memberi peringkat pada data yang diambil berdasarkan relevansi, dan handler output, yang memformat respons yang dihasilkan untuk pengguna.

Basis pengetahuan

Tahap pertama dalam membangun sistem RAG adalah menciptakan basis pengetahuan yang dapat dikueri. Repositori data eksternal dapat berisi data dari sumber yang tak terhitung jumlahnya: PDF, dokumen, panduan, situs web, file audio, dan lainnya. Sebagian besar dari sumber ini adalah data tidak terstruktur, yang berarti belum diberi label.

Sistem RAG menggunakan proses yang disebut penyematan untuk mengubah data menjadi representasi numerik yang disebut vektor. Model yang melakukan penyematan akan melakukan vektorisasi data dalam ruang matematika multidimensi, mengatur titik-titik data berdasarkan kemiripan. Titik data yang dinilai lebih dekat dalam relevansi satu sama lain ditempatkan berdekatan.

Basis pengetahuan harus terus diperbarui untuk menjaga kualitas dan relevansi sistem RAG.

Input LLM terbatas pada jendela konteks model: jumlah data yang dapat diproses tanpa kehilangan konteks. Memotong dokumen menjadi ukuran yang lebih kecil membantu memastikan bahwa penyematan yang dihasilkan tidak akan membebani jendela konteks LLM di sistem RAG.

Ukuran potongan adalah hyperparameter penting untuk sistem RAG. Ketika potongan terlalu besar, titik data dapat menjadi terlalu umum dan tidak dapat berhubungan langsung dengan kueri pengguna potensial. Tetapi jika potongan terlalu kecil, titik data dapat kehilangan koherensi semantik.

Retriever

Vektorisasi data mempersiapkan basis pengetahuan untuk pencarian vektor semantik, teknik yang mengidentifikasi titik-titik dalam basis data yang mirip dengan kueri pengguna. Algoritma machine learning pencarian semantik dapat mengirim kueri ke basis data besar dan dengan cepat mengidentifikasi informasi yang relevan, mengurangi latensi dibandingkan dengan pencarian kata kunci tradisional.

Model pengambilan informasi mengubah kueri pengguna menjadi penyematan dan kemudian mencari basis pengetahuan untuk penyematan yang serupa. Kemudian, temuannya diberikan dari basis pengetahuan.

Lapisan integrasi

Lapisan integrasi adalah pusat dari arsitektur RAG, yang mengoordinasikan proses dan meneruskan data di seluruh jaringan. Dengan data tambahan dari basis pengetahuan, sistem RAG membuat prompt baru untuk komponen LLM. Prompt ini terdiri dari kueri pengguna asli ditambah konteks yang disempurnakan yang diberikan oleh model pengambilan.

Sistem RAG menggunakan berbagai teknik rekayasa prompt untuk mengotomatiskan pembuatan prompt yang efektif dan membantu LLM memberikan respons terbaik. Sementara itu, kerangka kerja orkestrasi LLM seperti LangChain sumber terbuka dan LlamaIndex atau IBM watsonx Orchestrate mengatur keseluruhan fungsi sistem AI.

Generator

Generator membuat output berdasarkan prompt tambahan yang disediakan ke dalamnya oleh lapisan integrasi. Prompt menyintesis input pengguna dengan data yang diambil dan menginstruksikan generator untuk mempertimbangkan data ini dalam responsnya. Generator biasanya merupakan model bahasa yang telah dilatih sebelumnya, seperti GPT, Claude, atau Llama.

Apa perbedaan antara RAG dan penyempurnaan?

Perbedaan antara RAG dan penyempurnaan adalah bahwa RAG memungkinkan LLM mengirim kueri ke sumber data eksternal, sementara penyempurnaan melatih LLM dengan data spesifik untuk masing-masing domain. Keduanya memiliki tujuan umum yang sama: untuk membuat LLM berkinerja lebih baik dalam domain tertentu.

RAG dan fine tuning sering dibandingkan perbedaannya, tetapi keduanya dapat digunakan bersama-sama. Penyempurnaan meningkatkan pengenalan model terhadap domain yang diinginkan dan persyaratan output, sementara RAG membantu model dalam menghasilkan output yang relevan dan berkualitas tinggi.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Sumber daya

Panduan AI Generatif untuk CEO

Pelajari bagaimana CEO dapat menyeimbangkan nilai generatif AI yang dapat diciptakan dengan investasi yang dibutuhkan dan risiko yang ditimbulkannya.

Tingkatkan keterampilan Anda dalam AI generatif

Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Manfaatkan AI : Meningkatkan ROI dengan gen AI

Ingin mendapatkan laba yang lebih baik atas investasi AI Anda? Pelajari bagaimana meningkatkan AI gen di berbagai bidang utama mendorong perubahan dengan membantu para pemikir terbaik Anda membangun dan memberikan solusi baru yang inovatif.

Aksi AI 2024

Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.

Jelajahi IBM Granite

IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.

Cara memilih model dasar yang tepat

Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.

Cara berkembang di era baru AI ini dengan kepercayaan dan keyakinan

Selami 3 elemen penting dari strategi AI yang kuat: menciptakan keunggulan kompetitif, meningkatkan skala AI di seluruh bisnis, dan memajukan AI yang dapat dipercaya.

Solusi terkait

IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai

Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI

Layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI

Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai

Pesan demo langsung

Apa yang dimaksud dengan retrieval augmented generation (RAG)?