Teknik RAG

rendering digital watsonx

Penulis

Shalini Harkar

Lead AI Advocate

Berbagai teknik RAG 

Model bahasa besar (LLM) yang dihasilkan dalam skala besar telah mengubah aplikasi AI; Namun, mereka masih memiliki berbagai kelemahan karena pengetahuan mereka statis dan hanya dapat berasal dari data pelatihan mereka. Persimpangan ini adalah di mana retrieval-augmented generation (RAG) berperan.

RAG menambahkan kekuatan pada model AI generatif dengan menyebarkan pengambilan data real-time, memastikan bahwa proses pengambilan menghasilkan output yang lebih akurat dan tepat waktu. Namun, model RAG hadir dalam berbagai bentuk, terutama cocok untuk aplikasi yang berbeda1.

Pada artikel ini, kami menjelajahi berbagai teknik RAG beserta cara kerjanya, kekuatan dan keterbatasan masing-masing jenis RAG dan contoh penggunaannya.

Paradigma RAG

Untuk meningkatkan efektivitas dan keberlanjutan model RAG secara keseluruhan, sistem pengambilan telah berkembang dari RAG standar ke RAG canggih dan RAG modular untuk mengatasi tantangan dalam kinerja, biaya, dan efisiensi. Mari kita jelajahi setiap teknik RAG secara mendalam.

RAG standar

RAG standar adalah implementasi dasar dari retrieval-augmented generation, di mana pengambilan informasi dan menghasilkan respons dilakukan tanpa optimasi atau masukan. Dalam pengaturan sederhana ini, sistem mengambil data yang relevan berdasarkan kueri, yang kemudian dimasukkan ke dalam model bahasa (seperti GPT) untuk menghasilkan jawaban akhir2.

Bagaimana cara kerja RAG standar?

RAG standar bergantung pada proses tiga langkah yang sangat mudah untuk pengambilan dan pembuatan konten. Langkah-langkah berikut menjelaskan cara kerja proses pengambilan:

  1. Pengodean kueri: Kueri yang dibuat oleh pengguna diubah menjadi vektor berdimensi tinggi dengan menggunakan model penanaman yang menangkap makna semantik dari seluruh kueri.
  2. Pengambilan dokumen: Pencarian kemiripan dilakukan dengan menggunakan vektor ini terhadap repositori melalui basis data vektor yang mengambil dokumen N teratas yang relevan dengan kueri. Basis pengetahuan dapat dibangun dari sumber data terstruktur dan tidak terstruktur, seperti sumber terbuka atau kumpulan data perusahaan.
  3. Pembuatan respons: Sumber data yang diambil kemudian disajikan sebagai konteks tambahan ke dalam model bahasa yang menggabungkan respons yang koheren dan informatif yang didasarkan pada pengetahuan eksternal 3, 4.

 

Diagram RAG standar

Gambar 1 menggambarkan proses tiga langkah (pengodean, pengambilan, dan pembuatan respons) tentang bagaimana RAG standar bekerja.

Aplikasi RAG standar

RAG standar paling cocok untuk skenario di mana kesederhanaan, kecepatan, dan kemudahan penerapan adalah yang terpenting daripada akurasi dan fleksibilitas tingkat lanjut. Kesederhanaan arsitekturnya membuatnya ideal untuk membangun aplikasi bukti konsep dan memungkinkan pengujian ide yang cepat tanpa beban penyesuaian model yang rumit. Misalnya, dapat digunakan secara efektif dalam:

a. Chatbot dukungan pelanggan: Menangani skenario jawaban pertanyaan berulang yang sering ditanyakan dengan menggunakan respons LLM.

b. Peringkasan dan pencarian informasi: Menyediakan rangkuman tingkat dasar dengan menggunakan teknik pemrosesan bahasa alami.

c. Sistem AI untuk perusahaan: Mengambil data yang relevan dengan cepat dari repositori untuk menjawab pertanyaan umum.

Meskipun RAG standar sederhana dan cepat, RAG canggih menawarkan fleksibilitas, skalabilitas, dan kinerja yang lebih besar, sehingga cocok untuk aplikasi dunia nyata yang kompleks.  

RAG canggih

Mari kita pahami apa itu RAG canggih dan penawaran utama apa yang ditawarkannya.

RAG canggih menggabungkan kekuatan pengambilan dan pembuatan yang lebih baik dengan menggunakan algoritma canggih—serangkaian ide, seperti metode reranker (memeringkat ulang), LLM yang disempurnakan, dan siklus masukan. Peningkatan ini menghadirkan peningkatan dalam akurasi, kemampuan beradaptasi dan kinerja yang membuat model ini menjadi pilihan yang lebih baik untuk penerapan yang lebih kompleks dan penerapan di tingkat produksi5.

 

Bagaimana cara kerja RAG canggih?

RAG canggih bekerja sebagai proses berbasis langkah berurutan sebagai berikut:

1. Pemrosesan kueri: Setelah menerima kueri pengguna, kueri tersebut diubah menjadi vektor berdimensi tinggi dengan menggunakan model penanaman yang menangkap makna semantik kueri.

2. Pengambilan dokumen: Kueri yang dikodekan melintasi basis data pengetahuan sangat besar yang menyediakan pengambilan hybrid dengan menggunakan pengambilan vektor padat dan pencarian yang jarang, yaitu kesamaan semantik dan pencarian berbasis kata kunci. Hasilnya dengan demikian memasukkan kecocokan kata kunci semantik ke dalam dokumen yang diambil.

3. Memeringkat ulang pada dokumen yang diambil: Fungsi pengambil memberikan nilai akhir berdasarkan konteks dan dalam kaitannya dengan kueri yang mengambil dokumen.

4. Penggabungan kontekstual untuk pembuatan: Karena setiap dokumen dikodekan secara berbeda, decoder memadukan semua konteks yang dikodekan untuk memastikan bahwa respons yang dihasilkan memiliki koherensi dengan kueri yang dikodekan.

5. Pembuatan respons: Fungsi pembuat RAG tingkat lanjut, biasanya LLM, seperti model IBM Granite atau Llama, memberikan jawaban berdasarkan dokumen yang diambil.

6. Siklus masukan: Karena RAG tingkat lanjut menggunakan berbagai teknik seperti pembelajaran aktif, pembelajaran penguatan, dan pelatihan bersama pengambil-pembuat untuk terus meningkatkan kinerjanya. Selama fase ini, terjadi sinyal implisit, seperti klik pada dokumen yang diambil yang menyimpulkan relevansi yang menyebabkan masukan eksplisit, yang mencakup koreksi atau peringkat untuk penerapan lebih lanjut selama pembuatan. Oleh karena itu, selama bertahun-tahun, strategi ini meningkatkan proses pengambilan dan juga proses pembuatan respons sehingga jawaban yang lebih akurat dan relevan dapat dihasilkan6.

 

 

Diagram RAG canggih

   Gambar 2 menggambarkan proses bertahap tentang bagaimana RAG canggih bekerja.

Aplikasi RAG canggih

RAG canggih sangat serbaguna untuk berbagai aplikasi di seluruh industri karena kemampuan untuk pengambilan informasi real-time dan respons dinamis, akurat, dan berbasis konteks. Aplikasinya bervariasi dari memungkinkan layanan pelanggan hingga membawa informasi yang relevan, sehingga meningkatkan pengambilan keputusan dan menambahkan peningkatan pada pengalaman belajar yang dipersonalisasi. Peningkatan pengambilan dan pembuatan melalui RAG canggih membuatnya praktis untuk aplikasi real-time, tetapi skalabilitas dan kegunaan berada di bawah standar untuk contoh penggunaan tingkat produksi.

RAG modular

RAG Modular adalah varian RAG yang paling canggih, di mana pengambilan informasi dan model generatif bekerja dalam arsitektur seperti saluran linier yang terbuka dan dapat disusun. Pendekatan ini memungkinkan contoh penggunaan yang berbeda untuk mencapai kinerja lebih baik dengan kemampuannya untuk dapat disesuaikan dan skalabilitas.

Dengan memisahkan tindakan RAG menjadi modul, seseorang dapat beradaptasi, melakukan debug, dan mengoptimalkan setiap komponen dengan lebih baik secara terpisah. Sekarang, mari kita lihat bagaimana RAG modular bekerja dalam aksi nyata7.

1. Pemrosesan kueri pengguna: Langkah pertama adalah pengguna mengirimkan kueri, seperti, "Buku apa yang paling tren di pasar saat ini?" Modul pemrosesan kueri kemudian mengubah input yang mungkin mencakup pengungkapan ulang kueri, menghilangkan ambiguitas, dan melakukan penguraian semantik untuk memberikan konteks yang lebih tepat sebelum dikirim untuk diambil.

2. Modul pengambilan: Modul pengambilan memproses kueri pada basis data vektor atau basis pengetahuan untuk mendapatkan dokumen yang relevan. Modul ini melakukan pengambilan dengan menggunakan paradigma kesamaan berbasis menanamkan.

3. Modul penyaringan dan pemeringkatan: Dokumen yang diambil kemudian disaring dengan menggunakan metadata, kemutakhiran, atau relevansi. Dan model pemeringkatan ulang menilai dan memprioritaskan informasi yang paling berguna.

4. Modul peningkatan konteks: Modul ini memberikan informasi yang diambil dengan grafik pengetahuan, menanamkan data terstruktur yang berasal dari basis data dan API, serta menerapkan kompresi pengambilan untuk mencapai pengambilan konten terbaik.

5. Pembuatan respons: LLM memproses kueri pengguna bersama dengan konteks yang diambil untuk menghasilkan respons yang koheren dan akurat, meminimalkan halusinasi dan memastikan relevansi.

6. Modul pasca-pemrosesan: Modul ini memastikan akurasi melalui pemeriksaan fakta, meningkatkan keterbacaan dengan pemformatan terstruktur, dan meningkatkan kredibilitas dengan menghasilkan kutipan.

7. Output dan siklus masukan: Output akhir dari respons disajikan kepada pengguna sementara siklus masukan dibuat dari interaksi mereka untuk membantu menyempurnakan pengambilan dan kinerja model dari waktu ke waktu.

Diagram RAG modular

   Gambar 3 mengilustrasikan proses bertahap mengenai cara kerja RAG modular.

Aplikasi RAG modular 

RAG canggih cocok dalam contoh penggunaan di mana aplikasi memerlukan penyesuaian yang sangat besar, misalnya, teknik pengambilan dan pemeringkatan khusus domain. Skalabilitas dan pemeliharaan penting untuk aplikasi yang melibatkan sistem berskala besar dan terdapat eksperimen berkelanjutan pada model dan strategi pengambilan berbeda8.

Pro dan kontra dari teknik RAG  

Sementara RAG standar mudah dan cepat, RAG modular—sering kali dibangun dengan kerangka kerja seperti Langchain—memberikan fleksibilitas, skalabilitas, dan kinerja yang ditingkatkan, membuatnya lebih cocok untuk aplikasi dunia nyata yang rumit. RAG canggih meningkatkan akurasi dengan mengambil informasi spesifik konteks real-time yang membantu meminimalkan kesalahan. Teknik ini beradaptasi secara dinamis, menggabungkan masukan pengguna melalui pembelajaran aktif dan pembelajaran penguatan (RLHF). Selain itu, teknik ini meningkatkan pengetahuan khusus domain dengan mengintegrasikan basis data khusus. Teknik ini juga mengoptimalkan jendela konteks LLM dengan hanya mengambil data yang paling relevan, sehingga meningkatkan efisiensi. Meskipun demikian, sistem RAG canggih menghadapi tantangan seperti kebutuhan komputasi yang lebih tinggi dan latensi akibat proses pengambilan dan pembuatan. Mereka membutuhkan sumber daya yang signifikan untuk mengelola basis pengetahuan yang luas dan melibatkan implementasi dan pemeliharaan yang kompleks—terutama ketika menyempurnakan pengambil, model pemeringkatan, dan pembuat respons. Ranah ini adalah tempat arsitektur RAG modular, yang dikembangkan menggunakan LangChain, unggul. Desain modularnya memungkinkan penyesuaian yang fleksibel, sehingga masing-masing komponen, seperti pengambil, pemeringkat, dan pembuat, dapat disempurnakan atau ditukar secara terpisah. Metode ini meningkatkan pemeliharaan dengan lebih memudahkan debug dan pembaruan tanpa mengganggu seluruh sistem. Skalabilitas dicapai dengan mendistribusikan modul ke berbagai sumber daya sementara biaya dikelola dengan mengoptimalkan proses pengambilan dan meminimalkan penggunaan LLM 9, 10.

 

Kemajuan masa depan dalam sistem RAG

Pengembangan aktif dalam sistem pengambilan yang memanfaatkan teknik rekayasa prompt canggih dan metode penyempurnaan untuk meningkatkan model RAG untuk pembuatan konten dengan presisi tinggi sedang berlangsung untuk memastikan kinerja dan skalabilitas yang lebih baik.

Kemajuan masa depan dalam pendekatan RAG mandiri, model AI multimodal, dan metrik akan terus memperbaiki proses pengambilan, memastikan penanganan konteks tambahan yang lebih baik dalam interaksi bahasa alami.

Catatan kaki:

1. Gao, Y., Zhang, Z., Peng, M., Wang, J., & Huang, J. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv   preprint arXiv:2312.10997. 


2. Wu, S., Wang, D., Lin, Z., Yang, Y., Li, H., & Li, Z. (2024). Retrieval-Augmented Generation for Natural Language Processing: A Survey. arXiv preprint arXiv:2407.13193. 


3. Huang, Y., & Huang, J. (2024). A Survey on Retrieval-Augmented Text Generation for Large Language Models. arXiv preprint arXiv:2404.10981. 


4. Li, S., Stenzel, L., Eickhoff, C., & Bahrainian, S. A. (2025). Enhancing Retrieval-Augmented Generation: A Study of Best Practices. Prosiding Konferensi Internasional ke-31 tentang Linguistik Komputasi, 6705—6717. 

5. Sakar, T., & Emekci, H. (2024). Maximizing RAG Efficiency: A Comparative Analysis of RAG Methods. Natural Language Processing, 1–15.

6. Su, W., Tang, Y., Ai, Q., Wu, Z., & Liu, Y. (2024). DRAGIN: Dynamic Retrieval Augmented Generation based on the Information Needs of Large Language Models. arXiv preprint arXiv:2403.10081.

7. Gao, Y., Xiong, Y., Wang, M., & Wang, H. (2024). Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks. arXiv preprint arXiv:2407.21059.

8. Shi, Y., Zi, X., Shi, Z., Zhang, H., Wu, Q., & Xu, M. (2024). Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems. arXiv preprint arXiv:2407.10670.

9. Zhu, Y., Yang, X., Zhang, C., & Dou, Z. (2024). Future Trends and Research Directions in Retrieval-Augmented Generation. Computational Intelligence and Neuroscience, 2024, 1–15. 

10. Atos. 2024. A Practical Blueprint for Implementing Generative AI Retrieval-Augmented Generation. Atos. Diakses 12 Februari 2025. 

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai Pesan demo langsung