Apa itu GraphRAG?

Apa itu GraphRAG?

GraphRAG adalah versi lanjutan dari generasi dengan dukungan pengambilan data (RAG) yang menggabungkan data terstruktur grafik, seperti grafik pengetahuan (KG).1 Tidak seperti sistem RAG dasar yang mengandalkan pencarian vektor untuk mengambil teks yang serupa secara semantik, GraphRAG memanfaatkan struktur relasional grafik untuk mengambil dan memproses informasi berdasarkan kueri khusus domain. 

GraphRAG diperkenalkan oleh riset Microsoft pada tahun 2024 untuk mengatasi keterbatasan model bahasa besar (LLM).2 LLM tradisional sering berjuang dengan alur kerja yang kompleks, terutama dalam penalaran data pribadi atau terstruktur, karena tidak memiliki kemampuan untuk memahami hubungan antar entitas. GraphRAG memecahkan masalah ini dengan menggunakan basis data grafik untuk memodelkan hubungan ini, memungkinkannya menangani kueri kompleks, mengambil informasi kontekstual, dan meningkatkan akurasi dalam aplikasi AI generatif (gen AI).

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Bagaimana cara kerja GraphRAG?

Retrieval-Augmented Generation (RAG) adalah teknik yang mengambil informasi yang relevan dengan menggunakan pencarian kesamaan dari basis data vektor, sumber pengetahuan eksternal, dan basis pengetahuan internal. Kemudian teknik ini menggabungkan informasi yang diambil ini dengan LLM untuk menghasilkan output yang akurat dan sadar konteks. Meski meningkatkan fungsionalitas LLM dalam aplikasi AI generatif, aplikasi RAG tradisional tidak memiliki kemampuan untuk menangkap hubungan data yang kompleks dalam data. Sistem ini kesulitan untuk melakukan tugas-tugas seperti penalaran multihop (menggabungkan informasi dari berbagai sumber untuk mendapatkan jawaban melalui koneksi logis dan kesimpulan tidak langsung), konteks relasional, dan memahami data hirarkis. Misalnya, pendekatan RAG tradisional mungkin berjuang dengan pertanyaan seperti, " Siapa yang mengembangkan teori relativitas? " karena membutuhkan penalaran atas hubungan antar-entitas. 

GraphRAG mengatasi masalah ini dengan memasukkan data terstruktur grafik, yang mengatur informasi sebagai jaringan node (entitas seperti orang atau tempat), tepi (hubungan antara entitas tersebut) dan label (atribut yang menentukan kategori node dan tepi). Misalnya, grafik pengetahuan mungkin mewakili "Albert Einstein—mengembangkan—teori relativitas. "sebagai potongan informasi yang terstruktur grafik, memudahkan GraphRAG untuk mengambil dan memproses informasi ini. Dalam contoh ini, node adalah 'Einstein' dan 'teori relativitas', dan tepinya 'mengembangkan'.

Arsitektur GraphRAG

Komponen GraphRAG

GraphRAG bekerja melalui empat komponen utama:

  1. Prosesor kueri

  2. Retriever

  3. Organizer

  4. Generator

Pemroses kueri

Permintaan pengguna diproses terlebih dahulu untuk mengidentifikasi entitas dan hubungan utama yang relevan dengan struktur grafik. Teknik seperti Named Entity Recognition dan ekstraksi relasional dari machine learning digunakan untuk memetakan kueri ke node dan tepi dalam grafik. Misalnya, kueri seperti "Siapa yang mengembangkan teori relativitas?" mengidentifikasi "Einstein" sebagai node dan "mengembangkan" sebagai hubungan yang akan dicari dalam grafik. Alat seperti Cypher, bahasa kueri grafik, digunakan untuk mengambil data khusus domain dari grafik pengetahuan. 

Retriever

Retriever menemukan dan mengekstrak konten yang relevan dari sumber data grafik eksternal berdasarkan kueri yang diproses. Tidak seperti sistem RAG tradisional yang mengandalkan penyematan vektor untuk teks atau gambar, retriever GraphRAG menangani data terstruktur grafik dengan memanfaatkan sinyal semantik dan struktural. Sistem ini menggunakan teknik seperti algoritma traversal grafik (metode seperti breadth-first search (BFS) atau DFS yang Jelajahi grafik untuk menemukan node dan tepi yang relevan). Teknik tambahan termasuk neural networks grafik (GNNs) (model AI canggih yang mempelajari struktur grafik untuk mengambil data secara efektif), pengambilan adaptif (secara dinamis menyesuaikan berapa banyak grafik untuk dicari, mengurangi informasi atau noise yang tidak relevan) dan menanamkan model. Untuk pertanyaan "Siapa yang mengembangkan teori relativitas?", retriever menemukan node " teori relativitas " dalam grafik dan mengikuti hubungan "yang dikembangkan oleh" untuk menemukan "Einstein."

Organizer

Data grafik yang diambil disempurnakan untuk menghilangkan informasi yang tidak relevan atau berisik melalui teknik seperti pemangkasan grafik, pemeringkatan ulang, dan penambahan. Organizer membantu memastikan grafik yang diambil bersih, padat, dan siap untuk diproses sambil mempertahankan informasi kontekstual yang penting. Untuk pertanyaan "Siapa yang mengembangkan teori relativitas?" organizer memurnikan data grafik yang diambil dengan menghapus node dan tepi yang tidak relevan, membantu memastikan hanya hubungan yang relevan, "Teori relativitas—dikembangkan—Albert Einstein," dipertahankan. 

Generator

Data grafik yang dibersihkan kemudian digunakan untuk menghasilkan output akhir. Ini dapat melibatkan menghasilkan jawaban berbasis teks menggunakan LLM atau membuat struktur grafik baru untuk tugas-tugas ilmiah, seperti desain molekul atau perluasan grafik pengetahuan. Untuk pertanyaan "Siapa yang mengembangkan teori relativitas?", GraphRAG mengambil "Albert Einstein" dari grafik dan menghasilkan jawabannya: "Albert Einstein mengembangkan teori relativitas." Teknik AI generatif digunakan untuk mensintesis respons akhir. 

Contoh GraphRAG

Aplikasi GraphRAG

GraphRAG bersifat transformatif di seluruh industri, menggabungkan penalaran berbasis grafik, pencarian vektor, dan AI generatif untuk menangani tugas-tugas khusus domain yang menuntut informasi kontekstual yang mendalam. Di bawah ini, kita jelajahi beberapa aplikasi utama GraphRAG:

  1. Peringkasan teks yang berfokus pada kueri (QFS)

  2. Rekomendasi yang dipersonalisasi

  3. Dukungan keputusan

  4. Deteksi penipuan dan pencegahan

  5. Manajemen dan pengambilan pengetahuan

Peringkasan teks yang berfokus pada kueri (QFS)

GraphRAG dapat digunakan untuk peringkasan teks yang berfokus pada kueri. GraphRAG berfokus pada menjawab pertanyaan pengguna tertentu dengan mengambil dan mensintesis informasi dari representasi teks yang terstruktur grafik. Sebuah studi menunjukkan efektivitas GraphRAG dalam menjawab pertanyaan global dan eksploratif pada kumpulan data yang besar, seperti transkrip podcast dan artikel berita.3 GraphRAG mengungguli sistem RAG berbasis vektor tradisional dalam tugas-tugas yang membutuhkan wawasan komprehensif dan beragam. Misalnya, GraphRAG diuji pada kumpulan data podcast (~1M token) yang fitur percakapan dengan pemimpin teknologi dan kumpulan data berita (~1,7 juta token) yang mencakup topik kesehatan, bisnis dan teknologi. Pertanyaan termasuk “Bagaimana para pemimpin teknologi memandang undang-undang privasi?” dan “Apa prioritas utama kesehatan masyarakat?” 

GraphRAG memproses kumpulan data ini dengan membangun grafik pengetahuan dengan entitas (misalnya, “undang-undang privasi”) dan hubungan (misalnya, “dampak pada teknologi”), mengaturnya ke dalam komunitas hierarkis (kelompok node terhubung yang mengatur topik tingkat tinggi ke sub-topik tertentu). Ringkasan komunitas yang dibuat sebelumnya memungkinkan sistem untuk mengambil dan menggabungkan insight yang relevan secara efisien. Dibandingkan dengan RAG tradisional, GraphRAG mencapai kelengkapan yang lebih tinggi (72-83%) dan keberagaman (62-82%) dalam jawaban yang dihasilkan sambil membutuhkan token hingga 97% lebih sedikit untuk ringkasan tingkat root. Kemampuan ini menjadikan GraphRAG alat yang ideal untuk tugas-tugas yang masuk akal dalam domain seperti jurnalisme, pendidikan, dan riset.

Rekomendasi yang dipersonalisasi

Dalam domain seperti e-commerce dan hiburan, GraphRAG memungkinkan chatbot dan mesin rekomendasi untuk memberikan pengalaman yang dipersonalisasi. Misalnya, dalam e-commerce, interaksi masa lalu antara pengguna dan produk dapat membentuk grafik. GraphRAG membantu mengelola volume data interaksi pengguna yang terus bertambah dengan mengekstraksi subgraf kunci yang mengungkapkan preferensi dan perilaku pengguna. Penelitian telah menunjukkan bahwa menggunakan beberapa pengambil untuk mengekstrak subgraf yang relevan meningkatkan prediksi tindakan pengguna, sementara mengambil subgraf dari masalah masa lalu yang serupa meningkatkan kualitas sistem penjawab pertanyaan layanan pelanggan.4

Dukungan keputusan

Dalam perawatan kesehatan, GraphRAG membantu dokter dalam mendiagnosis pasien dengan gejala kompleks dengan menganalisis hubungan antara penyakit, gejala, dan perawatan dalam database grafik. GraphRAG mengambil studi medis yang relevan, laporan kasus dan informasi obat untuk menyarankan kemungkinan diagnosis, menyoroti pilihan pengobatan yang efektif dan bahkan memperingatkan potensi interaksi obat. Kemampuan ini memungkinkan profesional kesehatan untuk membuat keputusan yang lebih tepat, mengurangi kesalahan diagnostik, dan memberikan perawatan yang dipersonalisasi kepada pasien.  

Misalnya, sebuah studi baru-baru ini memperkenalkan MedGraphRAG, kerangka kerja yang dirancang untuk aplikasi medis.5 MedGraphRAG mengatur data medis menjadi tiga tingkat: data pengguna pribadi (misalnya, laporan medis), literatur medis ulasan terbaru dan kamus medis dasar, membantu memastikan akurasi, keterlacakan, dan relevansi. Menggunakan struktur grafik hierarkis dan strategi " U-retrieve ", MedGraphRAG secara efisien mengambil dan mensintesis informasi untuk kueri pengguna, meningkatkan kinerja LLM dengan menghasilkan tanggapan berbasis bukti yang andal dengan kutipan sumber. Kerangka kerja ini menunjukkan potensi workflow klinis yang aman, transparan, dan efisien, membantu profesional kesehatan dengan insight yang dapat ditindaklanjuti.

Deteksi dan pencegahan penipuan

GraphRAG mengidentifikasi pola yang tidak biasa yang menyimpang dari perilaku yang diharapkan. Misalnya, dalam layanan keuangan, dapat deteksi pola transaksi yang mencurigakan untuk mencegah penipuan atau mengungkap peluang penjualan silang dengan menganalisis perilaku pelanggan. Dengan menghubungkan beberapa transaksi kecil di seluruh akun, GraphRAG dapat mengungkapkan skema penipuan yang lebih besar, membantu bank meningkatkan manajemen risiko dan menyediakan layanan yang lebih dipersonalisasi. 

Manajemen dan pencarian pengetahuan

GraphRAG dapat meningkatkan manajemen pengetahuan dengan mengatur dan mengambil dokumen dengan cara yang membuat pengetahuan lebih mudah diakses dan disesuaikan dengan kueri tertentu. GraphRAG menganalisis konteks dan hubungan antara berbagai dokumen dan membantu mengekstrak informasi yang paling relevan dengan cepat dan efektif. Contoh, satu contoh penggunaan GraphRAG adalah di firma hukum, di mana GraphRAG unggul dalam mengelola banyak koleksi dokumen hukum. Dengan menganalisis hubungan dan konteks dalam ribuan dokumen hukum, GraphRAG dapat secara efisien mengambil preseden kasus yang relevan atau referensi hukum, merampingkan alur kerja riset dan secara signifikan meningkatkan akurasi.

Akademi AI

Bangkitnya AI generatif untuk bisnis

Pelajari tentang sejarah kebangkitan AI generatif dan apa pengaruhnya bagi bisnis.

Tantangan dari GraphRAG

Sistem GraphRAG menghadirkan tantangan seperti mengelola hubungan data yang kompleks, membantu memastikan pengambilan yang efisien dan mengintegrasikan dengan model bahasa. Tantangan-tantangan ini dapat diatasi melalui desain skema grafik yang cermat, strategi kueri yang dioptimalkan, dan memanfaatkan alat-alat yang tangguh. Tantangan utama yang terkait dengan GraphRAG adalah:

  1. Skalabilitas

  2. Merampingkan integrasi komponen

  3. Keandalan

  4. Privasi dan keamanan

  5. Kemampuan penjelasan

Skalabilitas

Saat volume data meningkat, penskalaan sistem GraphRAG sulit dilakukan. Tantangannya termasuk mengelola data yang tidak terstruktur, penyimpanan grafik yang efisien, mengoptimalkan kueri grafik, pengambilan sampel subgraf, pembuatan responsif, mengatur komponen yang diambil, pelatihan, dan penyempurnaan. Menerapkan solusi perangkat keras canggih, seperti akselerasi GPU, kompresi model, dan pemeliharaan menambah kompleksitas lebih lanjut.

Merampingkan integrasi komponen

Merancang sistem GraphRAG yang kohesif membutuhkan interaksi yang mulus antara prosesor kueri, retriever, organizer, dan komponen generator. Memastikan komponen-komponen ini beroperasi secara harmonis sambil mempertahankan efisiensi dan akurasi adalah tantangan yang kompleks.

Keandalan

Memastikan tingkat kesalahan yang rendah di seluruh penalaran multilangkah merupakan tantangan karena akumulasi kesalahan dalam pengambilan dan pembuatan multihop.

Privasi dan keamanan

Struktur relasional grafik memperkenalkan risiko kebocoran informasi sensitif yang signifikan, karena koneksi dan pola dalam grafik dapat mengungkapkan data pribadi. Melindungi informasi tersebut di seluruh pipeline GraphRAG membutuhkan teknik pelestarian privasi yang kuat. Sistem GraphRAG rentan terhadap serangan jahat, termasuk eksploitasi struktur grafik dan manipulasi prompt, lebih lanjut menekankan perlunya langkah-langkah keamanan yang ditingkatkan.

Kemampuan menjelaskan

Sementara GraphRAG menawarkan kemampuan penjelasan yang ditingkatkan melalui hubungan eksplisit antara node, menghasilkan jalur atau penjelasan penalaran yang jelas dan dapat ditafsirkan tetap menjadi tantangan. Memastikan penjelasan ini komprehensif dan setia pada logika sistem sangat penting untuk kepercayaan pada domain berisiko tinggi seperti perawatan kesehatan, hukum, dan keuangan.

Kerangka kerja untuk membangun sistem GraphRAG

Sistem GraphRAG dapat diimplementasikan dengan menggunakan berbagai alat dan kerangka kerja, termasuk opsi sumber terbuka, untuk mendukung pemrosesan dokumen, pembuatan grafik pengetahuan, pencarian semantik dan Integrasi LLM. Alat populer termasuk LangChain, LlamaIndex, Neo4j dan OpenAI, dengan sumber daya tambahan dan tutorial yang tersedia di platform seperti GitHub. 

LlamaIndex digunakan untuk mengindeks dokumen, mengekstraksi entitas dan hubungan untuk membuat grafik pengetahuan, menghasilkan menanamkan dan mengintegrasikan dengan LLM seperti GPT. Neo4j berfungsi sebagai database untuk menyimpan dan mengelola struktur grafik, memungkinkan pengambilan yang efisien melalui traversal grafik dan hubungan semantik. 

Alat-alat ini bekerja bersama untuk memungkinkan pencarian semantik dengan menggunakan penanaman vektor, penanganan metadata untuk transparansi dan pembuatan respons yang sadar konteks. LLM termasuk model OpenAI GPT, terintegrasi melalui API, membantu menghasilkan jawaban yang akurat dan relevan berdasarkan data grafik yang diambil. 

GraphRAG adalah langkah maju yang besar dari sistem RAG tradisional, yang dibatasi oleh metode pengambilan linier. GraphRAG menggabungkan kekuatan grafik pengetahuan, pencarian semantik dan model bahasa lanjutan. Karena industri menuntut pemahaman yang lebih dalam dan insight yang saling berhubungan, GraphRAG ditetapkan untuk menjadi teknologi kunci. Ini akan memungkinkan sistem informasi yang lebih cerdas, lebih dinamis, dan sangat adaptif di masa depan.

Akademi AI

Bangkitnya AI generatif untuk bisnis

Pelajari tentang sejarah kebangkitan AI generatif dan apa pengaruhnya bagi bisnis.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki

1 Han, H., Wang, Y., Shomer, H., Guo, K., Ding, J., Lei, Y., ... & Tang, J. (2024). Retrieval-augmented generation with graphs (graphrag). arXiv preprint arXiv:2501.00309.

2 Larson, J., & Truitt, S. (2024). GraphRAG: Unlocking LLM discovery on narrative private data. Blog Riset Microsoft. https://www.microsoft.com/id-id/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/

3 Edge, D., Trinh, H., Cheng, N., Bradley, J., Chao, A., Mody, A., ... & Larson, J. (2024). From local to global: A graph rag approach to query-focused summarization. arXiv preprint arXiv:2404.16130.

4 Peng, B., Zhu, Y., Liu, Y., Bo, X., Shi, H., Hong, C., ... & Tang, S. (2024). Graph retrieval-augmented generation: A survey. arXiv preprint arXiv:2408.08921.

5 Wu, J., Zhu, J., Qi, Y., Chen, J., Xu, M., Menolascina, F., & Grau, V. (2024). Medical graph rag: Towards safe medical large language model via graph retrieval-augmented generation. arXiv preprint arXiv:2408.04187.