ما GraphRAG؟

ما GraphRAG؟

GraphRAG هو إصدار متطور من التوليد المعزز بالاسترجاع (RAG) يضم بيانات منظمة في رسوم بيانية، مثل الرسوم البيانية المعرفية (KGs).1 على عكس أنظمة التوليد المعزز بالاسترجاع التقليدية التي تعتمد على البحث عن المتجهات لاسترجاع نصوص متشابهة دلاليًا، يستفيد GraphRAG من البنية العلائقية للرسوم البيانية لاسترجاع المعلومات ومعالجتها بناءً على استعلامات خاصة بالمجالات. 

طُرح GraphRAG في بحث لشركة Microsoft عام 2024 بهدف معالجة قيود النماذج اللغوية الكبرى (LLMs).2 غالبًا ما تواجه النماذج اللغوية الكبرى التقليدية صعوبة في التعامل مع مهام سير العمل المعقدة، خاصة في استدلال البيانات الخاصة أو المنظمة، وذلك لأنها لا تتمكن من فهم العلاقات بين الكيانات. يحل GraphRAG هذه المشكلة باستخدام قواعد بيانات الرسوم البيانية لنمذجة هذه العلاقات، ما يمكنه من التعامل مع الاستعلامات المعقدة، واسترجاع المعلومات السياقية، وتحسين الدقة في تطبيقات الذكاء الاصطناعي التوليدي.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

كيف يعمل GraphRAG؟

التوليد المعزز بالاسترجاع (RAG) هو تقنية تسترجع المعلومات ذات الصلة باستخدام البحث عن التشابه في قواعد بيانات المتجهات، ومصادر المعرفة الخارجية، وقواعد المعرفة الداخلية. ثم تدمج هذه المعلومات المستردة في النماذج اللغوية الكبرى لتوليد مخرجات دقيقة وملائمة للسياق. بينما تعزز تطبيقات التوليد المعزز بالاسترجاع التقليدية وظائف النماذج اللغوية الكبرى في تطبيقات الذكاء الاصطناعي التوليدي، إلا أنها لا تتمكن من فهم العلاقات المعقدة بين البيانات. وهي تواجه صعوبة في أداء مهام مثل الاستدلال متعدد الخطوات (وهو جمع المعلومات من مصادر متعددة لاستخلاص الإجابات من خلال الروابط المنطقية والاستنتاجات غير المباشرة)، والسياق العلائقي، وفهم البيانات الهرمية. على سبيل المثال، قد يواجه نهج التوليد المعزّز بالاسترجاع (RAG) التقليدي صعوبة في التعامل مع استعلام مثل "من طوّر نظرية النسبية؟" لأنه يتطلب الاستدلال بناءً على العلاقات بين الكيانات. 

يتغلب GraphRAG على هذه المشكلة من خلال دمج بيانات منظمة في رسوم بيانية، والتي تنظم المعلومات في شكل شبكة من العُقد (وهي كيانات مثل الأشخاص أو الأماكن)، والحواف (وهي العلاقات بين تلك الكيانات)، والتسميات (وهي السمات التي تحدد فئة العقدة والحافة). على سبيل المثال، قد يعرض الرسم البياني المعرفي "ألبرت أينشتاين—طوّر—النظرية النسبية." في شكل معلومات منظمة في رسم بياني، ما يسهل على GraphRAG استرجاع هذه المعلومات ومعالجتها. في هذا المثال، العُقد هي 'ألبرت أينشتاين' و'النظرية النسبية'، والحافة هي 'طوّر'.

بنية GraphRAG

عناصر GraphRAG

يعمل GraphRAG من خلال أربعة عناصر رئيسية:

  1. معالج الاستعلامات

  2. المسترجع

  3. المنظم

  4. المولد

معالج الاستعلامات

تُجرى معالجة استعلام المستخدم سلفًا لتحديد الكيانات والعلاقات الرئيسية ذات الصلة ببنية الرسم البياني. تُستخدم تقنيات مثل التعرف على الكيانات المسماة (NER) والاستخراج العلائقي من التعلم الآلي لتعيين الاستعلام إلى العُقد والحواف داخل الرسم البياني. على سبيل المثال، استعلام مثل "من طور نظرية النسبية؟" يحدد "ألبرت أينشتاين" كعقدة و"طوّر" كعلاقة يجب البحث عنها في الرسم البياني. تُستخدم أدوات مثل Cyper، وهي لغة استعلام في الرسوم البيانية، لجلب البيانات الخاصة بالمجالات من الرسوم البيانية المعرفية. 

المسترجع

يعمل المسترجع على تحديد موقع المحتوى ذي الصلة واستخراجه من مصادر بيانات الرسم البياني الخارجية بناءً على الاستعلام الذي تُجرى معالجته. على عكس أنظمة التوليد المعزز بالاسترجاع التقليدية التي تعتمد على تضمينات المتجهات للنصوص أو الصور، تتعامل مسترجعات GraphRAG مع البيانات المنظمة في رسوم بيانية من خلال الاستفادة من الإشارات الدلالية والهيكلية. وتستخدم تقنيات مثل خوارزميات مسح الرسوم البيانية (طرق مثل البحث بالعرض أولاً (BFS) أو البحث بالعمق أولاً (DFS) التي تستكشف الرسم البياني لتحديد موقع العُقد والحواف ذات الصلة). تشمل التقنيات الإضافية الشبكات العصبية البيانية (GNNs) (وهي نماذج ذكاء اصطناعي متقدمة تتعلم بنية الرسوم البيانية لاسترجاع البيانات بفعالية)، والاسترجاع التكيفي (يضبط ديناميكيًا عدد الرسوم البيانية التي يجب البحث فيها، ما يقلل من المعلومات غير المهمة أو غير المفيدة)، ونماذج التضمين. بالنسبة إلى استعلام "من طور النظرية النسبية؟"، يحدد المسترجع موقع عقدة "النظرية النسبية" في الرسم البياني ويتبع علاقة "طورها" ليصل إلى "ألبرت أينشتاين".

المنظم

يُجرى تحسين بيانات الرسم البياني المستردة لإزالة المعلومات غير ذات الصلة أو غير المفيدة باستخدام تقنيات مثل تنقيح الرسم البياني وإعادة الترتيب والإثراء. يساعد المنظم على ضمان أن يكون الرسم البياني المسترجع نظيفًا وموجزًا وجاهزًا للمعالجة مع الحفاظ على المعلومات السياقية الحساسة. بالنسبة إلى استعلام "من طور النظرية النسبية؟" يعمل المنظم على تحسين بيانات الرسم البياني المستردة عن طريق إزالة العُقد والحواف غير ذات الصلة؛ ما يساعد على ضمان الاحتفاظ فقط بالعلاقة ذات الصلة، وهي "ألبرت أينشتاين—طوّر—النظرية النسبية". 

المولد

ثم تُستخدم بيانات الرسم البياني التي جرى تنظيفها لإنتاج المخرج النهائي. يمكن أن يتضمن ذلك توليد إجابات قائمة على النصوص باستخدام النماذج اللغوية الكبرى أو إنشاء هياكل رسم بياني جديدة للمهام العلمية، مثل تصميم الجزئيات أو توسيع الرسوم البيانية المعرفية. بالنسبة إلى استعلام "من طور النظرية النسبية؟"، يسترجع GraphRAG "ألبرت أينشتاين" من الرسم البياني ويولد الإجابة: "ألبرت أينشتاين طوّر النظرية النسبية." تُستخدم تقنيات الذكاء الاصطناعي التوليدي لصياغة الرد النهائي. 

مثال على GraphRAG

تطبيقات GraphRAG

يُحدث GraphRAG تحولاً جذريًا عبر الصناعات، حيث يجمع بين الاستدلال القائم على الرسوم البيانية، والبحث عن المتجهات، والذكاء الاصطناعي التوليدي للتعامل مع المهام الخاصة بالمجالات والتي تتطلب معلومات سياقية عميقة. فيما يلي، نستكشف بعض تطبيقات GraphRAG الرئيسية:

  1. تلخيص النص الذي يركز على الاستعلام (QFS)

  2. إنشاء توصيات مخصصة

  3. دعم القرارات

  4. الكشف عن الغش ومنعه

  5. إدارة المعرفة واسترجاعها

تلخيص النص الذي يركز على الاستعلام (QFS)

يمكن استخدام GraphRAG لتلخيص النص الذي يركز على الاستعلام. وهو يركز على الإجابة عن استعلامات المستخدمين المحددة عن طريق استرجاع المعلومات من تمثيل النص المنظم في رسم بياني وصياغتها. أظهرت إحدى الدراسات فعالية GraphRAG في الإجابة عن الأسئلة الاستكشافية الشاملة التي تغطي مجموعات بيانات كبيرة، مثل نصوص البودكاست والمقالات الإخبارية.3 وقد تفوق على أنظمة التوليد المعزز بالاسترجاع التقليدية القائمة على المتجهات في المهام التي تتطلب معارف شاملة ومتنوعة. على سبيل المثال، خضع GraphRAG للاختبار على مجموعة بيانات بودكاست (حوالي مليون رمز مميز) تضمنت محادثات مع مسؤولين تقنيين ومجموعة بيانات إخبارية (حوالي 1.7 مليون رمز مميز) تغطي موضوعات الصحة والأعمال والتقنية. تضمنت الأسئلة "كيف ينظر المسؤولون التقنيون إلى قوانين الخصوصية؟" و"ما أهم أولويات السلامة العامة؟ 

يعالج GraphRAG هذه المجموعات من البيانات من خلال إنشاء رسم بياني معرفي يحتوي على كيانات (مثل "قوانين الخصوصية") وعلاقات (مثل "التأثير التقني)، وتنظيمها في تجمعات هرمية (وهي مجموعة من العُقد المتصلة تنظم مواضيع عالية المستوى إلى مواضيع فرعية محددة). تسمح ملخصات التجمعات المُنشأة مسبقًا للنظام باسترجاع المعارف ذات الصلة ودمجها بكفاءة. مقارنة بأنظمة التوليد المعزز بالاسترجاع التقليدي، حقق GraphRAG نسبة شمولية أعلى (72–83%) وتنوعًا أعلى (62–82%) في الإجابات المولدة مع متطلبات نسبة رموز مميزة أقل تصل إلى 97% للملخصات على مستوى المصادر. تجعل هذه الإمكانات من GraphRAG أداة مثالية للمهام المنطقية في مجالات مثل الصحافة والتعليم والبحث.

تقديم توصيات مخصصة

في مجالات مثل التجارة الإلكترونية والترفيه، يُمكّن GraphRAG روبوتات المحادثة ومحركات التوصيات من تقديم تجارب مخصصة. على سبيل المثال، في مجال التجارة الإلكترونية، يمكن أن تشكل التفاعلات السابقة بين المستخدمين والمنتجات رسمًا بيانيًا. يساعد GraphRAG على إدارة الحجم المتزايد لبيانات تفاعلات المستخدمين من خلال استخراج الرسوم البيانية الفرعية المهمة التي تكشف عن تفضيلات المستخدمين وسلوكياتهم. أظهرت الأبحاث أن استخدام عدة مسترجعات لاستخراج الرسوم البيانية الفرعية ذات الصلة يعزز التنبؤ بسلوك المستخدم، بينما يحسن استرجاع الرسوم البيانية الفرعية الخاصة بمشكلات سابقة مماثلة جودة أنظمة الأسئلة والإجابة في خدمة العملاء.4

دعم القرارات

في مجال الرعاية الصحية، يساعد GraphRAG الأطباء على تشخيص المرضى الذين يعانون من أعراض معقدة من خلال تحليل العلاقات بين الأمراض والأعراض والعلاجات داخل قاعدة بيانات الرسم البياني. كما أنه يسترجع الدراسات الطبية وتقارير الحالات ومعلومات الأدوية ذات الصلة لاقتراح التشخيصات المحتملة، وتسليط الضوء على خيارات العلاج الفعالة، وحتى التحذير من التفاعلات الدوائية المحتملة. تتيح هذه الإمكانات للأطباء اتخاذ قرارات أكثر استنارة وتقليل الأخطاء التشخيصية وتقديم رعاية مخصصة للمرضى. 

على سبيل المثال، طرحت دراسة حديثة MedGraphRAG، وهو إطار عمل مصمم للتطبيقات الطبية.5 وهو ينظم البيانات الطبية إلى ثلاثة مستويات: بيانات المستخدمين الخاصة (مثل التقارير الطبية)، والمراجع الطبية الحديثة المراجعة من الزملاء، والقواميس الطبية الأساسية، ما يساعد على ضمان الدقة وقابلية التتبع والملاءمة. باستخدام هيكل رسم بياني هرمي وإستراتيجية "الاسترجاع U"، يسترجع المعلومات ويصوغها بكفاءة للرد على استعلامات المستخدمين، ما يحسن أداء النماذج اللغوية الكبرى من خلال توليد ردود موثوقة قائمة على الأدلة مع ذكر المراجع. يظهر إطار العمل هذا الإمكانات التي تجعل سير العمل السريرية آمنة وشفافة وفعالة، ما يساعد العاملين في مجال الرعاية الصحية من خلال توفير معارف عملية مثبتة.

الكشف عن الغش ومنعه

يحدد GraphRAG الأنماط غير المعتادة التي تحيد عن السلوك المتوقع. على سبيل المثال، في مجال الخدمات المالية، يمكنه اكتشاف أنماط المعاملات المشبوهة لمنع الاحتيال أو الكشف عن فرص البيع المتبادل من خلال تحليل سلوك العملاء. ومن خلال ربط العديد من المعاملات الصغيرة عبر الحسابات، يمكن أن يكشف GraphRAG عن مخططات احتيالية أكبر، ما يساعد البنوك على تعزيز إدارة المخاطر وتقديم خدمات أكثر تخصيصًا. 

إدارة المعرفة واسترجاعها

يمكن أن يعزز GraphRAG إدارة المعرفة من خلال تنظيم المستندات واسترجاعها بطريقة تجعل الوصول إلى المعرفة أكثر سهولة وتجعلها مخصصة للاستعلامات. فهو يحلل السياق والعلاقات بين مختلف المستندات ويساعد على استخراج المعلومات الأكثر صلة بسرعة وفعالية. على سبيل المثال، تتمثل إحدى حالات استخدام GraphRAG البارزة في شركات المحاماة، حيث يتفوق في إدارة مجموعات كبيرة من المستندات القانونية. ومن خلال تحليل العلاقات والسياق في آلاف المستندات القانونية، يمكن أن يسترجع GraphRAG السوابق القضائية ذات الصلة أو المراجع القانونية بكفاءة، ما يبسط سير العمل البحثي ويحسن الدقة بشكل كبير.

أكاديمية الذكاء الاصطناعي

صعود الذكاء الاصطناعي التوليدي في قطاع الأعمال

تعرّف على الصعود التاريخي للذكاء الاصطناعي التوليدي وما يعنيه بالنسبة إلى قطاع الأعمال.

تحديات GraphRAG

تواجه أنظمة GraphRAG تحديات مثل إدارة علاقات البيانات المعقدة، ما يساعد على ضمان الاسترجاع الفعال والتكامل مع النماذج اللغوية. يمكن معالجة هذه التحديات من خلال التصميم الدقيق لمخطط الرسوم البيانية وإستراتيجيات الاستعلام المحسّنة والاستفادة من الأدوات الفائقة. تتمثل تحديات GraphRAG الأساسية فيما يلي:

  1. قابلية التوسع

  2. تبسيط تكامل العناصر

  3. الموثوقية

  4. الخصوصية والأمان

  5. إمكانية التفسير

قابلية التوسع

مع زيادة حجم البيانات، يصبح توسيع نطاق أنظمة GraphRAG أمرًا صعبًا. تشمل التحديات إدارة البيانات غير المنظمة، وتخزين الرسوم البيانية بكفاءة، وتحسين استعلامات الرسوم البيانية، وأخذ عينات من الرسوم البيانية الفرعية، والتوليد التفاعلي، وتنظيم العناصر المستردة، والتدريب، والضبط الدقيق. وتؤدي إضافة حلول متقدمة للأجهزة مثل تسريع وحدة معالجة الرسومات (GPU) وضغط النماذج وصيانتها إلى زيادة التعقيد.

تبسيط تكامل العناصر

يتطلب تصميم نظام GraphRAG متماسك تفاعلاً سلسًا بين عناصر معالج الاستعلام، والمسترجع، والمنظم، والمولد. يمثل ضمان عمل هذه العناصر بشكل متناغم مع الحفاظ على الكفاءة والدقة تحديًا معقدًا.

الموثوقية

يُعد ضمان انخفاض معدلات الخطأ عبر الاستدلال متعدد الخطوات أمرًا صعبًا بسبب تراكم الأخطاء في الاسترجاع متعدد الخطوات والتوليد.

الخصوصية والأمان

تقدم البنية العلائقية للرسوم البيانية مخاطر كبيرة تتعلق بتسريب المعلومات الحساسة، حيث يمكن أن تكشف الروابط والأنماط الموجودة داخل الرسوم البيانية عن بيانات خاصة. تتطلب حماية هذه المعلومات عبر مسار GraphRAG بأكمله تقنيات فائقة للحفاظ على الخصوصية. تُعد أنظمة GraphRAG عرضة للهجمات العدائية، بما في ذلك استغلال هياكل الرسوم البيانية والتلاعب بالموجِّهات، ما يؤكد الحاجة إلى تدابير أمنية محسنة.

قابلية التفسير

بينما يعزز GraphRAG قابلية التفسير من خلال العلاقات الصريحة بين العُقد، إلا أن إنشاء مسارات أو تفسيرات استدلال واضحة وقابلة للتفسير لا يزال يمثل تحديًا. ويُعد ضمان أن تكون هذه التفسيرات شاملة ومتبعة لمنطق النظام أمرًا مهمًا لضمان الثقة بالمجالات ذات المخاطر العالية مثل الرعاية الصحية والقانون والقطاع المالي.

أُطر عمل إنشاء نظام GraphRAG

يمكن تنفيذ أنظمة GraphRAG باستخدام أدوات وأُطر عمل متنوعة، بما في ذلك خيارات المصدر المفتوح، لدعم معالجة المستندات، وإنشاء رسوم بيانية معرفية، والبحث الدلالي، وتكامل النماذج اللغوية الكبرى. من بين الأدوات الشهيرة LangChain، وLlamaIndex، وNeo4j، وOpenAI، مع موارد إضافية وبرامج تعليمية متاحة على منصات مثل GitHub. 

يُستخدم LlamaIndex لفهرسة المستندات، واستخراج الكيانات والعلاقات لإنشاء الرسوم البيانية المعرفية، وتوليد تضمينات المتجهات، والتكامل مع النماذج اللغوية الكبرى مثل GPT. يعمل Neo4j كقاعدة بيانات لتخزين هياكل الرسوم البيانية وإدارتها، ما يتيح الاسترجاع الفعال من خلال مسح الرسوم البيانية والعلاقات الدلالية. 

تعمل هذه الأدوات معًا لتمكين البحث الدلالي باستخدام تضمينات المتجهات، ومعالجة البيانات الوصفية لتحقيق الشفافية، وتوليد ردود ملائمة للسياق. تساعد النماذج اللغوية الكبرى بما في ذلك نماذج OpenAI GPT، والمتكاملة من خلال واجهات برمجة التطبيقات، على إنتاج إجابات دقيقة وذات صلة بناءً على بيانات الرسم البياني المستردة. 

يمثل GraphRAG تطورًا كبيرًا في أنظمة التوليد المعزز بالاسترجاع التقليدية، والمقيدة بطرق الاسترجاع الخطية. فهو يجمع بين إمكانات الرسوم البيانية المعرفية والبحث الدلالي والنماذج اللغوية المتقدمة. ومع مطالبة الصناعات بفهم أعمق ومعارف مترابطة، فسيصبح GraphRAG تقنية رئيسية. وسيتيح أنظمة معلومات أكثر ذكاءً وديناميكية وقابلية للتكيف في المستقبل.

أكاديمية الذكاء الاصطناعي

صعود الذكاء الاصطناعي التوليدي في قطاع الأعمال

تعرّف على الصعود التاريخي للذكاء الاصطناعي التوليدي وما يعنيه بالنسبة إلى قطاع الأعمال.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
خدمات الذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1 Han, H., Wang, Y., Shomer, H., Guo, K., Ding, J., Lei, Y., ... & Tang, J. (2024). التوليد المعزز بالاسترجاع باستخدام الرسوم البيانية (graphrag). طبعة arXiv أولية على arXiv:2501.00309.

2 Larson, J., & Truitt, S. (2024). GraphRAG: أطلق العنان لاكتشاف النماذج اللغوية الكبرى للبيانات الخاصة السردية. مدونة Microsoft Research. https://www.microsoft.com/qa-ar/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/

3 Edge, D., Trinh, H., Cheng, N., Bradley, J., Chao, A., Mody, A., ... & Larson, J. (2024). من المحلي إلى العالمي: نهج التوليد المعزز بالاسترجاع باستخدام الرسوم البيانية في التلخيص الذي يركز على الاستعلام. طبعة arXiv أولية على arXiv:2404.16130.

4 Peng, B., Zhu, Y., Liu, Y., Bo, X., Shi, H., Hong, C., ... & Tang, S. (2024). التوليد المعزز بالاسترجاع باستخدام الرسوم البيانية: استطلاع. طبعة arXiv أولية على arXiv:2408.08921.

5 Wu, J., Zhu, J., Qi, Y., Chen, J., Xu, M., Menolascina, F., & Grau, V. (2024). التوليد المعزز بالاسترجاع باستخدام الرسوم البيانية الطبية: نحو النماذج اللغوية الكبرى الآمنة في المجال الطبي من خلال التوليد المعزز بالاسترجاع باستخدام الرسوم البيانية. طبعة arXiv أولية على arXiv:2408.04187.