ما المقصود باسترجاع المعلومات؟

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Meredith Syed

Technical Content, Editorial Lead

IBM

ما المقصود باسترجاع المعلومات؟

استرجاع المعلومات (IR) هو مجال واسع من علوم الكمبيوتر وعلوم المعلومات يتناول استرجاع البيانات لاستعلامات المستخدم. وهو نظام يشغِّل أدوات البحث مثل فهارس المكتبات ومحركات البحث على الويب.

يمكننا بشكل عام تعريف استرجاع المعلومات على أنه العثور على بيانات غير منظمة داخل مجموعة كبيرة من أجل تلبية حاجة معينة للمعلومات.1 يوفر نظام استرجاع المعلومات (IR) مواد المعلومات استجابةً لاستعلام معين. يبحث النظام في المجموعات عن العناصر ذات الصلة باستعلام المستخدم. ثم يعمل على إرجاع تلك العناصر إلى المستخدم، عادةً في شكل قائمة مرتبة حسب مدى الصلة المحسوب.2

تعمل أنظمة وتقنيات استرجاع المعلومات على تشغيل مجموعة من أدوات البحث، مثل محركات البحث على الويب وفهارس المكتبات الرقمية.

مقارنة بين استرجاع المعلومات واسترجاع البيانات

من الجدير بالذكر أن العديد من المصادر عبر الإنترنت تقارن بين أنظمة استرجاع المعلومات وأنظمة استرجاع البيانات: تعمل أنظمة استرجاع المعلومات على استرجاع المعلومات غير المنسقة، مثل المستندات النصية وصفحات الويب؛ في المقابل، تتعامل أنظمة استرجاع البيانات مع البيانات المنسقة، كما هي موجودة في أنظمة إدارة قواعد البيانات العلائقية. وبالتبعية، تستخدم أنظمة استرجاع البيانات لغة الاستعلام المركبة (SQL) لإجراء عمليات البحث.

ومع ذلك، فإن وجه الاختلاف بين نظام استرجاع المعلومات كنظام يتعامل مع البيانات غير المنسقة وغير العلائقية ونظام استرجاع البيانات كنظام يتعامل مع البيانات المنسقة والعلائقية يزيد الأمر غموضًا أكثر من العديد من المصادر عبر الإنترنت. تعمل أنظمة استرجاع المعلومات على فهرسة المعلومات ومن ثَم تنسيقها. على سبيل المثال، في حين أنه من الصحيح أن أنظمة استرجاع المعلومات تتعامل عادةً مع استرجاع المستندات النصية غير المنسقة، إلا إن بعض أنظمة استرجاع المعلومات تستخدم لغة الترميز الموسعة (XML)لتمثيل النصوص وفهرستها. غالبًا ما تصف الأبحاث الأنظمة القائمة على لغة XML بأنها فرع من فروع أنظمة استرجاع المعلومات يسمى الاسترجاع المنسق أو الاسترجاع شبه المنسق.3 واستكشفت الأبحاث كذلك استخدام نماذج استرجاع المعلومات العلائقية على مر عقود من الزمن.4

ومن ثَم فإن وجه الاختلاف بين أنظمة استرجاع المعلومات وأنظمة استرجاع البيانات أكثر غموضًا مما كان يُعتقد عادةً. في الواقع، نظرًا إلى أن البيانات تُعد، بحكم تعريفها، معلومات، فربما يكون من الأفضل النظر إلى أنظمة استرجاع البيانات المنسقة كنوع من أنواع أنظمة استرجاع المعلومات.

مقارنة بين أنظمة استرجاع المعلومات وأنظمة التوصية

لاحظ أن أنظمة استرجاع المعلومات تختلف عن أنظمة التوصية. قد يظن بعض الناس أن تقنيات التوصية بالتعلم الآلي - مثل التصفية الجماعية والتصفية القائمة على المحتوى - شكل من أشكال تصفية المعلومات، لكنها مهمة فرعية من مهام أنظمة استرجاع المعلومات. ومع ذلك، فإن أنظمة استرجاع المعلومات تختلف عن أنظمة التوصية. تنتظر أنظمة استرجاع المعلومات عادةً استعلامًا من المستخدم؛ لكن محركات التوصية عادةً ما تعمل على استرجاع البيانات من دون وجود استعلام من المستخدم.5

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

آلية عمل أنظمة استرجاع المعلومات

تمثل نماذج استرجاع المعلومات المختلفة المعلومات بطرق مختلفة. يحدد أفضل أشكال تمثيل المستندات غالبًا كيفية بحث النموذج عن المعلومات واسترجاعها. غير أن الفهرسة والترجيح وردود الفعل حول مدى الصلة هي ثلاث تقنيات لاسترجاع المعلومات شائعة عبر نماذج استرجاع المعلومات.

الفهرسة

تعادل عملية الفهرسة بشكل أساسي عملية إنشاء البيانات الوصفية.6 يجد العديد من الأشخاص فهرسًا في نهاية أي كتاب مطبوع. والفهرس هو مجموعة منظمة من الكلمات المجمعة من المستند المطبوع يُسهل على القراء الوصول إلى فقرات حول مواضيع معينة. وفهرس أنظمة استرجاع المعلومات مشابه لذلك. يُعد فهرس أنظمة استرجاع المعلومات (أو الفهرس المقلوب) منظومة بيانات مصدرها مجموعة من المستندات وتهدف إلى تحسين نتائج عمليات البحث.7

يتطلب إنشاء فهرس لمستند ما تحليل المستند أولاً لاستخراج العناصر. لنفترض، على سبيل المثال، أننا ننشئ نظام استرجاع معلومات للمستندات النصية. فكما هو شائع في معالجة اللغة الطبيعية (NLP)، نجهز مجموعة المستندات من خلال استخدام التقنيات المختلفة لمهام ما قبل المعالجة، مثل التجزئة إلى رموز مميزة وإزالة الكلمات الشائعة. ثم يمثل نظام استرجاع معلومات هذه المجموعة المعالجة من المستندات كمنظومة بيانات منظمة. ومن أشكال هذه المنظومة أنها تكون بمثابة قاموس يحتوي كل مستند فيه على مُعرّف وهو الكلمات (أو مصطلحات الفهرس) التي تظهر فيه.8 ومن الأشكال المحتملة كذلك لمنظمومة استرجاع البيانات في أنظمة استرجاع النصوص نموذج فضاء المتجهات، مثل حقائب الكلمات.9 يستخرج كلا النهجين الكلمات كعناصر، تُستخدم بعد ذلك لاسترجاع المستندات وترتيبها استجابةً لاستعلامات المستخدمين.

الترجيح

كيف يُرتب نظام البحث النتائج المتقاربة أو المتطابقة تمامًا للاستعلامات؟ تعتمد طرق ترتيب المعلومات واسترجاعها على كل من نوع نموذج استرجاع المعلومات وشكل تمثيل المستندات المستخدم في النظام. ومع ذلك، تؤدي مصطلحات الفهرس دورًا رئيسيًا في كيفية ترتيب أنظمة استرجاع المعلومات للمستندات استجابةً للاستعلامات. ولكن ليست كل مصطلحات الفهرس متساوية. لذا تستخدم أنظمة استرجاع المعلومات طرقًا مختلفة لترجيح مصطلحات الفهرس حسب أهميتها المتصورة.

ويمكن لأنظمة استرجاع المعلومات التي تستخدم نماذج فضاء المتجهات، مثل حقائب الكلمات، أن تستعمل مقياس تكرار المصطلح- تكرار المستند العكسي (TF-IDF). مقياس TF-IDF هو نوع مختلف من حقائب الكلمات يوضح مدى انتشار الكلمة في كل مستند موجود في مجموعة النصوص. وكلما زاد عدد المستندات التي تظهر فيها الكلمة، قلل مقياس TF-IDF من وزن تلك الكلمة. تشمل الأساليب الأخرى تحليل القيمة المنفردة (SVD) والتحليل الدلالي الكامن (LSA)، وهو أحد الأساليب الشائعة لنمذجة الموضوعات.10

تؤثر أساليب الترجيح هذه في كيفية ترتيب أنظمة استرجاع المعلومات للمستندات استجابةً للاستعلامات. لكن أنواعًا أخرى من نماذج استرجاع المعلومات تستخدم هذه الأوزان في الترتيب بطرق مختلفة.

التعليقات حول مدى الصلة

كيف يمكن تحسين نتائج الأنظمة؟ أو كيف يمكن للنظام ضبط عمليات بحث المستخدم ضبطًا دقيقًا وزيادة عدد المستندات ذات الصلة التي تُعرض للمستخدم؟

تُعد ردود الفعل حول مدى الصلة إحدى تقنيات استرجاع المعلومات الشائعة لتحسين نتائج البحث. تجمع تقنية ردود الفعل حول مدى الصلة بشكل أساسي معلومات حول كيفية استجابة المستخدم لمجموعة أولية من نتائج الاستعلام. ثم يُعيد النظام تقييم العناصر حسب أهميتها في ضوء استجابات المستخدم. ثم يعرض مجموعة جديدة من نتائج البحث تتضمن الاستعلام الأولي وتعليقات المستخدم على تلك المجموعة الأولية من نتائج الاستعلام.

تتضمن ردود الفعل حول مدى الصلة عادةً تقديم المستخدم استجابات صريحة حول مدى صلة المستندات المعروضة. أما ردود الفعل الضمنية فهي شكل مختلف يستنتج مدى صلة العناصر من خلال مراقبة سلوك المستخدم - أو على سبيل المثال، روابط الموقع الإلكتروني التي ينقر عليها المستخدم في صفحة نتائج البحث. تفترض ردود الفعل الزائفة حول مدى الصلة أن أول سلسلة من المستندات المسترجعة في الاستعلام الأولي ذات صلة. ثم تجمع المزيد من العناصر المشتركة بين تلك المستندات لتعديل نتائج الاستعلام بشكل أفضل.11

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

أنواع تقنيات استرجاع المعلومات

توجد أنواع عديدة من نماذج استرجاع المعلومات. يتطلب تقديم أي شيء في شكل ملخص وافٍ مناقشة أوسع من ذلك بكثير. وعلى كلٍ، فإن كتب دليل أنظمة استرجاع المعلومات والنظرات العامة الشاملة غالبًا ما تُجمع على ذكر ثلاث منهجيات عامة لاسترجاع المعلومات: المنطقية والجبرية والاحتمالية.

النموذج المنطقي

ربما تكون النماذج المنطقية هي نماذج استرجاع المعلومات الأكثر وضوحًا وبساطة. ويستخدم النموذج شكل القاموس لمصطلحات الفهرس كما هو موضح سابقًا. ثم يُرتب النموذج بعد ذلك المستندات على حسب وجود كلمات من استعلام المستخدم في المستندات المعروضة. على سبيل المثال، إذا كتب المستخدم في الاستعلام، "الجاز والرقص"، فإن النموذج المنطقي يسترجع فقط تلك المستندات التي تحتوي على كلمتي "الجاز" و"الرقص" معًا. ومن ثَم فإن النماذج المنطقية تركز فقط على وجود الكلمات في المستندات من عدمه؛ لا توجد تطابقات جزئية في أنظمة الاسترجاع المنطقية. يمكن لتقنيات مهام ما قبل معالجة النصوص مثل التجذيع والتجريد أن تحل مشكلة المشتقات الصرفية — مثل المستندات التي تحتوي على رقص أو رقصات أو راقصة، بدلاً من الاقتصار على الكلمة الموجودة في استعلام المستخدم فقط "رقص".

كما ذكرنا سابقًا، لا تهتم النماذج المنطقية سوى بوجود الكلمات وغيابها. يفتقر معيار القرار الثنائي هذا إلى مقياس الدرجات لتحديد المستندات الأكثر صلة باستعلام المستخدم. ومن الحلول المحتملة تقييم المستندات على حسب معدل تكرار المصطلحات الموجودة في استعلام المستخدم فيها. بمعنى آخر، كلما كان المستند مذكورًا فيه كلمتي "الجاز" و"الرقص"، قيّمه النموذج على أنه أكثر صلة باستعلام المستخدم. ومع ذلك، فإن زيادة تكرار المصطلحات لا تشير بالضرورة إلى زيادة الصلة. وعلى الرغم من هذا العيب المحتمل، إلا إن النماذج المنطقية قد استُخدمت في العديد من أنظمة استرجاع المعلومات نظرًا إلى سهولة تطبيقها.12

النموذج الجبري

تحجب أنظمة استرجاع المستندات المنطقية أي شكل من أشكال التطابق الجزئي. تعالج النماذج الجبرية والاحتمالية هذه المشكلة من خلال تحديد أوزان غير ثنائية لمصطلحات الفهرس.

من النماذج الجبرية التمثيلية نموذج فضاء المتجهات. في هذا النهج، يمثل نظام استرجاع المعلومات المستندات والاستعلامات كمتجهات في فضاء متجهات متعدد الأبعاد. في هذا الفضاء، من المرجح أن تكون مصطلحات الفهرس هي عناصر فضاء المتجهات، وتُرسم الاستعلامات والمستندات في هذا الفضاء وفقًا لمعدل وجود مصطلحات الفهرس وتكرارها. يحسب نظام استرجاع المعلومات مقدار التشابه بين استعلام البحث والمستندات على حسب مدى قربها في فضاء المتجهات.

يوجد عدد من المقاييس المستخدمة لتحديد درجة القرب في نموذج فضاء المتجهات، مثل مقياس Jaccard والضرب القياسي. لكن أكثر هذه المقاييس انتشارًا تشابه جيب التمام، الذي تمثِّله الصيغة التالية:

 cosine_similarity(A,B)=i=1nAiBii=1nAi2i=1nBi2   

في هذا المقياس، تُشير A وB إلى متجهين في فضاء المتجهات. حيث يمكن أن تكون درجة تشابه جيب التمام أي قيمة بين -1 و1. فكلما زادت درجة جيب التمام، دلّ ذلك على زيادة التشابه بين العنصرين.

يعرض نموذج فضاء المتجهات بنظام استرجاع المعلومات المستندات بالترتيب على حسب درجة التشابه المُقدرة. وبهذه الطريقة، تسمح أنظمة استرجاع المعلومات الجبرية، مثل نموذج فضاء المتجهات، بالتطابق الجزئي، ما قد يوفر شكلاً أكثر دقة أو وضوحًا لاسترجاع المعلومات.13

النموذج الاحتمالي

تسمح النماذج الاحتمالية أيضًا بالتطابق الجزئي بين استعلامات المستخدم والمستندات. تعمل النماذج الاحتمالية على افتراض أن استعلامًا معينًا يحتوي على مجموعة مثالية من موارد نظام استرجاع المعلومات. وهذه المجموعة المثالية غير معروفة بكل تأكيد. لكن دلالات مصطلحات الفهرس يمكن أن تميز خصائص هذه المجموعة.

وكما هو الحال مع النماذج الجبرية، تعتمد النماذج الاحتمالية على معدل وجود مصطلحات الفهرس وتكرارها لتحديد مدى التشابه بين الاستعلامات والمستندات. بيد أن النماذج الاحتمالية تختلف في أنها تراعي عوامل إضافية. على سبيل المثال، قد تراعي تكرار مصطلحات الفهرس مع بعضها - عدد مرات ظهور مصطلحات الفهرس في المستند مع بعضها – عبر المستند بطوله، أو عدد مرات ظهور أحد مصطلحات الفهرس في مصطلحات الاستعلام. هذه ليست سوى بعض العوامل المحتملة التي تراعيها النماذج الاحتمالية - تتطلب المناقشة الأكثر تفصيلاً فهمًا أعمق لنظرية الاحتمالات.

لاحظ أنه ليست جميع النماذج الاحتمالية تراعي العوامل نفسها عند حساب مدى تشابه المستندات أو الاحتمالات. على سبيل المثال، لا يراعي نموذج الاستقلال الثنائي (BIM)، وهو أول نموذج احتمالي لاسترجاع المعلومات، معدل تكرار المصطلحات. ومع ذلك، فإن النموذج الذي يتضمن تقنية تخصيص دركليه الكامن (LDA) لنمذجة الموضوعات سيراعي معدل تكرار المصطلحات مع بعضها.14

الأبحاث الحديثة

التحيز. ربما تكون محركات البحث الإلكتروني واحدة من أكثر حالات استخدام أنظمة استرجاع المعلومات شهرةً. تُستخدم أداة تلخيص النصوص PageRank لاسترجاع صفحات الويب (مستندات HTML) وترتيبها. تُثبت الأبحاث بما لا يدع مجالاً للشك الحقيقة المؤسفة المتمثلة في أن خوارزميات البحث تدعم مجموعة من التحيزات، مثل التحيزات العرقية والجندرية.15 ونتيجة لذلك، دأبت التجارب المنشورة على استكشاف مجموعة من الأساليب لتقليل التحيز الاجتماعي في أنظمة استرجاع المعلومات، مثل أخذ عينات سلبية 16 والخوارزميات التي ترصد التحيز وتتضمن عقوبات للنتائج المتحيزة.17 يُعد الحد من التحيز مجالاً من مجالات البحث بالغة الأهمية والتي تهدف إلى تطوير الممارسات الأخلاقية في أنظمة استرجاع المعلومات وحتى الذكاء الاصطناعي.

حلول ذات صلة
IBM watsonx Orchestrate

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate
أدوات معالجة اللغة الطبيعية وواجهات برمجة التطبيقات

تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.

استكشف حلول معالجة اللغة الطبيعية
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate استكشف حلول معالجة اللغة الطبيعية
الحواشي

1 Christopher Manning، وPrabhakar Raghavan، وHinrich Schütze، مقدمة في استرجاع المعلومات، مطبعة جامعة كامبريدج، عام 2009.

2 Qiaozhu Mei وDragomir Radev، "استرجاع المعلومات"، دليل أكسفورد للغويات الحاسوبية، الطبعة الثانية، مطبعة جامعة أكسفورد، عام 2016.

3 Christopher Manning، وPrabhakar Raghavan، وHinrich Schütze، مقدمة في استرجاع المعلومات، مطبعة جامعة كامبريدج، عام 2009. Mounia Lalmas وRicardo Baeza-Yates، "استرجاع المستندات المنسقة"، موسوعة أنظمة قواعد البيانات، Springer، عام 2018.

4 Robert Crawford، "النموذج العلائقي في استرجاع المعلومات"، مجلة Journal of the American Society for Information Science، مجلد 32، العدد 1، عام 1981، ص. 51-64.

5 Alejandro Bellogín وAlan Said، "أنظمة استرجاع المعلومات وأنظمة التوصية"، Data Science in Practice، Springer، عام 2018.

6 Jeffrey Pomerantz، البيانات الوصفية، مطبعة MIT Press، عام 2015.

7 Steven Beitzel، Eric Jensen، وOphir Frieder، "إنشاء الفهرس وهياكل الملفات"، موسوعة أنظمة قواعد البيانات، Springer، عام 2018.

8 Christopher Manning، وPrabhakar Raghavan، وHinrich Schütze، مقدمة في استرجاع المعلومات، مطبعة جامعة كامبريدج، عام 2009.

9 Qiaozhu Mei وDragomir Radev، "استرجاع المعلومات"، دليل أكسفورد للغويات الحاسوبية، الطبعة الثانية، مطبعة جامعة أكسفورد، عام 2016.

10 Qiaozhu Mei وDragomir Radev، "استرجاع المعلومات"، دليل أكسفورد للغويات الحاسوبية، الطبعة الثانية، مطبعة جامعة أكسفورد، عام 2016. Ricardo Baeza-Yates وBerthier Ribeiro-Neto، أنظمة استرجاع المعلومات الحديثة، مطبعة ACM Press، عام 1999.

11 Qiaozhu Mei وDragomir Radev، "استرجاع المعلومات"، دليل أكسفورد للغويات الحاسوبية، الطبعة الثانية، مطبعة جامعة أكسفورد، عام 2016. Stefan Büttcher، وCharles Clarke، وGordon Cormack، استرجاع المعلومات: استخدام محركات البحث وتقييمها، مطبعة MIT Press، عام 2016.

12 Ricardo Baeza-Yates وBerthier Ribeiro-Neto، أنظمة استرجاع المعلومات الحديثة، مطبعة ACM Press، عام 1999. Christopher Manning، وPrabhakar Raghavan، وHinrich Schütze، مقدمة إلى استرجاع المعلومات، مطبعة جامعة كامبريدج، عام 2009.

13 Qiaozhu Mei وDragomir Radev، "استرجاع المعلومات"، دليل أكسفورد للغويات الحاسوبية، الطبعة الثانية، مطبعة جامعة أكسفورد، عام 2016. Christopher Manning، وPrabhakar Raghavan، وHinrich Schütze، مقدمة إلى استرجاع المعلومات، مطبعة جامعة كامبريدج، عام 2009.

14 Ricardo Baeza-Yates وBerthier Ribeiro-Neto، أنظمة استرجاع المعلومات الحديثة، مطبعة ACM Press، عام 1999. Christopher Manning، وPrabhakar Raghavan، وHinrich Schütze، مقدمة إلى استرجاع المعلومات، مطبعة جامعة كامبريدج، عام 2009.

15 Safiya Umoja Noble، خوارزميات الاضطهاد: كيف تعزز محركات البحث العنصرية، مطبعة NYU Press، عام 2018.

16 Amin Bigdeli وآخرون، "إستراتيجية الوزن الخفيف للقضاء على التحيزات الجندرية في أدوات الترتيب العصبية"، وقائع المؤتمر الأوروبي الرابع والأربعين حول التقدم في استرجاع المعلومات، عام 2022، ص. 47-55.

17 Dhanasekar Sundararaman and Vivek Subramanian, “Debiasing Gender Bias in Information Retrieval Models,” 2022, https://arxiv.org/abs/2208.01755. Shirin Seyed Salehi et al., “Bias-aware Fair Neural Ranking for Addressing Stereotypical gender Biases,” Microsoft Research, 2022.